智源发布FlagEval「百模」评测结果，丈量模型生态变局

AIGC动态2年前 (2024)发布机器之心

评测全面升级，多维度探索模型能力边界与应用潜能。

原标题：智源发布FlagEval「百模」评测结果，丈量模型生态变局
文章来源：机器之心
内容字数：5780字

智源研究院发布2024年下半年大模型评测结果

智源研究院于2024年12月19日发布了对100多个开源和闭源大模型的综合评测结果，该评测涵盖语言、视觉语言、文生图、文生视频以及语音语言模型等多个领域。相较于今年5月的评测，本次评测在任务类型、评测维度上进行了显著扩展和细化。

1. 评测范围与重点

本次评测新增了数据处理、高级编程和工具调用等能力评估，首次引入面向真实金融量化交易场景的应用能力评估，并首次探索基于模型辩论的对比评估方式。评测结果显示，2024年下半年大模型发展更聚焦综合能力提升与实际应用，多模态模型发展迅速，而语言模型发展相对放缓。

2. 语言模型评测结果

在语言模型主观评测中，字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo表现最佳；客观评测中，OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest排名靠前。虽然在一般中文场景下模型能力趋于饱和，但在复杂场景任务中，国内头部语言模型与国际一流水平仍存在差距。

3. 多模态模型评测结果

视觉语言多模态模型方面，开源模型在图文理解任务上正在缩小与闭源模型的差距，但长尾视觉知识和复杂图文数据分析能力仍需提升。OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现领先。文生图模型已具备中文文字生成能力，但在复杂场景下仍存在人物变形等问题。腾讯Hunyuan Image排名第一。文生视频模型画质和动态性提升显著，但仍存在动作变形、违反物理规律等问题。快手可灵1.5排名靠前。

4. 语音语言模型评测结果

语音语言模型能力提升显著，但与专业模型仍存在差距，性能好、通用能力强的开源模型较少。阿里巴巴Qwen2-Audio排名第一。

5. K12学科测验及用户偏好

智源研究院联合海淀区教师进修学校对大模型进行了K12学科测验，结果显示模型综合得分较半年前提升，但在某些学科上仍落后于人类学生。用户偏好评测（FlagEval）显示，用户更注重模型响应速度和输出结构化程度。

6. 模型辩论评测

模型辩论评测（FlagEval Debate）显示，大模型普遍缺乏辩论框架意识，容易出现“幻觉”问题。Anthropic Claude-3-5-sonnet-20241022表现最佳。

7. 金融量化交易评测

金融量化交易评测显示，大模型已具备生成量化交易策略代码的能力，头部模型能力接近初级量化交易员水平。深度求索Deepseek-chat排名第一。

8. FlagEval平台迭代

智源研究院的FlagEval大模型评测平台已覆盖全球800多个模型，并持续迭代更新评测数据和方法，以保证评测的科学性和权威性。

总而言之，智源研究院的此次评测结果为大模型发展提供了重要的参考，也指明了未来大模型发展方向——提升综合能力、拓展实际应用，以及解决模型的“幻觉”等问题。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # FlagEval评测结果 # 大模型评测 # 智源研究院 # 模型生态变局 # 长尾能力评估

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

智源发布FlagEval「百模」评测结果，丈量模型生态变局

评测全面升级，多维度探索模型能力边界与应用潜能。

智源研究院发布2024年下半年大模型评测结果

1. 评测范围与重点

2. 语言模型评测结果

3. 多模态模型评测结果

4. 语音语言模型评测结果

5. K12学科测验及用户偏好

6. 模型辩论评测

7. 金融量化交易评测

8. FlagEval平台迭代

联系作者

颠覆想象：UniReal如何融合视频架构，实现图像生成与编辑的未来之旅

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

相关文章

暂无评论