全球百模争霸，国产大模型拿下多个冠军！智源FlagEval全球评测榜单出炉

AIGC动态2年前 (2024)发布新智元

原标题：全球百模争霸，国产大模型拿下多个冠军！智源FlagEval全球评测榜单出炉
文章来源：新智元
内容字数：5822字

智源研究院发布2024下半年大模型评测结果

1. **评测概述:** 智源研究院发布了2024年下半年大模型综合评测结果，涵盖100多个开源和闭源模型，评估范围涵盖文本、语音、图像和视频等多个领域。本次评测相比5月份的评估，在任务难度、评估维度和应用场景上都有显著提升，新增了数据处理、高级编程、工具调用以及金融量化交易等方面的评估。

2. **语言模型评测:** 在语言模型主观评测中，字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo表现最佳；客观评测中，OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest领先。总体而言，在一般中文场景下，模型能力趋于饱和，但在复杂场景下，国内头部模型与国际一流水平仍存在差距。

3. **多模态模型评测:** 多模态模型发展迅速，视觉语言模型中，开源模型在图文理解任务上正在缩小与闭源模型的差距；文生图模型已具备中文文字生成能力，但复杂场景下的表现仍需提升；文生视频模型的画质和动态性有所提升，但仍存在动作变形、物理规律理解不足等问题。各个模态的领先模型分别为：视觉语言模型方面，OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028领先；文生图模型方面，腾讯Hunyuan Image位列第一；文生视频模型方面，快手可灵1.5领先。

4. **语音语言模型评测:** 语音语言模型能力提升显著，但与专业模型仍存在差距，高性能的开源模型相对较少。阿里巴巴Qwen2-Audio在专项评测中排名第一。

5. **K12学科测验:** 智源研究院再次联合海淀区教师进修学校进行K12学科测验，模型综合得分较半年前提升12.86%，但在部分学科上仍与人类学生存在差距，呈现出“文强理弱”的偏科现象。某些模型在英语和历史科目上的表现甚至超越了人类考生的平均分。

6. **FlagEval平台评测:** FlagEval大模型角斗场和FlagEval Debate平台对模型进行了用户偏好和辩论能力的评估。用户更倾向于模型提供结构化、标准化的输出；模型在辩论中普遍缺乏逻辑框架和论据支撑，更擅长反驳而非论证。

7. **金融量化交易评测:** 评测探索了大模型在金融量化交易领域的应用，发现头部模型已具备生成有回撤收益的策略代码的能力，部分模型能力接近初级量化交易员水平。

8. **FlagEval平台迭代:** FlagEval平台持续迭代，已覆盖全球800多个开闭源模型，并不断更新评测数据集和方法，以确保评测的科学性和权威性。智源研究院致力于打造一个公正、开放的大模型评测平台，为大模型技术生态发展提供参考。