国产大模型崭露头角，智源FlagEval评测榜单引领全球风潮！

AIGC动态2年前 (2024)发布新智元

原标题：全球百模争霸，国产大模型拿下多个冠军！智源FlagEval 全球评测榜单出炉
文章来源：新智元
内容字数：5822字

2024年大模型评测综述

随着2024年接近尾声，智源研究院发布了下半年大模型综合评测结果，涵盖了100多个开源和闭源模型，涉及文本、语音、图像和视频等多个领域。这一评测相较于今年5月的评估，任务解决能力的内涵得到了扩展和细化，并首次增加了针对金融量化交易场景的应用能力评估。

1. 评测方法与新方向

本次评测引入了基于模型辩论的对比评估方式，深入分析了模型在逻辑推理、观点理解和语言表达等方面的能力。此外，智源研究院结合K12学段的多学科试卷，考察了大模型与人类学生的能力差异，发现模型的综合得分相较于半年前提升了12.86%。

2. 语言模型表现

在语言模型的主观评测中，字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo位列前两名。客观评测方面，OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest表现抢眼。尽管模型在一般中文场景的开放式问答中能力已趋于稳定，但在复杂场景任务中，国内头部语言模型仍与国际一流水平存在显著差距。

3. 多模态模型发展

多模态模型方面，OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028在图文理解任务上表现突出。文生图模型的中文文字生成能力有所提升，但在复杂场景人物变形等方面仍存在不足，腾讯的Hunyuan Image表现最佳。文生视频模型的画质和动态性均有所增强，但仍存在物体消失等问题。

4. 语音语言模型及专项评测

语音语言模型得益于文本大模型的进步，能力显著提升，阿里巴巴的Qwen2-Audio排名第一。在专项评测中，智源研究院推出的FlagEval大模型角斗场和模型辩论平台，进一步探讨模型在逻辑推理和观点表达方面的能力。

5. 未来发展与展望

智源评测体系的迭代覆盖了全球800多款模型，致力于科学、公正的评估标准。未来，智源研究院将继续探索动态评测与多任务能力评估，以提供对大模型技术生态发展的深入洞察。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

阅读原文

# AIGC动态 # 人工智能 # 全球评测 # 国产大模型 # 智源FlagEval # 百模争霸

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

国产大模型崭露头角，智源FlagEval评测榜单引领全球风潮！

2024年大模型评测综述

1. 评测方法与新方向

2. 语言模型表现

3. 多模态模型发展

4. 语音语言模型及专项评测

5. 未来发展与展望

联系作者

七位华人学子荣获2025英伟达奖学金：中科大与浙大校友共襄盛举，人均奖金高达6万美元！

突破专利申请壁垒：中科院推出革命性多智能体框架AutoPatent，助力一键生成万字专利！

相关文章

暂无评论