智源一次性发布超 100 个大模型评测结果，文本到视频等多模态领域全覆盖

AIGC动态2年前 (2024)发布 AI前线

12 月 19 日，智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

原标题：智源一次性发布超 100 个大模型评测结果，文本到视频等多模态领域全覆盖
文章来源：AI前线
内容字数：6483字

智源研究院大模型评测结果解读：综合能力提升与实际应用成焦点

1. **评测概述:** 智源研究院发布了对100多个开源和闭源大模型的综合评测结果，涵盖语言、视觉语言、文生图、文生视频、语音语言等多种模态。评测不仅扩展了任务类型，还首次引入了金融量化交易场景评估和基于模型辩论的对比评估方式，对模型能力进行了更全面、细致的考察。

2. **大模型发展趋势:** 2024年下半年，大模型发展呈现出向综合能力提升和实际应用方向聚焦的趋势。多模态模型发展迅速，涌现出许多新厂商和新模型，而语言模型发展相对放缓。开源生态也更加活跃，出现了新的开源贡献者。用户对模型的响应速度和输出结构化程度要求更高。

3. **语言模型评测:** 在中文场景下，语言模型的开放式问答和生成任务能力趋于饱和，但在复杂场景任务方面，国内头部模型与国际一流水平仍存在差距。主观评测中，字节跳动Doubao-pro和百度ERNIE 4.0 Turbo表现领先；客观评测中，OpenAI o1-mini和Google Gemini-1.5-pro表现突出。

4. **多模态模型评测:**

4.1 **视觉语言模型:** 开源模型在图文理解任务上正在追赶闭源模型，但在长尾视觉知识、文字识别和复杂图文数据分析方面仍有提升空间。OpenAI GPT-4o和字节跳动Doubao-Pro-Vision表现领先。

4.2 **文生图模型:** 头部模型已具备中文文字生成能力，但复杂场景人物变形问题依然存在。数量关系推理能力有所提升，但对中国文化和古诗词的理解仍是挑战。腾讯Hunyuan Image位列第一。

4.3 **文生视频模型:** 画质、动态性和镜头语言都有提升，但动作变形、物理规律理解不足等问题依然存在。快手可灵1.5表现领先。

4.4 **语音语言模型:** 得益于文本大模型的进步，能力显著提升，但与专业模型仍存在差距。阿里巴巴Qwen2-Audio表现最佳。

5. **FlagEval平台评测:** 智源研究院的FlagEval大模型角斗场和FlagEval Debate平台对模型进行了用户偏好和逻辑推理能力的评估。用户更倾向于快速响应和结构化输出。在模型辩论中，模型普遍缺乏辩论框架意识和逻辑严谨性，Anthropic Claude-3-5-sonnet表现最佳。

6. **金融量化交易评测:** 评测发现大模型已能生成具有收益的量化交易策略代码，头部模型能力接近初级量化交易员水平。深度求索Deepseek-chat表现领先。

7. **K12学科评测:** 大模型在K12学科测验中的综合得分较半年前提升，部分模型在英语和历史科目上超越了人类考生平均分，但“文强理弱”的偏科现象依然存在。

8. **评测平台:** 智源研究院的FlagEval平台已覆盖800多个模型，包含20多种任务和90多个数据集，并持续更新评测数据和提升题目难度，以应对数据集泄露和饱和度问题。