智源FlagEval「百模」评测：模型生态新纪元的变革之路

AIGC动态2年前 (2024)发布机器之心

评测全面升级，多维度探索模型能力边界与应用潜能。

原标题：智源发布FlagEval「百模」评测结果，丈量模型生态变局
文章来源：机器之心
内容字数：5780字

智源研究院发布2024年大模型评测结果

2024年12月19日，智源研究院发布了针对国内外100余个开源与商业闭源大模型的综合评测结果。此次评测相较于今年5月的评估，扩展了任务解决能力的内涵，新增了数据处理、高级编程和工具调用等能力评估，并首次涉及真实金融量化交易场景的应用能力。

1. 评测的主要内容

智源评测强调了语言、视觉语言、文生图、文生视频和语音语言模型的能力提升，特别是在多模态模型方面，新的厂商和模型涌现。评测发现，尽管中文开放式问答和生成任务的能力趋于稳定，复杂场景任务中，国内模型仍显著落后于国际顶尖水平。

2. 语言模型的排名

在主观评测中，字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo分别位居第一和第二。客观评测方面，OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest排名前两位。整体来看，语言模型的能力有显著提升，但在复杂场景中仍需改进。

3. 多模态模型的表现

视觉语言多模态模型虽在图文理解任务上表现好，但仍面临长尾视觉知识和复杂图文数据分析能力不足的问题。文生图模型在生成中文文字方面有所进步，但在处理复杂场景时仍存在变形等问题。文生视频模型在画质和动态性上有所提升，但也面临物体消失和穿模等问题。

4. 语音模型的进展

语音语言模型的能力得益于文本大模型的进步，虽然整体性能有所提升，但在具体任务上仍与专家模型存在差距。阿里巴巴的Qwen2-Audio在专项评测中排名第一。

5. K12学科测验与用户偏好

智源研究院联合海淀区教师进修学校进行了K12学科测验，模型的综合得分较半年前提升了12.86%。此外，FlagEval平台的推出使得用户能够对不同模型进行评测，结果显示用户对模型响应时间及输出内容的标准化有更高的要求。

6. 未来展望

智源研究院表示，未来将继续探索动态评测与多任务能力评估体系，以进一步感知大模型的发展趋势。此次评测为大模型技术生态的发展提供了重要的洞察，助力行业的进步。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 人工智能行业 # 智源发布 # 模型生态 # 百模评测 # 评测结果

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

智源FlagEval「百模」评测：模型生态新纪元的变革之路

评测全面升级，多维度探索模型能力边界与应用潜能。

智源研究院发布2024年大模型评测结果

1. 评测的主要内容

2. 语言模型的排名

3. 多模态模型的表现

4. 语音模型的进展

5. K12学科测验与用户偏好

6. 未来展望

联系作者

自动驾驶的转型之路：图森未来陈默揭秘AIGC游戏与金庸、三体的奇妙结合

谷歌Gemini 2.0 Flash Thinking：引领AI推理的全新时代，超越o1-preview的革命性突破

相关文章

暂无评论