智源FlagEval「百模」评测:模型生态新纪元的变革之路

评测全面升级,多维度探索模型能力边界与应用潜能。

智源FlagEval「百模」评测:模型生态新纪元的变革之路

原标题:智源发布FlagEval「百模」评测结果,丈量模型生态变局
文章来源:机器之心
内容字数:5780字

智源研究院发布2024年大模型评测结果

2024年12月19日,智源研究院发布了针对国内外100余个开源与商业闭源大模型的综合评测结果。此次评测相较于今年5月的评估,扩展了任务解决能力的内涵,新增了数据处理、高级编程和工具调用等能力评估,并首次涉及真实金融量化交易场景的应用能力。

1. 评测的主要内容

智源评测强调了语言、视觉语言、文生图、文生视频和语音语言模型的能力提升,特别是在多模态模型方面,新的厂商和模型涌现。评测发现,尽管中文开放式问答和生成任务的能力趋于稳定,复杂场景任务中,国内模型仍显著落后于国际顶尖水平。

2. 语言模型的排名

在主观评测中,字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo分别位居第一和第二。客观评测方面,OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest排名前两位。整体来看,语言模型的能力有显著提升,但在复杂场景中仍需改进。

3. 多模态模型的表现

视觉语言多模态模型虽在图文理解任务上表现好,但仍面临长尾视觉知识和复杂图文数据分析能力不足的问题。文生图模型在生成中文文字方面有所进步,但在处理复杂场景时仍存在变形等问题。文生视频模型在画质和动态性上有所提升,但也面临物体消失和穿模等问题。

4. 语音模型的进展

语音语言模型的能力得益于文本大模型的进步,虽然整体性能有所提升,但在具体任务上仍与专家模型存在差距。阿里巴巴的Qwen2-Audio在专项评测中排名第一。

5. K12学科测验与用户偏好

智源研究院联合海淀区教师进修学校进行了K12学科测验,模型的综合得分较半年前提升了12.86%。此外,FlagEval平台的推出使得用户能够对不同模型进行评测,结果显示用户对模型响应时间及输出内容的标准化有更高的要求。

6. 未来展望

智源研究院表示,未来将继续探索动态评测与多任务能力评估体系,以进一步感知大模型的发展趋势。此次评测为大模型技术生态的发展提供了重要的洞察,助力行业的进步。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...