智源发布FlagEval「百模」评测结果,丈量模型生态变局

评测全面升级,多维度探索模型能力边界与应用潜能。

智源发布FlagEval「百模」评测结果,丈量模型生态变局

原标题:智源发布FlagEval「百模」评测结果,丈量模型生态变局
文章来源:机器之心
内容字数:5780字

智源研究院发布2024年下半年大模型评测结果

智源研究院于2024年12月19日发布了对100多个开源和闭源大模型的综合评测结果,该评测涵盖语言、视觉语言、文生图、文生视频以及语音语言模型等多个领域。相较于今年5月的评测,本次评测在任务类型、评测维度上进行了显著扩展和细化。

1. 评测范围与重点

本次评测新增了数据处理、高级编程和工具调用等能力评估,首次引入面向真实金融量化交易场景的应用能力评估,并首次探索基于模型辩论的对比评估方式。评测结果显示,2024年下半年大模型发展更聚焦综合能力提升与实际应用,多模态模型发展迅速,而语言模型发展相对放缓。

2. 语言模型评测结果

在语言模型主观评测中,字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo表现最佳;客观评测中,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest排名靠前。虽然在一般中文场景下模型能力趋于饱和,但在复杂场景任务中,国内头部语言模型与国际一流水平仍存在差距。

3. 多模态模型评测结果

视觉语言多模态模型方面,开源模型在图文理解任务上正在缩小与闭源模型的差距,但长尾视觉知识和复杂图文数据分析能力仍需提升。OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028表现领先。文生图模型已具备中文文字生成能力,但在复杂场景下仍存在人物变形等问题。腾讯Hunyuan Image排名第一。文生视频模型画质和动态性提升显著,但仍存在动作变形、违反物理规律等问题。快手可灵1.5排名靠前。

4. 语音语言模型评测结果

语音语言模型能力提升显著,但与专业模型仍存在差距,性能好、通用能力强的开源模型较少。阿里巴巴Qwen2-Audio排名第一。

5. K12学科测验及用户偏好

智源研究院联合海淀区教师进修学校对大模型进行了K12学科测验,结果显示模型综合得分较半年前提升,但在某些学科上仍落后于人类学生。用户偏好评测(FlagEval)显示,用户更注重模型响应速度和输出结构化程度。

6. 模型辩论评测

模型辩论评测(FlagEval Debate)显示,大模型普遍缺乏辩论框架意识,容易出现“幻觉”问题。Anthropic Claude-3-5-sonnet-20241022表现最佳。

7. 金融量化交易评测

金融量化交易评测显示,大模型已具备生成量化交易策略代码的能力,头部模型能力接近初级量化交易员水平。深度求索Deepseek-chat排名第一。

8. FlagEval平台迭代

智源研究院的FlagEval大模型评测平台已覆盖全球800多个模型,并持续迭代更新评测数据和方法,以保证评测的科学性和权威性。

总而言之,智源研究院的此次评测结果为大模型发展提供了重要的参考,也指明了未来大模型发展方向——提升综合能力、拓展实际应用,以及解决模型的“幻觉”等问题。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止