全球百模争霸,国产大模型拿下多个冠军!智源FlagEval全球评测榜单出炉

AIGC动态1个月前发布 新智元
1 0 0

全球百模争霸,国产大模型拿下多个冠军!智源FlagEval全球评测榜单出炉

原标题:全球百模争霸国产大模型拿下多个冠军!智源FlagEval全球评测榜单出炉
文章来源:新智元
内容字数:5822字

智源研究院发布2024下半年大模型评测结果

1. **评测概述:** 智源研究院发布了2024年下半年大模型综合评测结果,涵盖100多个开源和闭源模型,评估范围涵盖文本、语音、图像和视频等多个领域。本次评测相比5月份的评估,在任务难度、评估维度和应用场景上都有显著提升,新增了数据处理、高级编程、工具调用以及金融量化交易等方面的评估。

2. **语言模型评测:** 在语言模型主观评测中,字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo表现最佳;客观评测中,OpenAI o1-mini-2024-09-12和Google Gemini-1.5-pro-latest领先。总体而言,在一般中文场景下,模型能力趋于饱和,但在复杂场景下,国内头部模型与国际一流水平仍存在差距。

3. **多模态模型评测:** 多模态模型发展迅速,视觉语言模型中,开源模型在图文理解任务上正在缩小与闭源模型的差距;文生图模型已具备中文文字生成能力,但复杂场景下的表现仍需提升;文生视频模型的画质和动态性有所提升,但仍存在动作变形、物理规律理解不足等问题。各个模态的领先模型分别为:视觉语言模型方面,OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028领先;文生图模型方面,腾讯Hunyuan Image位列第一;文生视频模型方面,快手可灵1.5领先。

4. **语音语言模型评测:** 语音语言模型能力提升显著,但与专业模型仍存在差距,高性能的开源模型相对较少。阿里巴巴Qwen2-Audio在专项评测中排名第一。

5. **K12学科测验:** 智源研究院再次联合海淀区教师进修学校进行K12学科测验,模型综合得分较半年前提升12.86%,但在部分学科上仍与人类学生存在差距,呈现出“文强理弱”的偏科现象。某些模型在英语和历史科目上的表现甚至超越了人类考生的平均分。

6. **FlagEval平台评测:** FlagEval大模型角斗场和FlagEval Debate平台对模型进行了用户偏好和辩论能力的评估。用户更倾向于模型提供结构化、标准化的输出;模型在辩论中普遍缺乏逻辑框架和论据支撑,更擅长反驳而非论证。

7. **金融量化交易评测:** 评测探索了大模型在金融量化交易领域的应用,发现头部模型已具备生成有回撤收益的策略代码的能力,部分模型能力接近初级量化交易员水平。

8. **FlagEval平台迭代:** FlagEval平台持续迭代,已覆盖全球800多个开闭源模型,并不断更新评测数据集和方法,以确保评测的科学性和权威性。 智源研究院致力于打造一个公正、开放的大模型评测平台,为大模型技术生态发展提供参考。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止