智源发布FlagEval评测:全球100+大模型多模态表现一览!

AIGC动态2个月前发布 量子位
3 0 0

还有四大专项评测榜单,探索模型能力边界与应用潜能

智源发布FlagEval评测:全球100+大模型多模态表现一览!

原标题:100+大模型综测结果出炉!智源发布FlagEval“百模”评测结果,覆盖文本语音图片视频多种模态
文章来源:量子位
内容字数:6053字

2024年大模型综测结果发布

根据智源研究院的最新评测结果,2024年下半年的大模型发展将更加关注综合能力提升与实际应用。此次评测涵盖了100余个开源和闭源的大模型,涉及语言、视觉语言、文生图、文生视频及语音语言等多个领域。

主要结论

1. **多模态模型迅速发展**:新厂商和新模型不断涌现,语言模型的发展相对放缓。开源生态中,新的贡献者逐渐增多。

2. **语言模型评测**:在中文能力的主观评测中,字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo分别位于第一和第二。复杂场景任务中,国内顶尖语言模型仍与国际水平存在显著差距。

3. **视觉语言模型表现**:尽管开源模型趋同,表现却不一。领先的模型在图文理解任务上缩小了与闭源模型的差距,但在长尾视觉知识和复杂数据分析能力上仍需提升。

4. **文生图和文生视频模型**:头部文生图模型开始具备中文文字生成能力,但在复杂场景下表现仍有不足。文生视频模型的画质和动态性有所提升,但仍存在物体变形和理解物理规律的困难。

专项评测与应用能力

1. **K12学科测验**:大模型与人类学生的能力差距仍然存在,但整体表现较半年前有所提升,尤其在英语和历史试题中已超越人类考生。

2. **FlagEval模型角斗场**:智源研究院推出的模型对战评测服务显示,用户对模型的响应时间和内容结构化要求更高。

3. **金融量化交易评测**:探讨了模型在金融领域的应用,发现大模型已具备生成有回撤收益的策略代码的能力,但在实际代码生成任务上的表现差异较大。

总结与未来展望

智源研究院通过FlagEval评测体系,不断探索模型能力的边界与应用潜力。副院长林咏华表示,未来将进一步发展动态评测与多任务能力评估体系,为大模型技术生态的发展提供深刻洞察。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...