100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

AIGC动态2年前 (2024)发布量子位

还有四大专项评测榜单，探索模型能力边界与应用潜能

原标题：100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态
文章来源：量子位
内容字数：6053字

智源研究院发布2024年下半年大模型评测结果

智源研究院于2024年12月19日发布了对100多个国内外开源和闭源大模型的综合及专项评测结果，涵盖语言、视觉语言、文生图、文生视频等多种模态。评测结果显示，2024年下半年大模型发展更注重综合能力提升和实际应用，多模态模型发展迅速，而语言模型发展相对放缓。

语言模型评测：中文能力成焦点
在语言模型主观评测中，字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力方面表现突出，位列前两名。客观评测方面，OpenAI和Google的模型表现领先，阿里巴巴和字节跳动的模型紧随其后。评测指出，虽然在一般中文场景下模型能力趋于饱和，但在复杂场景下，国内头部模型与国际一流水平仍存在差距。
多模态模型评测：国产模型崭露头角
视觉语言模型方面，开源模型在图文理解任务上正在缩小与闭源模型的差距，但长尾视觉知识和复杂图文数据分析能力仍需提升。OpenAI GPT-4o和字节跳动Doubao-Pro-Vision领先。文生图模型已具备中文文字生成能力，但复杂场景下人物变形等问题仍存在。腾讯Hunyuan Image位列第一。文生视频模型画质和动态性提升显著，但动作变形、物理规律理解等问题依然存在。快手可灵1.5领先。
语音语言模型评测：进步显著，但仍有差距
语音语言模型能力提升显著，但与专家模型仍存在差距，高质量开源模型相对较少。阿里巴巴Qwen2-Audio位居榜首。
K12学科测验：模型能力与学生水平仍有差距
大模型在K12学科测验中的综合得分较半年前有所提升，但仍落后于海淀学生平均水平。在文科方面表现较好，理科方面则相对较弱。
FlagEval评测平台迭代升级
智源研究院的FlagEval大模型评测平台已覆盖全球800多个模型，包含多种任务和数据集。此次评测更新了98%的题目，并提升了难度。平台还新增了模型辩论平台FlagEval Debate，以及针对金融量化交易场景的评测。
金融量化交易评测：模型展现潜力
评测发现，大模型已具备生成量化交易策略代码的能力，头部模型能力接近初级量化交易员水平。深度求索 Deepseek-chat、OpenAI GPT-4o和Google Gemini-1.5-pro-latest在该领域表现领先。

总而言之，智源研究院的此次评测结果全面展现了大模型在2024年下半年的发展现状，并指出了未来发展方向。多模态模型的快速发展以及对实际应用场景的探索，将成为大模型技术发展的重要趋势。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # FlagEval # 多模态评测 # 大模型评测 # 智源研究院 # 百模大战

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

还有四大专项评测榜单，探索模型能力边界与应用潜能

智源研究院发布2024年下半年大模型评测结果

语言模型评测：中文能力成焦点

多模态模型评测：国产模型崭露头角

语音语言模型评测：进步显著，但仍有差距

K12学科测验：模型能力与学生水平仍有差距

FlagEval评测平台迭代升级

金融量化交易评测：模型展现潜力

联系作者

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

12个大模型攒局玩“大富翁”：Claude3.5爱合作，GPT-4o最“自私”｜谷歌DeepMind研究

相关文章

暂无评论