还有四大专项评测榜单,探索模型能力边界与应用潜能
原标题:100+大模型综测结果出炉!智源发布FlagEval“百模”评测结果,覆盖文本语音图片视频多种模态
文章来源:量子位
内容字数:6053字
智源研究院发布2024年下半年大模型评测结果
智源研究院于2024年12月19日发布了对100多个国内外开源和闭源大模型的综合及专项评测结果,涵盖语言、视觉语言、文生图、文生视频等多种模态。评测结果显示,2024年下半年大模型发展更注重综合能力提升和实际应用,多模态模型发展迅速,而语言模型发展相对放缓。
语言模型评测:中文能力成焦点
在语言模型主观评测中,字节跳动Doubao-pro-32k-preview和百度ERNIE 4.0 Turbo在中文能力方面表现突出,位列前两名。客观评测方面,OpenAI和Google的模型表现领先,阿里巴巴和字节跳动的模型紧随其后。评测指出,虽然在一般中文场景下模型能力趋于饱和,但在复杂场景下,国内头部模型与国际一流水平仍存在差距。
多模态模型评测:国产模型崭露头角
视觉语言模型方面,开源模型在图文理解任务上正在缩小与闭源模型的差距,但长尾视觉知识和复杂图文数据分析能力仍需提升。OpenAI GPT-4o和字节跳动Doubao-Pro-Vision领先。文生图模型已具备中文文字生成能力,但复杂场景下人物变形等问题仍存在。腾讯Hunyuan Image位列第一。文生视频模型画质和动态性提升显著,但动作变形、物理规律理解等问题依然存在。快手可灵1.5领先。
语音语言模型评测:进步显著,但仍有差距
语音语言模型能力提升显著,但与专家模型仍存在差距,高质量开源模型相对较少。阿里巴巴Qwen2-Audio位居榜首。
K12学科测验:模型能力与学生水平仍有差距
大模型在K12学科测验中的综合得分较半年前有所提升,但仍落后于海淀学生平均水平。在文科方面表现较好,理科方面则相对较弱。
FlagEval评测平台迭代升级
智源研究院的FlagEval大模型评测平台已覆盖全球800多个模型,包含多种任务和数据集。此次评测更新了98%的题目,并提升了难度。平台还新增了模型辩论平台FlagEval Debate,以及针对金融量化交易场景的评测。
金融量化交易评测:模型展现潜力
评测发现,大模型已具备生成量化交易策略代码的能力,头部模型能力接近初级量化交易员水平。深度求索 Deepseek-chat、OpenAI GPT-4o和Google Gemini-1.5-pro-latest在该领域表现领先。
总而言之,智源研究院的此次评测结果全面展现了大模型在2024年下半年的发展现状,并指出了未来发展方向。多模态模型的快速发展以及对实际应用场景的探索,将成为大模型技术发展的重要趋势。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破