原标题:全球百模争霸,国产大模型拿下多个冠军!智源FlagEval全球评测榜单出炉
文章来源:新智元
内容字数:5822字
2024年大模型评测综述
随着2024年接近尾声,智源研究院发布了下半年大模型综合评测结果,涵盖了100多个开源和闭源模型,涉及文本、语音、图像和视频等多个领域。这一评测相较于今年5月的评估,任务解决能力的内涵得到了扩展和细化,并首次增加了针对金融量化交易场景的应用能力评估。
1. 评测方法与新方向
本次评测引入了基于模型辩论的对比评估方式,深入分析了模型在逻辑推理、观点理解和语言表达等方面的能力。此外,智源研究院结合K12学段的多学科试卷,考察了大模型与人类学生的能力差异,发现模型的综合得分相较于半年前提升了12.86%。
2. 语言模型表现
在语言模型的主观评测中,字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo位列前两名。客观评测方面,OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest表现抢眼。尽管模型在一般中文场景的开放式问答中能力已趋于稳定,但在复杂场景任务中,国内头部语言模型仍与国际一流水平存在显著差距。
3. 多模态模型发展
多模态模型方面,OpenAI GPT-4o-2024-11-20和字节跳动Doubao-Pro-Vision-32k-241028在图文理解任务上表现突出。文生图模型的中文文字生成能力有所提升,但在复杂场景人物变形等方面仍存在不足,腾讯的Hunyuan Image表现最佳。文生视频模型的画质和动态性均有所增强,但仍存在物体消失等问题。
4. 语音语言模型及专项评测
语音语言模型得益于文本大模型的进步,能力显著提升,阿里巴巴的Qwen2-Audio排名第一。在专项评测中,智源研究院推出的FlagEval大模型角斗场和模型辩论平台,进一步探讨模型在逻辑推理和观点表达方面的能力。
5. 未来发展与展望
智源评测体系的迭代覆盖了全球800多款模型,致力于科学、公正的评估标准。未来,智源研究院将继续探索动态评测与多任务能力评估,以提供对大模型技术生态发展的深入洞察。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。