原标题:指令跟随拼!Meta发布多轮多语言基准Multi-IF:覆盖8种语言,超4500种任务
文章来源:新智元
内容字数:6039字
文章要点总结
本文主要介绍了Meta发布的全新基准Multi-IF,旨在评估大语言模型(LLM)在多轮对话和多语言环境中的指令遵循能力。该基准涵盖八种语言和4501个三轮对话任务,揭示了当前LLM在复杂多轮和多语言场景中的挑战与局限性。
1. Multi-IF基准的背景
随着大语言模型的发展,评估其在多轮对话和多语言环境中的表现变得尤为重要。现有评估标准多集中于单轮对话和单语言任务,难以全面反映模型在复杂场景中的能力。Meta的Multi-IF基准为研究人员提供了更具挑战性的评估工具。
2. 数据集构建
Multi-IF数据集通过精细设计和筛选构建,涵盖多轮和多语言任务。研究团队首先基于单轮数据扩展为多轮指令,确保逻辑一致性和递进性。随后,通过自动翻译和人工校对,将数据集从英语扩展至七种语言。
3. 实验结果
Meta团队对14种先进的LLM进行了评估,结果显示o1-preview和Llama 3.1 405B模型表现最佳。在三轮指令的平均准确率上,o1-preview为78.9%,Llama 3.1 405B为78.1%。然而,所有模型在多轮对话中准确率随着轮次增加显著下降,尤其是在非拉丁文字的语言任务中表现较差。
4. 指令遗忘与自我纠正
研究引入了指令遗忘率(IFR)来量化模型在多轮对话中的指令遗忘现象。实验表明,高性能模型的遗忘率相对较低。同时,o1-preview和o1-mini在错误自我修正方面表现突出,能够在后续轮次中纠正约25%的未遵循指令。
5. 多语言指令遵循能力
实验结果显示,模型在多语言环境中的指令遵循能力存在显著差异。英语的指令执行准确率普遍最高,而非拉丁文字语言的错误率明显更高,表明当前模型在处理这些语言时仍存在局限性。
6. 结论与未来方向
Multi-IF基准揭示了当前LLM在多轮对话和多语言任务中的不足,尤其是准确率下降和指令遗忘的问题。研究结果为未来提升LLM的指令遵循能力提供了重要的参考和方向。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。