Meta推出划时代的Multi-IF基准：涵盖8种语言与4500+任务，开启多轮挑战新篇章！

AIGC动态9个月前发布新智元

476 0 0

Meta推出划时代的Multi-IF基准：涵盖8种语言与4500+任务，开启多轮挑战新篇章！

原标题：指令跟随拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务
文章来源：新智元
内容字数：6039字

文章要点总结

本文主要介绍了Meta发布的全新基准Multi-IF，旨在评估大语言模型（LLM）在多轮对话和多语言环境中的指令遵循能力。该基准涵盖八种语言和4501个三轮对话任务，揭示了当前LLM在复杂多轮和多语言场景中的挑战与局限性。

1. Multi-IF基准的背景

随着大语言模型的发展，评估其在多轮对话和多语言环境中的表现变得尤为重要。现有评估标准多集中于单轮对话和单语言任务，难以全面反映模型在复杂场景中的能力。Meta的Multi-IF基准为研究人员提供了更具挑战性的评估工具。

2. 数据集构建

Multi-IF数据集通过精细设计和筛选构建，涵盖多轮和多语言任务。研究团队首先基于单轮数据扩展为多轮指令，确保逻辑一致性和递进性。随后，通过自动翻译和人工校对，将数据集从英语扩展至七种语言。

3. 实验结果

Meta团队对14种先进的LLM进行了评估，结果显示o1-preview和Llama 3.1 405B模型表现最佳。在三轮指令的平均准确率上，o1-preview为78.9%，Llama 3.1 405B为78.1%。然而，所有模型在多轮对话中准确率随着轮次增加显著下降，尤其是在非拉丁文字的语言任务中表现较差。

4. 指令遗忘与自我纠正

研究引入了指令遗忘率（IFR）来量化模型在多轮对话中的指令遗忘现象。实验表明，高性能模型的遗忘率相对较低。同时，o1-preview和o1-mini在错误自我修正方面表现突出，能够在后续轮次中纠正约25%的未遵循指令。

5. 多语言指令遵循能力

实验结果显示，模型在多语言环境中的指令遵循能力存在显著差异。英语的指令执行准确率普遍最高，而非拉丁文字语言的错误率明显更高，表明当前模型在处理这些语言时仍存在局限性。

6. 结论与未来方向

Multi-IF基准揭示了当前LLM在多轮对话和多语言任务中的不足，尤其是准确率下降和指令遗忘的问题。研究结果为未来提升LLM的指令遵循能力提供了重要的参考和方向。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

# AIGC动态 # Meta技术 # 人工智能评测 # 任务覆盖 # 多语言基准 # 多轮对话

© 版权声明

文章版权归作者所有，未经允许请勿转载。

蝉镜AI数字人

相关文章

Kimi K2 高速版

4

44

25

817

MSQA：大规模多模态3D场景推理数据集

1,112

1,125

蝉镜AI数字人

暂无评论

暂无评论...