LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能体生成教学

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能体生成教学
关键字：数据,模型,基准,研究人员,智能
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：桃子
【新智元导读】合成数据2.0秘诀曝光了！来自微软的研究人员们提出了智能体框架AgentInstruct，能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3，在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。
AI科学家们为了解决这一难题，可谓是绞尽脑汁。
目前来看，合成数据或许就是大模型的未来，也成为业界公认的解决之法。
就连英伟达科学家Jim Fan曾发文表示，合成数据将提供下一万亿个高质量的训练token。
但是，用合成数据，并非完全对LLM训练有帮助。
前段时间，Nature封面研究显示，合成数据迭代9次后，会让大模型崩溃。而且，类似的研究比比皆是。
那么，我们该怎么办呢？
最近，微软团队提出了可扩展的智能体框架——AgentInstruct，可自动创建大量多样化、高质量的合成数据。
它最大的优势在于，仅只用原始数据源，就能创建完整的提示和回应。
论文地址：https://arxiv.org/pdf/2407.03502
对此，研究人员使用AgentInstruct，创建了2500万对「后训练」数据集，涵盖了多种使用技能，如文本编

原文链接：LLM数学性能暴涨168%，微软14人团队力作！合成数据2.0秘诀曝光，智能体生成教学