LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

AIGC动态4个月前发布 新智元
7 0 0

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

AIGC动态欢迎阅读

原标题:LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
关键字:数据,模型,基准,研究人员,智能
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:桃子
【新智元导读】合成数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。全世界高质量数据几乎枯竭。
AI科学家们为了解决这一难题,可谓是绞尽脑汁。
目前来看,合成数据或许就是大模型的未来,也成为业界公认的解决之法。
就连英伟达科学家Jim Fan曾发文表示,合成数据将提供下一万亿个高质量的训练token。
但是,用合成数据,并非完全对LLM训练有帮助。
前段时间,Nature封面研究显示,合成数据迭代9次后,会让大模型崩溃。而且,类似的研究比比皆是。
那么,我们该怎么办呢?
最近,微软团队提出了可扩展的智能体框架——AgentInstruct,可自动创建大量多样化、高质量的合成数据。
它最大的优势在于,仅只用原始数据源,就能创建完整的提示和回应。
论文地址:https://arxiv.org/pdf/2407.03502
对此,研究人员使用AgentInstruct,创建了2500万对「后训练」数据集,涵盖了多种使用技能,如文本编


原文链接:LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...