无直接数据可用,AI怎么学会「干活」?微软团队揭秘AI从语言到行动的进化之路

为LAMs的开发提供了首个实践范例

无直接数据可用,AI怎么学会「干活」?微软团队揭秘AI从语言到行动的进化之路

原标题:无直接数据可用,AI怎么学会「干活」?微软团队揭秘AI从语言到行动的进化之路
文章来源:机器之心
内容字数:7855字

微软团队突破性研究:从语言到行动,构建大行动模型LAM

本文总结了微软DKI团队发表的技术报告,该报告详细阐述了如何从零开始训练一个大行动模型(LAM),从而实现AI从被动语言生成向主动行动生成的转变。

1. LLM的局限性和LAM的优势

传统的LLM(如GPT系列)擅长文本生成,但在与物理或数字环境交互方面存在局限性,无法执行超出文本层面的操作。 微软团队提出的LAM则具备三大特性:用户意图理解、行动生成能力以及动态规划与适应能力,能够将用户的意图转化为各种形式的可执行步骤,并根据环境变化调整计划,从而更好地完成复杂任务。

2. 从LLM到LAM的挑战

构建LAM面临三大挑战:首先是数据积累的难题,LAM训练需要大量任务-行动对数据,而这类数据通常难以获取;其次是模型训练的重大转化,需要从文本生成模型转变为具备任务规划、动态执行和调整能力的模型;最后是离线评估的局限性,以及环境适配和线上评估的复杂性,需要在真实环境中测试LAM的实际性能。

3. 数据积累:从无到有的数据构建

为了解决数据稀缺问题,微软团队设计了一套两阶段的数据收集与处理流程:第一阶段,从开源资源(如应用帮助文档、WikiHow教程和搜索查询记录)收集任务-计划数据,并通过数据增强技术扩充数据集;第二阶段,将抽象的计划步骤转化为具体的行动序列,并在真实环境中执行验证,最终生成结构化的任务-行动对。这个流程成功地从无数据状态构建了LAM训练所需的高质量数据集。

4. LAM的训练过程:四个阶段

LAM的训练分为四个阶段:第一阶段,任务计划预训练,让模型学习生成任务分解计划;第二阶段,专家知识学习,通过模仿学习让模型执行具体操作;第三阶段,自我探索提升,让LAM在真实环境中尝试完成任务,并积累新的成功经验;第四阶段,奖励模型优化,利用强化学习提升模型的决策能力。

5. 实验结果与结论

离线和线上实验结果都表明,LAM在任务成功率、效率方面都显著优于基线模型(GPT-4o)。LAM的成功为AI从被动语言生成向主动行动生成的转变提供了新的思路,也为大行动模型的开发提供了首个实践范例。

6. LAM的实际应用

经过训练的LAM模型被集成到GUI智能体UFO的AppAgent中,通过与Windows操作系统交互,完成实际任务。这表明LAM具有良好的实际应用潜力。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止