原标题:微软华人团队最新研究:从LLM到LAM,让大模型真正具有「行动力」!
文章来源:新智元
内容字数:6294字
微软大型行动模型LAM:AI从“”到“行动”的跨越
人工智能正经历一场从语言模型(LLM)到大型行动模型(LAM)的性转变。 传统的LLM擅长理解和生成文本,但仅限于“纸上谈兵”。而LAM则更进一步,它不仅能理解指令,还能在软件环境中自主执行任务,真正做到“行动胜于言辞”。
1. LAM的核心能力: 与LLM不同,LAM能够将用户的自然语言指令转化为具体的行动步骤,例如在Microsoft Office中进行文档编辑、表格处理等。这并非简单的文本生成,而是直接在软件环境中进行操作,极大地提升了实际应用价值。 想象一下,你只需要用语音或文字告诉LAM“帮我买一件男士夹克”,它就能帮你完成从挑选款式到网购的全过程,这比LLM只能提供文本步骤的效率高出许多。
2. LAM的开发过程: LAM的训练过程并非易事,它包含四个关键步骤:
- 任务分解与规划: 将复杂任务分解成逻辑步骤,并制定详细的执行计划。
- 行动生成与执行: 将计划转化为具体的行动指令,例如GUI操作或API调用。
- 动态调整与优化: 根据执行过程中的反馈,调整行动策略,提高效率和成功率。
- 奖励机制学习: 通过强化学习,根据任务完成情况给予奖励或惩罚,进一步优化模型性能。
3. LAM的数据收集与构建: LAM的训练依赖于高质量的数据。研究人员采用两阶段数据收集方法:
- 任务-计划数据: 收集用户请求(任务)及其对应的详细步骤(计划)。
- 任务-行动数据: 将计划转化为可在特定环境中执行的具体动作序列。
这些数据确保LAM既能进行高层次规划,又能执行低层次操作。
4. LAM的性能评估: 研究人员将LAM集成到GUI智能体UFO中进行测试。结果显示,LAM在Word环境中的任务成功率达到71%,显著高于GPT-4o在相同条件下的63%。此外,LAM的执行速度也更快,每个任务平均耗时仅30秒。
5. LAM的未来展望: LAM的出现为办公自动化、复杂任务处理等领域带来了新的可能性,例如自动执行文档编辑、表格处理等。 虽然LAM目前仍面临一些挑战,例如在复杂环境中的错误操作可能带来风险,但它无疑代表了AI发展的重要方向,预示着未来AI助手将能够更积极地协助人类完成实际任务,朝着通用人工智能(AGI)迈进。
总而言之,LAM的出现标志着AI从简单的语言理解向实际任务执行的重大飞跃,它不仅能“”,更能“行动”,为我们的生活和工作带来更多便利。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。