Meta 推出控制数字智能体动作的人工智能模型

AI工具2年前 (2024)发布 AI工具集

产品名称：Meta Motivo
产品简介：Meta Motivo 是 Meta 公司推出的AI模型，能提升元宇宙体验的真实性。Meta Motivo基于控制虚拟人形智能体的全身动作，模拟人类行为，增强用户互动。模型采用无监督强化学习算法，特别是FB-CPR算法，用大量动作数据进行预训练，无需额外训练即可执行动作轨迹跟踪、姿势到达等多种任务。
详细介绍：

Meta Motivo是什么

Meta Motivo 是 Meta 公司推出的AI模型，能提升元宇宙体验的真实性。Meta Motivo基于控制虚拟人形智能体的全身动作，模拟人类行为，增强用户互动。模型采用无监督强化学习算法，特别是FB-CPR算法，用大量动作数据进行预训练，无需额外训练即可执行动作轨迹跟踪、姿势到达等多种任务。Meta Motivo 的核心优势在于学习表示技术，能将状态、动作和奖励映射到同一潜在空间，实现全身控制任务，提升元宇宙体验的逼真度和自然感。

Meta Motivo的主要功能

零样本学习（Zero-Shot Learning）：Meta Motivo能在没有针对特定任务进行训练的情况下，直接处理多种不同的任务，如跟踪、目标达成和奖励优化。
行为模仿与生成：基于学习未标记的行为数据集，Meta Motivo能模仿和生成类似人类的行为。
多任务泛化：在不同的任务和环境中展现良好的性能，包括动态和静态的姿势，及不同的模式。
状态、动作和奖励的统一表示：Meta Motivo将状态、动作和奖励映射到同一潜在空间，实现对复杂行为的统一表示。

Meta Motivo的技术原理

前向-后向表示（Forward-Backward Representations）：基于前向-后向表示学习低秩近似的后继者度量，支持模型在没有进一步训练的情况下，对任何奖励函数进行零样本策略评估和优化。
条件策略正则化（Conditional Policy Regularization）：用潜在条件判别器，Meta Motivo鼓励策略“覆盖”未标记行为数据集中的状态，让学习到的策略与数据集中的行为保持一致。
潜在空间的分布匹配：基于最小化模型诱导的分布与未标记数据集之间的差异，正则化策略学习过程。
在线训练与策略学习：Meta Motivo基于在线训练，将环境交互与模型更新交替进行，让策略学习过程更加高效和目标导向。
变分表示和判别器网络：用变分表示估计Jensen-Shannon散度，用训练判别器网络近似两个分布之间的对数比率，有助于模型捕捉和模仿未标记数据集中的行为。