AIGC动态欢迎阅读
原标题:视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
关键字:视频,模型,反馈,报告,成功率
文章来源:机器之心
内容字数:0字
内容摘要:
机器之心报道
编辑:Panda现在正是「文本生视频」赛道百花齐放的时代,而且其应用场景非常多,比如生成创意视频内容、创建游戏场景、制作动画和电影。甚至有研究表明还能将视频生成用作真实世界的模拟器,比如 OpenAI 今年初就发布过一份将视频生成模型作为世界模拟器的技术报告,参阅机器之心报道《我在模拟世界!OpenAI 刚刚公布 Sora 技术细节:是数据驱动物理引擎》。
文本生视频模型的这些近期应用既有望实现互联网规模级别的知识迁移(比如从生成人类视频到生成机器人视频),也有望打通实现通用智能体的道路(比如用单个策略控制不同环境中不同形态的机器人来执行多种多样的任务)。
然而,现实情况是,文本生视频模型的下游应用还很有限,原因包括幻觉问题以及生成的视频内容不符合现实物理机制等。
虽然理论上可以通过扩大数据集和模型大小来有效减轻这些问题,但对视频生成模型来说,这会很困难。
部分原因是标注和整理视频的人力成本很高。另外,视频生成方面还没有一个非常适合大规模扩展的架构。
除了扩大规模,LLM 领域的另一个重要突破是能整合外部反馈来提升生成质量。那文本生视频模型也能受益于这一思路吗?
为了解答
原文链接:视频生成模型变身智能体:斯坦福Percy Liang等提出VideoAgent,竟能自我优化
联系作者
文章来源:机器之心
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...