视频上下文学习!大模型学会“照猫画虎”生成,结合模拟器还能精准控制真实环境交互,来自MSRA

AIGC动态5个月前发布 量子位
7 0 0

视频上下文学习!大模型学会“照猫画虎”生成,结合模拟器还能精准控制真实环境交互,来自MSRA

AIGC动态欢迎阅读

原标题:视频上下文学习!大模型学会“照猫画虎”生成,结合模拟器还能精准控制真实环境交互,来自MSRA
关键字:视频,示例,模型,解读,上下文
文章来源:量子位
内容字数:0字

内容摘要:


Vid-ICL团队 投稿量子位 | 公众号 QbitAI视频生成也能参考“上下文”?!
MSRA提出视频上下文学习(Video In-Context Learning, Vid-ICL),让大模型学会“照猫画虎”式模仿生成。
Vid-ICL通过一段示例视频来指导模型在新场景下的生成,使得生成结果可以在新场景下“模仿”示例视频中完成的任务。
比如,示例视频镜头视角向下移动(左),生成视频同样视角向下移动(右):
示例视频物体向上移动(左),生成视频同样向上移动(右):
物体抓取也能模仿:
△左:示例视频,机械臂抓取物体;右:生成视频打开抽屉也可以按示例进行:
△左:示例视频,打开中间的抽屉;右:生成视频在相同的电风扇场景下,用不同示例视频指导模型生成效果belike:
△左:示例视频,镜头左移;右:生成视频△左:示例视频,镜头右移;右:生成视频要知道,在一个理想的世界模型中,模型与外界环境的交互应当是多样的。而大部分现有工作都聚焦在用文本作为主要的交互方式,这使得对生成结果细节和多样性的控制变得困难。
而视频是高度具象且通用的,能够传递广泛的信息如完成各种任务的示例,包括移动或抓取对象等


原文链接:视频上下文学习!大模型学会“照猫画虎”生成,结合模拟器还能精准控制真实环境交互,来自MSRA

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...