视频上下文学习！大模型学会“照猫画虎”生成，结合模拟器还能精准控制真实环境交互，来自MSRA

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：视频上下文学习！大模型学会“照猫画虎”生成，结合模拟器还能精准控制真实环境交互，来自MSRA
关键字：视频,示例,模型,解读,上下文
文章来源：量子位
内容字数：0字

内容摘要：

Vid-ICL团队投稿量子位 | 公众号 QbitAI视频生成也能参考“上下文”？！
MSRA提出视频上下文学习（Video In-Context Learning, Vid-ICL），让大模型学会“照猫画虎”式模仿生成。
Vid-ICL通过一段示例视频来指导模型在新场景下的生成，使得生成结果可以在新场景下“模仿”示例视频中完成的任务。
比如，示例视频镜头视角向下移动（左），生成视频同样视角向下移动（右）：
示例视频物体向上移动（左），生成视频同样向上移动（右）：
物体抓取也能模仿：
△左：示例视频，机械臂抓取物体；右：生成视频打开抽屉也可以按示例进行：
△左：示例视频，打开中间的抽屉；右：生成视频在相同的电风扇场景下，用不同示例视频指导模型生成效果belike：
△左：示例视频，镜头左移；右：生成视频△左：示例视频，镜头右移；右：生成视频要知道，在一个理想的世界模型中，模型与外界环境的交互应当是多样的。而大部分现有工作都聚焦在用文本作为主要的交互方式，这使得对生成结果细节和多样性的控制变得困难。
而视频是高度具象且通用的，能够传递广泛的信息如完成各种任务的示例，包括移动或抓取对象等

原文链接：视频上下文学习！大模型学会“照猫画虎”生成，结合模拟器还能精准控制真实环境交互，来自MSRA