阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024

AIGC动态2年前 (2024)发布智东西

AIGC动态欢迎阅读

原标题：阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024
关键字：视频,人物,模型,解读,框架
文章来源：智东西
内容字数：10435字

内容摘要：

四大框架玩转AI人物视频生成，已落地通义千问APP。
2024中国生成式AI大会于4月18-19日在北京举行，在大会首日的主会场开幕式上，阿里巴巴通义实验室XR团队负责人薄列峰博士以《人物视频生成新范式》为题发表演讲。
随着Sora等文生视频模型掀起热潮，很多人都在探讨文生视频模型能不能算作世界模型。对此，薄列峰认为，文生视频模型与世界模型的机制存在差异，视频是一个观察者角色，并不能真正改变世界，文字与物理世界描述之间也具有不对应关系。
人物视频生成模型是阿里通义实验室XR团队的一个研究重点。薄列峰通过人物动作、人物换装、人物替身、人物唱演4个框架来解读人物视频生成新范式。基于这些框架的应用，正逐步落地通义千问APP。
人物动作视频生成框架Animate Anyone可基于单张图和动作序列，输出稳定、可控的人物动作视频；人物换装视频生成框架Outfit Anyone是基于服饰图和人物形象；人物视频角色替换框架Motionshop采用Video2Motion，基于视频人物动作驱动3D数字人；人物唱演视频生成框架Emote Portrait Alive能够基于单张图和音频，输出准确、生动的

原文链接：阿里通义实验室薄列峰：从兵马俑跳“科目三”到照片唱歌，四大框架让AI生成的人物活起来丨GenAICon 2024