音频驱动人像视频模型：字节Loopy、CyberHost研究成果揭秘

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：音频驱动人像视频模型：字节Loopy、CyberHost研究成果揭秘
关键字：字节跳动,音频,团队,视频,动作
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心发布
机器之心编辑部近期，来自字节跳动的视频生成模型 Loopy，一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频，对声音中呼吸，叹气，挑眉等细节都能生成的非常自然，让网友直呼哈利波特的魔法也不过如此。Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频，就可以生成相应的视频。不但可以实现准确的音频和口型同步，还可以生成细微自然的表情动作，例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀等非语言类动作也能很好地被捕捉到；在唱歌时也能表现得活灵活现，驾驭不同风格。柔和高昂rap
更多丰富风格的展示，可移步项目主页：https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634
在不同的图片风格上，Loopy 也都表现得不错，像古风画像、粘土风格、油画风格、3D 素材以及侧脸的情况等等。Loopy 技术方案
具体来说，Loopy 是如何仅需音频，就能实现这样生动的效果呢？Loopy 框架中分别对外观信息（对应图中左上角）和音频信

原文链接：音频驱动人像视频模型：字节Loopy、CyberHost研究成果揭秘