音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

AIGC动态欢迎阅读

原标题:音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘
关键字:字节跳动,音频,团队,视频,动作
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心发布
机器之心编辑部近期,来自字节跳动的视频生成模型 Loopy,一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频,对声音中呼吸,叹气,挑眉等细节都能生成的非常自然,让网友直呼哈利波特的魔法也不过如此。Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以实现准确的音频和口型同步,还可以生成细微自然的表情动作,例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到;在唱歌时也能表现得活灵活现,驾驭不同风格。柔和高昂rap
更多丰富风格的展示,可移步项目主页:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634
在不同的图片风格上,Loopy 也都表现得不错,像古风画像、粘土风格、油画风格、3D 素材以及侧脸的情况等等。Loopy 技术方案
具体来说,Loopy 是如何仅需音频,就能实现这样生动的效果呢?Loopy 框架中分别对外观信息(对应图中左上角)和音频信


原文链接:音频驱动人像视频模型:字节Loopy、CyberHost研究成果揭秘

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...