3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放
关键字：字节跳动,模型,数字,说话,风格
文章来源：机器之心
内容字数：0字

内容摘要：

‍AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文的作者主要来自于浙江大学和字节跳动。第一作者是浙江大学计算机学院的博士生叶振辉，导师为赵洲教授，主要研究方向是说话人视频合成，并在 NeurIPS、ICLR、ACL 等会议发表相关论文。共一作者是来自浙江大学计算机学院的硕士生钟添芸。
个性化精品数字人（Personalized Talking Face Generation）强调合成的数字人视频在感官上与真人具有极高的相似性（不管是说话人的外表还是神态）。目前业界主流的个性化精品数字人通常属于在单个目标人数据上从头训练的小模型，虽然这种小模型能够有效地学到说话人的外表和说话风格，这种做法存在低训练效率、低样本效率、低鲁棒性的问题。相比之下，近年来许多工作专注于单图驱动的通用数字人大模型，这些模型仅需单张

原文链接：3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放