开源数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至3s｜已上线阿里ModelScope魔搭社区

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：开源数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至3s｜已上线阿里ModelScope魔搭社区
关键字：项目,数字,模块,语音,实时
文章来源：量子位
内容字数：0字

内容摘要：

池炜恒（池化）投稿量子位 | 公众号 QbitAI开源数字人实时对话Demo来了～
支持语音输入和实时对话，数字人形象可自定义的那种。
生成的数字人效果belike：
目前这个数字人实时对话Demo已在阿里巴巴ModelScope魔搭社区上线。
无需预训练即可使用自定义的数字人形象进行实时对话，支持选择不同的数字人形象和音色，对话首包延迟可低至3s。
基于开源技术，该项目采用模块化系统设计，各模块均可快速更换，开发者可以扩展和优化，适用于多种应用场景，包括但不限于直播、新闻播报和助手等。
此外，该项目基于Gradio 5实现流式视频输出，方便部署和快速构建交互式数字人应用。
项目介绍现有的热门开源数字人项目主要有以下几个：
Linly Talker，基于Gradio的数字人对话项目，多模型集成，功能丰富，但不支持实时对话和流式输出。
LiveTalking，基于流媒体的数字人生成项目，数字人响应快，但交互界面比较简陋，且需要配置服务器，部署难度较高。
awesome-digital-human-live2d，基于Dify编排的数字人互动项目，轻量化，交互方式丰富，但数字人形象

原文链接：开源数字人实时对话：形象可自定义，支持语音输入，对话首包延迟可低至3s｜已上线阿里ModelScope魔搭社区