开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s|已上线阿里ModelScope魔搭社区

AIGC动态2个月前发布 量子位
4 0 0

开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s|已上线阿里ModelScope魔搭社区

AIGC动态欢迎阅读

原标题:开源数字实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s|已上线阿里ModelScope魔搭社区
关键字:项目,数字,模块,语音,实时
文章来源:量子位
内容字数:0字

内容摘要:


池炜恒(池化) 投稿量子位 | 公众号 QbitAI开源数字人实时对话Demo来了~
支持语音输入和实时对话,数字人形象可自定义的那种。
生成的数字人效果belike:
目前这个数字人实时对话Demo已在阿里巴巴ModelScope魔搭社区上线。
无需预训练即可使用自定义的数字人形象进行实时对话,支持选择不同的数字人形象和音色,对话首包延迟可低至3s。
基于开源技术,该项目采用模块化系统设计,各模块均可快速更换,开发者可以扩展和优化,适用于多种应用场景,包括但不限于直播、新闻播报和助手等。
此外,该项目基于Gradio 5实现流式视频输出,方便部署和快速构建交互式数字人应用。
项目介绍现有的热门开源数字人项目主要有以下几个:
Linly Talker,基于Gradio的数字人对话项目,多模型集成,功能丰富,但不支持实时对话和流式输出。
LiveTalking,基于流媒体的数字人生成项目,数字人响应快,但交互界面比较简陋,且需要配置服务器,部署难度较高。
awesome-digital-human-live2d,基于Dify编排的数字人互动项目,轻量化,交互方式丰富,但数字人形象


原文链接:开源数字人实时对话:形象可自定义,支持语音输入,对话首包延迟可低至3s|已上线阿里ModelScope魔搭社区

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...