标签:虚拟音效定位

3D-Speaker:多模态说话人识别技术的创新突破与应用潜力

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,基于结合声学、语义、视觉信息,实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模...
阅读原文