标签:语音合成
GPT-SoVITS
GPT-SoVITS是一个开源的声音克隆项目,该语音合成工具结合了GPT模型和SoVITS变声器技术,仅需通过少量的样本数据实现高质量的语音克隆和文本到语音转换。该工...
VoiceCraft
VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构...
Voice Engine
Voice Engine是OpenAI最新推出的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年...
Parler-TTS
Parler-TTS是由Hugging Face推出的一款开源的文本到语音(TTS)模型,能够通过输入提示描述模仿特定说话者的风格(性别、音调、说话风格等),生成高质量、听...
Toucan TTS
Toucan TTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的文本到语音合成工具箱,支持超过7000种语言,包括多种方言和变体,提供多说话人语音合成、语...
ElevenLabs Reader App
ElevenLabs Reader App是由AI语音初创公司ElevenLabs推出的一款文本转语音应用,利用AI技术将各类文本内容,如文章、PDF文件、ePub等,转化为自然流畅、高音...
Fish Speech
Fish Speech是一款由Fish Audio开发的开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成...
Qwen2-Audio
Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在...
Linly-Dubbing
Linly-Dubbing是一个开源的智能视频多语言AI配音和翻译工具,能自动将视频内容翻译成多种语言,并生成字幕。通过WhisperX和FunASR进行精准语音识别,基于Edge...
GLM-4V-Plus
GLM-4V-Plus是智谱AI最新推出的多模态AI模型,专注于图像和视频理解。GLM-4V-Plus不仅能够精确分析静态图像,还具备动态视频内容的时间感知和理解能力,能捕...
TikTok Voice
TikTok Voice 是基于AI技术的文字转语音(TTS)在线工具,将文本转换成各种流行于TikTok平台的声音效果。工具为用户提供多种语音选项,如女士声音、Siri声音...