VoiceCanvas是一款领先的AI语音克隆和文本转语音(TTS)工具,支持40+种语言,提供高保真语音合成、实时文本转语音、个性化声纹克隆等功能。
灵云开放平台免费提供全面的智能人机交互技术,包括语音合成、识别,手写识别,光学字符识别,语义理解,机器翻译等,助力移动应用、智能硬件实现自然、智能的交互。
开发者可互动体验 OpenAI API 中的新语音模型gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。
免费的文字生成语音网站,包含各种方言(东北话、陕西话、粤语、闽南语)
讯飞智作是一款集AI配音、虚拟人视频生成、PPT生成视频、虚拟人定制等多功能的AI音视频生产平台。已广泛应用于媒体、教育、短视频等领域。
灵云AI开放平台
科大讯飞推出的移动互联网智能交互平台,为开发者免费提供:涵盖语音能力增强型SDK,一站式人机智能语音交互解决方案,专业全面的移动应用分析;
海螺AI推出的AI语音生成工具,支持多种语种、情绪和效果。
一个开源文本转语音系统,致力于实现人类语音的自然化。
Synexa是一个简单、快速且稳定的AI服务平台,通过简单的一行代码就能部署和运行AI模型。支持图像生成、视频生成、语音合成等,帮助开发者轻松集成AI能力,提升工作效率。
将电子书转换为有声书的工具。
基于Kokoro和ONNX运行时的文本到语音(TTS)项目。
LLaSA: 扩展基于 LLaMA 的语音合成的训练时间和测试时间计算量
基于Llama框架的TTS基础模型,兼容16万小时标记化语音数据。
Sesame AI 是一款先进的语音合成平台,能够生成自然对话式语音并具备情感智能。
一个用于生成对话式语音的模型,支持从文本和音频输入生成高质量的语音。
AI ContentCraft 是一个多功能内容创作工具,集成了文本生成、语音合成和图像生成能力。
Llasa-3B 是一个基于 LLaMA 的文本到语音合成模型,支持中英文语音生成。
Llasa-1B 是一个基于 LLaMA 的文本转语音 (TTS) 模型,支持中英文语音合成。
Zonos-v0.1-hybrid 是一款领先的开源文本转语音模型,能够提供高质量的语音合成服务。
CSM 1B 是一个由 Sesame 开发的文本到语音生成模型,可生成高质量的音频。
Reecho秒速克隆声音,生成逼真自然的AI语音,赋予文本极具表现力的配音。
思必驰DFM-2大模型赋能多模态交互和行业应用,提供更智能、个性化的对话体验。
全球首款多情绪、多语态、全可控AI配音,一键生成专业级语音。
ChatTTS项目的入门指南和资源汇总。
基于科大讯飞语音技术,实现智能客服的多渠道解决方案。
让应用通过语音与文本的转换实现智能交互。
将文本转换为自然流畅的语音输出
快速AI语音助手
生成高质量中文方言语音的大规模文本到语音模型。
轻量级端到端文本到语音模型