标签:语音合成

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

AudioGen-Omni

AudioGen-Omni是快手推出的多模态音频生成框架,框架能基于视频、文本等输入生成高质量的音频、语音和歌曲。框架通过统一的歌词-文本编码器和相位对齐各向异...
阅读原文

HuHu.ai

HuHu.ai 是专为时尚电商设计的 AI 平台,通过智能技术帮助品牌快速生成高质量的模特试穿图,优化内容创作流程,提升电商转化率。能将平铺图、衣架图或幽灵模...
阅读原文

Higgs Audio V2

Higgs Audio V2 是李沐及其团队 Boson AI 开发的开源语音大模型。基于超过1000万小时的音频数据训练而成,具备多语言对话生成、自动韵律调整、语音克隆和歌声...
阅读原文

Kyutai TTS

Kyutai TTS 是法国人工智能研究机构 Kyutai Labs 推出的流式文本转语音(TTS)技术。是创新的语音合成系统,能实时将文本转换为自然流畅的语音,无需等待完整...
阅读原文

Qwen-TTS

Qwen-TTS是阿里通义推出的语音合成模型,具备自然、稳定、快速的特点。模型能根据文本和音色参数输出高质量音频,支持中英文及方言合成,如北京话、上海话、...
阅读原文

智声云配

智声云配(DubbingX) 是 AI 智能配音工具,提供语音合成(TTS)、音色迁移、歌声转换等多种功能。工具支持中文、英文、日文、粤语等多语言,拥有近2500种情...
阅读原文

Speech-02

Speech-02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标语音...
阅读原文

Stable Audio Open Small

Stable Audio Open Small 是 Stability AI 与 Arm 合作推出的轻量级文本到音频生成模型。基于 Stable Audio Open 模型,参数量从11亿减少到3.41亿,生成速度...
阅读原文

Audio-SDS

Audio-SDS是NVIDIA AI研究团队推出的创新技术,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,为音频处理领域带来了重大突破。无需...
阅读原文

MegaTTS 3

MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语音分解为内容、音...
阅读原文

PaddleSpeech

PaddleSpeech 是百度飞桨团队开源的语音处理工具,提供全面的语音处理功能,包括语音识别、语音合成、声纹识别、语音翻译等。PaddleSpeech提供命令行界面、服...
阅读原文

TicVoice 7.0

TicVoice 7.0 是出门问问推出的第七代高品质 TTS(语音合成)引擎,基于新一代语音生成模型 Spark-TTS 。TicVoice 7.0基于创新的 BiCodec 编码方式,将语音分...
阅读原文

Baichuan-Audio

Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码...
阅读原文

IndexTTS

IndexTTS 是 B 站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了 GPT 风格的生成技术,能将文本高效转化为自然流畅的语音...
阅读原文

PySpur

PySpur 是开源的轻量级可视化 AI 智能体工作流构建器,简化 AI 系统的开发流程。基于拖拽式界面让用户能快速构建、测试和迭代 AI 工作流,无需编写复杂代码。...
阅读原文
1234