标签:语音合成

Seed-TTS

Seed-TTS是由字节跳动开发的一系列高级文本到语音(Text to Speech,TTS)模型,能够生成与人类语音极为相似的高质量语音,具备出色的上下文学习能力和自然度。
阅读原文

Toucan TTS

Toucan TTS是由德国斯图加特大学自然语言处理研究所(IMS)开发的文本到语音合成工具箱,支持超过7000种语言,包括多种方言和变体,提供多说话人语音合成、语...
阅读原文

ElevenLabs Reader App

ElevenLabs Reader App是由AI语音初创公司ElevenLabs推出的一款文本转语音应用,利用AI技术将各类文本内容,如文章、PDF文件、ePub等,转化为自然流畅、高音...
阅读原文

Fish Speech

Fish Speech是一款由Fish Audio开发的开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成...
阅读原文

Qwen2-Audio

Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在...
阅读原文

Linly-Dubbing

Linly-Dubbing是一个开源的智能视频多语言AI配音和翻译工具,能自动将视频内容翻译成多种语言,并生成字幕。通过WhisperX和FunASR进行精准语音识别,基于Edge...
阅读原文

GLM-4V-Plus

GLM-4V-Plus是智谱AI最新推出的多模态AI模型,专注于图像和视频理解。GLM-4V-Plus不仅能够精确分析静态图像,还具备动态视频内容的时间感知和理解能力,能捕...
阅读原文

edge-tts

edge-tts是开源的AI文字转语音项目,支持超过40种语言和300多种声音。edge-tts利用微软Azure Cognitive Services的强大功能,能将文本信息转换成流畅自然的语...
阅读原文

TikTok Voice

TikTok Voice 是基于AI技术的文字转语音(TTS)在线工具,将文本转换成各种流行于TikTok平台的声音效果。工具为用户提供多种语音选项,如女士声音、Siri声音...
阅读原文

AI解说大师

AI解说大师是智能影视创作工具,基于先进的数字技术和AI大模型,让用户能够轻松生成原创解说视频。工具具备正版影视素材库、自动生成解说文案、音频和字幕智...

豆包AI视频模型

豆包AI视频模型是字节跳动推出的两款AI视频生成大模型:PixelDance 和 Seaweed 。PixelDance基于DiT结构,擅长理解复杂指令,生成连贯、多主体交互的视频片段...
阅读原文

PDF2Audio

PDF2Audio 是一个开源工具,能将 PDF 文档转换成音频内容,适合制作播客、讲座或摘要。它基于 OpenAI 的 GPT 模型生成播客脚本,通过文本到语音技术转化为音频。
阅读原文

F5-TTS

F5-TTS是由上海交通大学开源的一款高性能文本到语音(TTS)系统,基于流匹配的非自回归生成方法,结合扩散变换器(DiT)技术。系统在没有额外监督的情况下,...
阅读原文

语鲸

语鲸(LingoWhale)是基于深言科技大模型能力的一款AI阅读工具,通过智能总结、问答、思维导图等功能,帮助用户快速把握文章核心内容和结构。工具支持多端同...
阅读原文

Voice Design

Voice Design是ElevenLabs推出的AI语音生成工具,用户只需描述所需声音的年龄、口音、性别、语调或音高,甚至是虚构角色如精灵、食人魔等,工具能快速生成独...
阅读原文
123