标签:语音识别

Fish Speech

Fish Speech是一款由Fish Audio开发的开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成...
阅读原文

Moshi

Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型,拥有听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。作为对标...
阅读原文

Whisper-Medusa

Whisper-Medusa是aiOla推出的开源AI语音识别模型,结合了OpenAI的Whisper技术与aiOla的创新,Whisper-Medusa引入了多头注意力机制,实现了并行处理,显著提升...
阅读原文

Amuse AI

Amuse 2.0是AMD最新推出的AI图像生成工具,专为AMD硬件优化,支持在PC上生成高质量图像。Amuse 2.0具备设计模式,能够将用户草图和文本提示转化为图像,同时...
阅读原文

墨问便签

墨问便签是专为创作者设计的AI便签工具,支持AI语音转录功能,用户可以录制长达10分钟的语音,实时看到转录文字,便于即时修正。AI还能自动润色,如分段和修...
阅读原文

Aide

Aide 是免费开源的AI 编程插件,具备代码注释、语言转换、智能粘贴、批量处理、变量命名和自定义命令等功能,帮助开发者快速理解、编写和重构代码。Aide 支持...
阅读原文

智谱AI开放平台

智谱AI开放平台 是一个面向开发者的大模型开发平台。整合了先进的模型能力、丰富的开发资源、自定义知识库及应用体验中心,助力开发者利用GLM大模型的技术潜...

汉王语音王

汉王语音王是汉王科技推出的智能语音APP,集成了AI语音记录、翻译与同声传译功能。基于自研的多模态大模型,支持高准确率转写、拍录同步、智能总结和实时翻译...
阅读原文

Qwen2-Audio

Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在...
阅读原文

醒蓝AI

醒蓝AI是一款AI照片生成工具,支持一键生成AI形象照,用户能够轻松制作工作形象照、写真照、证件照和AI换脸照片。醒蓝AI还提供API接口和定制化解决方案,满足...
阅读原文

有道小P

有道小P是网易有道推出的AI全科学习助手,专为K12阶段的学生设计。有道小P搭载了有道子曰教育大模型,能覆盖全学段和全学科的答疑需求,提供个性化的学习辅导...
阅读原文

Mo卡片

Mo卡片是一站式AI知识库卡片式学习工具。Mo卡片以卡片形式提供1500+张专业AI知识卡片,涵盖理论、实操、特别篇等主题。用户通过图文、动画、视频、语音等互动...
阅读原文

微博嘴替

微博嘴替是一个微博账户AI趣味分析应用,专为微博用户设计。微博嘴替通过分析用户的微博资料和内容,生成犀利、幽默风趣和个性化的吐槽。
阅读原文

Subtitle Edit

Subtitle Edit是一款免费开源的多功能字幕编辑器,支持超过300种字幕格式,包括SRT、MicroDVD和Sub Station Alpha等。具备字幕同步、创建、翻译、音频波形可...
阅读原文

HumanVid

HumanVid是香港中文大学和上海人工智能实验室共同推出的高质量数据集,专为人类图像动画训练设计。结合了现实世界视频和合成数据,通过精心设计的规则筛选高...
阅读原文
18910111215