标签:语音识别

Moshi – 法国AI实验室Kyutai开发的实时音频多模态模型

Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型,拥有听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。作为对标...
阅读原文

Whisper-Medusa – aiOla推出的开源AI语音识别模型

Whisper-Medusa是aiOla推出的开源AI语音识别模型,结合了OpenAI的Whisper技术与aiOla的创新,Whisper-Medusa引入了多头注意力机制,实现了并行处理,显著提升...
阅读原文

Amuse AI – AMD推出的AI图像生成工具

Amuse 2.0是AMD最新推出的AI图像生成工具,专为AMD硬件优化,支持在PC上生成高质量图像。Amuse 2.0具备设计模式,能够将用户草图和文本提示转化为图像,同时...
阅读原文

墨问便签 – 专为创作者设计的AI便签工具

墨问便签是专为创作者设计的AI便签工具,支持AI语音转录功能,用户可以录制长达10分钟的语音,实时看到转录文字,便于即时修正。AI还能自动润色,如分段和修...
阅读原文

Aide – 免费开源的AI 编程插件

Aide 是免费开源的AI 编程插件,具备代码注释、语言转换、智能粘贴、批量处理、变量命名和自定义命令等功能,帮助开发者快速理解、编写和重构代码。Aide 支持...
阅读原文

智谱AI开放平台 – 智谱AI推出的大模型开发平台

智谱AI开放平台 是一个面向开发者的大模型开发平台。整合了先进的模型能力、丰富的开发资源、自定义知识库及应用体验中心,助力开发者利用GLM大模型的技术潜...
阅读原文

汉王语音王 – 汉王科技推出的智能语音APP

汉王语音王是汉王科技推出的智能语音APP,集成了AI语音记录、翻译与同声传译功能。基于自研的多模态大模型,支持高准确率转写、拍录同步、智能总结和实时翻译...
阅读原文

Qwen2-Audio – 阿里通义千问团队推出的开源AI语音模型

Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在...
阅读原文

醒蓝AI – AI照片生成工具,支持一键生成AI形象照

醒蓝AI是一款AI照片生成工具,支持一键生成AI形象照,用户能够轻松制作工作形象照、写真照、证件照和AI换脸照片。醒蓝AI还提供API接口和定制化解决方案,满足...
阅读原文

有道小P – 网易有道推出的AI全科学习助手

有道小P是网易有道推出的AI全科学习助手,专为K12阶段的学生设计。有道小P搭载了有道子曰教育大模型,能覆盖全学段和全学科的答疑需求,提供个性化的学习辅导...
阅读原文

Mo卡片 – AI知识库卡片式学习工具

Mo卡片是一站式AI知识库卡片式学习工具。Mo卡片以卡片形式提供1500+张专业AI知识卡片,涵盖理论、实操、特别篇等主题。用户通过图文、动画、视频、语音等互动...
阅读原文

微博嘴替 – 微博账户AI趣味分析应用

微博嘴替是一个微博账户AI趣味分析应用,专为微博用户设计。微博嘴替通过分析用户的微博资料和内容,生成犀利、幽默风趣和个性化的吐槽。
阅读原文

Subtitle Edit – 免费开源的多功能字幕编辑器

Subtitle Edit是一款免费开源的多功能字幕编辑器,支持超过300种字幕格式,包括SRT、MicroDVD和Sub Station Alpha等。具备字幕同步、创建、翻译、音频波形可...
阅读原文

HumanVid – 专为人类图像动画生成而设计的高质量数据集

HumanVid是香港中文大学和上海人工智能实验室共同推出的高质量数据集,专为人类图像动画训练设计。结合了现实世界视频和合成数据,通过精心设计的规则筛选高...
阅读原文

Seed-ASR – 字节跳动推出的AI语音识别模型

Seed-ASR是字节跳动开发的一款基于大型语言模型(LLM)的语音识别(ASR)模型。在超过2000万小时的语音数据和近90万小时的配对ASR数据上训练,支持普通话和13...
阅读原文
12347