一站式虚拟主播视频生产和编辑平台
灵云AI开放平台
科大讯飞推出的移动互联网智能交互平台,为开发者免费提供:涵盖语音能力增强型SDK,一站式人机智能语音交互解决方案,专业全面的移动应用分析;
Whisper Turbo 是一款免费在线快速准确的语音识别工具。
开源工业级自动语音识别模型,支持普通话、方言和英语,性能卓越。
Scribe 是全球最准确的语音转文字模型,支持99种语言。
音刻转录是一款快速、精准、丝滑的音视频转录工具。
DuRT 是一款 macOS 上的实时语音识别和翻译软件,致力于提供高效、准确的语音处理服务。
Phi-4-multimodal-instruct 是微软开发的轻量级多模态基础模型,支持文本、图像和音频输入。
将口语转化为优雅文字的AI写作工具,让写作变得轻松自然。
思必驰DFM-2大模型赋能多模态交互和行业应用,提供更智能、个性化的对话体验。
强大的AI同声传译工具,实时精准翻译多种语言,高效促进跨语言沟通。
AI辅助病历生成系统,提升效率、保障质量、保护隐私。
鹏城实验室开源的一款多语言语音识别系统开发工具包,PengChengStarling可以在统一的框架内处理多种语言语音输入,支持实时语音识别,边说边识别。PengChengStarling官网入口网址
集图片翻译、视频翻译、智能抠图、去除图片文字和视频字幕等功能于一体的在线翻译工具风车AI翻译官网入口网址
WhisperKit是一个开源项目,旨在帮助开发者和企业在用户设备上部署商业规模的推理工作负载
基于科大讯飞语音技术,实现智能客服的多渠道解决方案。
构建高级语音AI,由LLM提供支持,实现人类般的交互体验。
让应用通过语音与文本的转换实现智能交互。
趣味语音互动,让设备记住你的名字。
实时语音交互的人工智能对话系统。
300行代码实现基于LLM的语音转录。
音频指令演示,体验智能交互。
基于OpenAI Whisper的自动语音识别与说话人分割
智能语音分析,提升零售客户服务体验。
最新多模态检查点,提升语音理解能力。
与大型语言模型进行自然的语音对话
极速语音识别,精准时间戳
情感丰富的多模态语言模型
会议语音转文本并自动生成摘要的AI工具
开源的语音识别和说话人分割模型推理代码
Android平台上的私有、设备端语音识别键盘和文字服务