思必驰DFM-2大模型赋能多模态交互和行业应用,提供更智能、个性化的对话体验。
强大的AI同声传译工具,实时精准翻译多种语言,高效促进跨语言沟通。
AI辅助病历生成系统,提升效率、保障质量、保护隐私。
鹏城实验室开源的一款多语言语音识别系统开发工具包,PengChengStarling可以在统一的框架内处理多种语言语音输入,支持实时语音识别,边说边识别。PengChengStarling官网入口网址
集图片翻译、视频翻译、智能抠图、去除图片文字和视频字幕等功能于一体的在线翻译工具风车AI翻译官网入口网址
WhisperKit是一个开源项目,旨在帮助开发者和企业在用户设备上部署商业规模的推理工作负载
基于科大讯飞语音技术,实现智能客服的多渠道解决方案。
构建高级语音AI,由LLM提供支持,实现人类般的交互体验。
让应用通过语音与文本的转换实现智能交互。
趣味语音互动,让设备记住你的名字。
实时语音交互的人工智能对话系统。
300行代码实现基于LLM的语音转录。
音频指令演示,体验智能交互。
基于OpenAI Whisper的自动语音识别与说话人分割
智能语音分析,提升零售客户服务体验。
最新多模态检查点,提升语音理解能力。
与大型语言模型进行自然的语音对话
极速语音识别,精准时间戳
情感丰富的多模态语言模型
会议语音转文本并自动生成摘要的AI工具
开源的语音识别和说话人分割模型推理代码
Android平台上的私有、设备端语音识别键盘和文字服务
基于LLM的智能字幕助手,一键生成高质量视频字幕
联合语音转录和实体识别的先进模型
实时浏览器端语音识别应用
多语种高精度语音识别模型
本地部署的AI语音工具箱,支持语音识别、转录和转换。
下一代语音AI,提供卓越的音频数据处理能力。
端侧全模态理解开源模型
快速构建基于AI的会话头像
实时语音翻译,跨语言沟通的桥梁。
多模态语音大型语言模型