标签:语音识别
OmniTalker
OmniTalker 是阿里巴巴发布的实时文本驱动的说话头像生成技术,能同时处理文本、图像、音频和视频等多种模态输入,以流式方式生成自然语音响应。核心架构为 T...
小猿AI
小猿AI是猿辅导集团旗下的智能教育产品,原名小猿口算,接入了DeepSeek满血版深度推理大模型,具备解题、翻译、写作、问答等多种功能,能为学生提供个性化的...
Augment Agent
Augment Agent 是Augment推出的AI编程助手,帮助软件工程师高效编写高质量代码。Augment Agent能深度理解大型代码库,随着用户工作自动学习和适应代码风格。
OThink-MR1
OThink-MR1是OPPO研究院和香港科技大学(广州)联合推出的多模态语言模型优化框架。基于动态调整Kullback-Leibler(KL)散度策略(GRPO-D)和奖励模型,提升...
PaddleSpeech
PaddleSpeech 是百度飞桨团队开源的语音处理工具,提供全面的语音处理功能,包括语音识别、语音合成、声纹识别、语音翻译等。PaddleSpeech提供命令行界面、服...
AndroidGen
AndroidGen 是智谱技术团队推出增强基于大语言模型(LLM)的 Agent 能力的框架,特别是在数据稀缺的情况下。框架通过收集人类任务轨迹基于这些轨迹训练语言模...