标签:语音识别

探一下

探一下是支付宝推出的新一代AI视觉搜索产品,基于自研的多模态大模型技术,能够“用AI之眼探索万物”,提供快速、有用、趣味的生成式搜索服务。用户可以通过AI...
阅读原文

DRT-o1

DRT-o1是腾讯研究院推出的一系列AI模型,通过长链思考推理(CoT)技术显著提升了文学作品的翻译质量,尤其在处理比喻和隐喻等修辞手法时。模型能更深入地理解...
阅读原文

Freed

Freed 是AI医疗文档助手,基于先进的语音识别和自然语言处理技术,自动捕捉和转写医生与患者的对话内容,快速生成符合医疗规范的临床文档。Freed能减轻医生的...
阅读原文

OmniAudio-2.6B

OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多模态模型融合Gemma-2-2...
阅读原文

Wavy:智能图像处理应用,轻松实现图像增强与艺术风格转换

Wavy是AI驱动的照片编辑应用,基于先进的AI技术,将用户的照片转换成具有艺术感的杰作。Wavy主要功能包括AI艺术生成器、视觉放大、即时艺术创作、照片提升和...
阅读原文

什么是模式识别(Pattern Recognition):智能家居系统提升生活品质与便利性

模式识别(Pattern Recognition)是信息科学和人工智能领域的一个重要分支,对事物或现象的各种形式的信息(数值的、文字的和逻辑关系的)进行处理和分析,实...
阅读原文

AI Chinese:与中国老师实时互动,轻松掌握中文技巧与文化精髓

AI Chinese是嗨你好教育推出的AI双语教学中文学习平台,基于AI技术为外国人提供在线中文学习解决方案。平台模拟中国真人老师在线授课,在TikTok用短视频和直...
阅读原文

什么是模式识别(Pattern Recognition)

模式识别(Pattern Recognition)是信息科学和人工智能领域的一个重要分支,对事物或现象的各种形式的信息(数值的、文字的和逻辑关系的)进行处理和分析,实...
阅读原文

Genesis:开源生成式物理引擎助力创新模拟与实时交互体验

Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎,能模拟世界万物。Genesis能用简单的语言描述,快...
阅读原文

Klap:智能视频编辑工具,实现精彩片段自动识别与智能布局优化

Klap是AI驱动的视频编辑工具,专注于将长视频快速转换为适合社交媒体平台的短视频内容。Klap智能分析视频场景,自动裁剪和调整视频布局,生成适合不同平台的...

Apollo:Meta与斯坦福大学携手推出创新多模态模型,实现图像与文本的深度融合与理解

Apollo是Meta和斯坦福大学合作推出的大型多模态模型(LMMs),专注于视频理解。Apollo基于系统研究,揭示视频理解在LMMs中的关键驱动因素,推出“Scaling Cons...
阅读原文

FLOAT:音频驱动的流匹配技术实现动态说话人头像生成

FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基...
阅读原文

MMAudio:高质量AI音频合成的多模态联合训练技术创新

MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精...
阅读原文

海螺AI Audio:智能语音合成助手打造自然流畅对话体验

海螺AI Audio是MiniMax推出的AI语音合成工具,能创建逼真的多语言、多声音和多情感的语音。用户只需提供30秒的音频素材,可以克隆特定人的声音,支持12种语言...
阅读原文
123411