标签:语音识别
OmniAudio-2.6B
OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多模态模型融合Gemma-2-2...
Wavy:智能图像处理应用,轻松实现图像增强与艺术风格转换
Wavy是AI驱动的照片编辑应用,基于先进的AI技术,将用户的照片转换成具有艺术感的杰作。Wavy主要功能包括AI艺术生成器、视觉放大、即时艺术创作、照片提升和...
什么是模式识别(Pattern Recognition):智能家居系统提升生活品质与便利性
模式识别(Pattern Recognition)是信息科学和人工智能领域的一个重要分支,对事物或现象的各种形式的信息(数值的、文字的和逻辑关系的)进行处理和分析,实...
AI Chinese:与中国老师实时互动,轻松掌握中文技巧与文化精髓
AI Chinese是嗨你好教育推出的AI双语教学中文学习平台,基于AI技术为外国人提供在线中文学习解决方案。平台模拟中国真人老师在线授课,在TikTok用短视频和直...
什么是模式识别(Pattern Recognition)
模式识别(Pattern Recognition)是信息科学和人工智能领域的一个重要分支,对事物或现象的各种形式的信息(数值的、文字的和逻辑关系的)进行处理和分析,实...
Genesis:开源生成式物理引擎助力创新模拟与实时交互体验
Genesis是卡内基梅隆大学、马里兰大学、斯坦福大学、麻省理工学院等研究机构联合推出的开源生成式物理引擎,能模拟世界万物。Genesis能用简单的语言描述,快...
Klap:智能视频编辑工具,实现精彩片段自动识别与智能布局优化
Klap是AI驱动的视频编辑工具,专注于将长视频快速转换为适合社交媒体平台的短视频内容。Klap智能分析视频场景,自动裁剪和调整视频布局,生成适合不同平台的...
Apollo:Meta与斯坦福大学携手推出创新多模态模型,实现图像与文本的深度融合与理解
Apollo是Meta和斯坦福大学合作推出的大型多模态模型(LMMs),专注于视频理解。Apollo基于系统研究,揭示视频理解在LMMs中的关键驱动因素,推出“Scaling Cons...
FLOAT:音频驱动的流匹配技术实现动态说话人头像生成
FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基...
MMAudio:高质量AI音频合成的多模态联合训练技术创新
MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精...
海螺AI Audio:智能语音合成助手打造自然流畅对话体验
海螺AI Audio是MiniMax推出的AI语音合成工具,能创建逼真的多语言、多声音和多情感的语音。用户只需提供30秒的音频素材,可以克隆特定人的声音,支持12种语言...