标签:语音识别

FLOAT:音频驱动的流匹配技术实现动态说话人头像生成

FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基...
阅读原文

MMAudio:高质量AI音频合成的多模态联合训练技术创新

MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精...
阅读原文

海螺AI Audio:智能语音合成助手打造自然流畅对话体验

海螺AI Audio是MiniMax推出的AI语音合成工具,能创建逼真的多语言、多声音和多情感的语音。用户只需提供30秒的音频素材,可以克隆特定人的声音,支持12种语言...
阅读原文

ClearerVoice-Studio:智能语音处理框架助力多场景应用的高效解决方案

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成语音增强、分离和音视频说话人提取等功能。框架基于复数域深度学习算法,有效消除...
阅读原文

GenCast:DeepMind推出的性AI气象预测模型提气预报精准度与效率

GenCast是DeepMind推出的革命性AI气象预测模型,基于扩散模型技术,提供长达15天的全球天气预报。GenCast在97.2%的预测任务中超越全球顶尖的中期天气预报系统...
阅读原文

andu.ai:智能合同审查与分析工具提升法律合规效率

andu.ai(案牍AI)是专为法律领域设计的智能工具,基于先进的大型语言模型技术,提供合同审查、尽职调查和穿透核查等功能。通过自动化处理法律文件,案牍AI提...
阅读原文

andu.ai:智能合同审查助手提升法律效率与准确性

andu.ai(案牍AI)是专为法律领域设计的智能工具,基于先进的大型语言模型技术,提供合同审查、尽职调查和穿透核查等功能。通过自动化处理法律文件,案牍AI提...
阅读原文

Voice-Pro:一站式音频处理解决方案集转录翻译与语音合成于一体

Voice-Pro是开源的多功能音频处理工具,集成语音转文字(STT)、文本转语音(TTS)、实时翻译、YouTube视频下载和人声分离等多种功能。工具支持超过100种语言...
阅读原文

呱呱有声:全流程一体化AI配音平台打造高品质长音频内容

呱呱有声是AIGC长音频数字内容生产开放平台,灵伴智能开发。通过人工智能技术,实现了从“文本”到“作品”的全流程AI生产,大幅提升产能。平台特色包括人机结合...
阅读原文

DupDub:智能内容创作平台助您快速生成高质量视频、文本与音频内容

DupDub是出门问问推出的创新AI内容生成平台,旨在帮助内容创作者高效制作视频、文本和音频内容。提供AI写作、文本转语音、AI头像动画化和视频编辑等功能,支...
阅读原文

探秘华为Mate 70系列:10大原生鸿蒙细节揭示未来科技魅力

AI 和安全,原生鸿蒙打破高墙的秘密武器。
阅读原文

SAM 2.1:Meta开源的先进视觉分割模型提升图像处理精度与效率

SAM 2.1(全称Segment Anything Model 2.1)是Meta(Facebook的母公司)推出的先进视觉分割模型,用于图像和视频。基于简单的Transformer架构和流式记忆设计...
阅读原文

金舟AI助手:创新设计与卓越性能的完美结合提升您的生活品质

金舟AI助手是创新的营销内容创作平台,基于人工智能和大数据技术,为创作者、品牌主和营销服务公司提供高效的内容创作解决方案。平台能快速生成富有创意和针...
阅读原文

DynaSaur:Adobe创新推出的多功能大语言模型代理框架提升创作效率与智能化体验

DynaSaur是Adobe Research推出的大型语言模型(LLM)代理框架,突破传统LLM代理系统受限于预定义动作集合的限制。框架支持代理动态创建和组合动作,基于生成...
阅读原文

Takin AudioLLM:创新零样本语音生成模型助力个性化语音合成体验

Takin AudioLLM是喜马拉雅Everest团队推出的一系列高质量零样本语音生成模型,包括Takin TTS、Takin VC和Takin Morphing。模型用最新的大型语言模型技术,专...
阅读原文
15678915