标签:音频处理

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

AudioX

AudioX 是香港科技大学和月之暗面联合提出的统一扩散变压器模型,专门用于从任意内容生成音频和音乐。模型能处理多种输入模态,包括文本、视频、图像、音乐和...
阅读原文

MiniMax Audio

MiniMax Audio是MiniMax推出的AI语音合成工具,能创建逼真的多语言、多声音和多情感的语音。支持文本转语音(TTS),能将文本快速转换为自然流畅的语音。用户...
阅读原文

DiffRhythm

DiffRhythm 是西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型(Latent Diffusion)技术,能快速生成包含人声和伴奏的完整...
阅读原文

海螺视频APP

海螺视频APP是MiniMax推出的AI视频生成工具,基于AI技术帮助用户生成高质量视频内容。海螺视频APP支持文生视频(T2V)和图生视频(I2V)功能,用户输入文本或...
阅读原文

PaliGemma 2 mix

PaliGemma 2 Mix是谷歌DeepMind发布的最新多任务视觉语言模型(VLM)。集成了多种视觉和语言处理能力,支持图像描述、目标检测、图像分割、OCR以及文档理解等...
阅读原文

OmniAudio-2.6B

OmniAudio-2.6B是Nexa AI推出的音频语言模型,专为边缘部署设计,能实现快速且高效的音频文本处理。OmniAudio-2.6B是具有2.6亿参数的多模态模型融合Gemma-2-2...
阅读原文

MMAudio:高质量AI音频合成的多模态联合训练技术创新

MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精...
阅读原文

EchoMimicV2:革新数字人生成技术实现个性化虚拟形象定制

EchoMimicV2是蚂蚁集团推出的半身人体动画(数字人)生成方法,基于参考图片、音频剪辑和手部姿势序列生成高质量动画视频,确保音频内容与半身动作的一致性。...
阅读原文

GPT-SoVITS

GPT-SoVITS是一个开源的声音克隆项目,该语音合成工具结合了GPT模型和SoVITS变声器技术,仅需通过少量的样本数据实现高质量的语音克隆和文本到语音转换。该工...
阅读原文

琴乐大模型

琴乐大模型是由腾讯AI Lab与腾讯TME天琴实验室共同研发的人工智能音乐创作大模型,该模型通过输入中英文关键词、描述性语句或音频,能够直接生成立体声音频或...
阅读原文

Qwen2-Audio

Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在...
阅读原文

MooER

MooER是摩尔线程推出的业界首个基于国产全功能GPU训练的开源音频理解大模型。不仅能进行中文和英文的语音识别,还具备中译英的语音翻译能力。
阅读原文

CapCut

CapCut是抖音推出的免费全能视频编辑器,支持多种剪辑功能,如视频剪辑、音频编辑、添加字幕、滤镜和转场效果。简单易学,适合初学者和专业人士。CapCut不仅...
阅读原文

Chillin

Chillin是AI驱动的在线视频编辑器,融合了After Effects和Premiere Pro的功能,提供无缝的非线性视频编辑和矢量动画制作。支持Lottie和Svg格式,具备AI字幕生...
阅读原文

Faster Whisper

Faster Whisper 是一个基于OpenAI Whisper模型的高效语音识别工具,运用CTranslate2引擎实现快速推理。在保持高准确度的同时,提升语音转写速度,降低内存使...
阅读原文
12