标签:实时翻译

VoicePen.ai:智能内容生成工具助你轻松创建多媒体博客文章

VoicePen.ai 是AI驱动的内容创作工具,能将音频、视频、语音备忘录和网站内容快速转换成博客文章。VoicePen.ai 用粘贴链接或上传文件,自动生成引人入胜的内...
阅读原文

Heeyo

Heeyo是一款专为3至11岁儿童设计的智能AI学习伙伴,提供2000多种互动学习游戏,涵盖阅读、科学、智力问答等。Heeyo AI学习伙伴支持20种语言,由顶尖教育机构...
阅读原文

VoiceCraft

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构...
阅读原文

Voice Engine

Voice Engine是OpenAI最新推出的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年...
阅读原文

VASA-1

VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说话面部动画。
阅读原文

PuLID

PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。
阅读原文

Fish Speech

Fish Speech是一款由Fish Audio开发的开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成...
阅读原文

EchoMimic

EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目,赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点,创造出高度逼真的动态肖像视频。不...
阅读原文

Whisper-Medusa

Whisper-Medusa是aiOla推出的开源AI语音识别模型,结合了OpenAI的Whisper技术与aiOla的创新,Whisper-Medusa引入了多头注意力机制,实现了并行处理,显著提升...
阅读原文

汉王语音王

汉王语音王是汉王科技推出的智能语音APP,集成了AI语音记录、翻译与同声传译功能。基于自研的多模态大模型,支持高准确率转写、拍录同步、智能总结和实时翻译...
阅读原文

Qwen2-Audio

Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在...
阅读原文

MDT-A2G

MDT-A2G是复旦大学和腾讯优图联合推出的AI模型,专门用于根据语音内容同步生成相应的手势动作。MDT-A2G模仿人类在交流时自然产生的手势,计算机能更加生动和...
阅读原文

Mo卡片

Mo卡片是一站式AI知识库卡片式学习工具。Mo卡片以卡片形式提供1500+张专业AI知识卡片,涵盖理论、实操、特别篇等主题。用户通过图文、动画、视频、语音等互动...
阅读原文

Seed-ASR

Seed-ASR是字节跳动开发的一款基于大型语言模型(LLM)的语音识别(ASR)模型。在超过2000万小时的语音数据和近90万小时的配对ASR数据上训练,支持普通话和13...
阅读原文

Media.io

Media.io是一个在线AI音视频编辑平台,提供AI工具帮助用户快速提升内容质量。Media.io拥有多功能工具箱,适合商业、营销、社交媒体和娱乐创作者使用。
阅读原文