标签:实时翻译
AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!
这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...
Heeyo – 专为3至11岁儿童设计的智能AI学习伙伴
Heeyo是一款专为3至11岁儿童设计的智能AI学习伙伴,提供2000多种互动学习游戏,涵盖阅读、科学、智力问答等。Heeyo AI学习伙伴支持20种语言,由顶尖教育机构...
VoiceCraft – 开源的语音编辑和文本转语音模型
VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构...
Voice Engine – OpenAI推出的AI语音合成和声音克隆模型
Voice Engine是OpenAI最新推出的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年...
VASA-1 – 微软推出的静态照片对口型视频生成框架
VASA-1是由微软亚洲研究院提出的一个将静态照片转换为对口型动态视频的生成框架,能够根据单张静态人脸照片和一段语音音频,实时生成逼真的3D说话面部动画。
PuLID – 字节跳动开源的个性化文本到图像生成框架
PuLID是字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。
Fish Speech – 开源的高效文本到语音合成TTS工具
Fish Speech是一款由Fish Audio开发的开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成...
EchoMimic – 阿里推出的开源数字人项目,赋予静态图像以生动语音和表情
EchoMimic是阿里蚂蚁集团推出的AI数字人开源项目,赋予静态图像以生动语音和表情。通过深度学习模型结合音频和面部标志点,创造出高度逼真的动态肖像视频。不...
Whisper-Medusa – aiOla推出的开源AI语音识别模型
Whisper-Medusa是aiOla推出的开源AI语音识别模型,结合了OpenAI的Whisper技术与aiOla的创新,Whisper-Medusa引入了多头注意力机制,实现了并行处理,显著提升...
汉王语音王 – 汉王科技推出的智能语音APP
汉王语音王是汉王科技推出的智能语音APP,集成了AI语音记录、翻译与同声传译功能。基于自研的多模态大模型,支持高准确率转写、拍录同步、智能总结和实时翻译...
Qwen2-Audio – 阿里通义千问团队推出的开源AI语音模型
Qwen2-Audio是阿里通义千问团队最新推出的开源AI语音模型,支持直接语音输入和多语言文本输出。具备语音聊天、音频分析功能,支持超过8种语言。Qwen2-Audio在...
MDT-A2G – 复旦&腾讯优图推出的AI模型,可根据语音同步生成手势
MDT-A2G是复旦大学和腾讯优图联合推出的AI模型,专门用于根据语音内容同步生成相应的手势动作。MDT-A2G模仿人类在交流时自然产生的手势,计算机能更加生动和...
Mo卡片 – AI知识库卡片式学习工具
Mo卡片是一站式AI知识库卡片式学习工具。Mo卡片以卡片形式提供1500+张专业AI知识卡片,涵盖理论、实操、特别篇等主题。用户通过图文、动画、视频、语音等互动...
Seed-ASR – 字节跳动推出的AI语音识别模型
Seed-ASR是字节跳动开发的一款基于大型语言模型(LLM)的语音识别(ASR)模型。在超过2000万小时的语音数据和近90万小时的配对ASR数据上训练,支持普通话和13...
Media.io – 在线AI音视频编辑平台
Media.io是一个在线AI音视频编辑平台,提供AI工具帮助用户快速提升内容质量。Media.io拥有多功能工具箱,适合商业、营销、社交媒体和娱乐创作者使用。
EasyOCR – 支持超80种语言的开源OCR项目
EasyOCR 是一个功能强大的开源OCR(光学字符识别)项目,支持80多种语言和多种书写系统,包括中文、阿拉伯文和西里尔文。基于深度学习技术,提供高精度的文字...