标签:语音识别

MUMU – 文本和图像驱动的多模态生成模型

MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,从而提高生成的准确率和质量。MUMU模型的架构基于SDXL的预训练卷积UNet,采用了...
阅读原文

LeRobot – HuggingFace推出的开源AI聊天机器人项目

LeRobot是由HuggingFace推出的开源AI聊天机器人项目,由前特斯拉研究员Remi Cadene领导开发。LeRobot致力于降低机器人技术的入门门槛,提供预训练模型、数据...
阅读原文

STranslate – 多功能免费AI翻译工具,支持离线OCR识别

STranslate是专为Windows用户设计的多功能翻译和OCR工具。支持多种语言翻译,具备划词、截图、监听剪贴板等多种翻译方式,并提供多家翻译服务接口。还拥有基...
阅读原文

Dola – AI日历助理,支持多模态输入管理日程

Dola是一款人工智能日历助理,通过自然语言处理技术,使用户能通过文本、语音或图片等多种方式与主流即时通讯软件(如Apple Messages、Telegram、LINE、Whats...
阅读原文

Mini-Omni – 开源的端到端实时语音对话大模型

Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型的设计支持在不需要额外的自动语音识...
阅读原文

Slax Note – 语音转文字的AI笔记应用,自动润色文本

SlaxNote 是一款基于语音识别技术的 AI 语音笔记应用,可以实时将语音转换为文本,并自动润色这些文本,使表达更加流畅和专业。特别适合户外灵感捕捉、想法组...
阅读原文

VoxInstruct – 清华推出的开源语音合成技术,支持多语言和跨语言合成

VoxInstruct 是由清华大学开源的语音合成技术,能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的多语言编解码器语言建模框架,将传统的文本到...
阅读原文

Kuakua – 心理学领域的AI辅助工具

Kuakua 是结合积极心理学和AI技术的平台,提升用户的幸福感和心理健康。通过提供多语言支持、心理学资源、AI辅助工具、正念练习和生活方式建议,帮助用户在日...
阅读原文

Readtheirlips – 唇语识别AI软件,无音频也能转录口语内容

Readtheirlips 是由 Symphonic Labs 推出的一款AI软件,用于通过分析视频中人物的嘴唇运动来识别和转录口语内容。软件能解读在没有声音的情况下,或者在声音...
阅读原文

TikTok Voice – 免费的AI配音神器,提供丰富的音色选项

TikTok Voice 是基于AI技术的文字转语音(TTS)在线工具,将文本转换成各种流行于TikTok平台的声音效果。工具为用户提供多种语音选项,如女士声音、Siri声音...
阅读原文

Sunoify – AI音乐创作平台,支持文字、图片、表情符号等生成个性化的音乐

Sunoify是AI驱动的音乐创作平台,使用先进的人工智能技术将文字、表情符号、图片或产品网址转化为个性化的音乐作品。用户可以通过简单的界面选择创作模式,输...
阅读原文

PoseTalk – 文本和音频驱动的生成会说话的头部动画开源项目

PoseTalk 是基于文本和音频的姿势控制和运动细化方法的开源项目,用于一次性生成会说话的头部视频。从图像、驱动音频和驱动姿势合成说话人脸视频,为用户提供...
阅读原文

AI小聚 – 多功能AI助手,对话、写作、绘画等一站式服务

AI小聚是由聚名科技推出的一款多功能AI助手,通过智能对话和创作功能,为用户提供便捷服务。用户通过文字或语音与AI小聚互动,获取个性化的文案创作、生活建...
阅读原文

Faster Whisper – 一款高效语音识别工具,实现高速转写和快速推理

Faster Whisper 是一个基于OpenAI Whisper模型的高效语音识别工具,运用CTranslate2引擎实现快速推理。在保持高准确度的同时,提升语音转写速度,降低内存使...
阅读原文

Draw an Audio – 中科院联合美团推出的视频生成音频系统

Draw an Audio 是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。根据视频内容自动生成匹配的声音效果,类似于电影制作中的 Foley 艺术...
阅读原文
123457