标签:语音识别

Dola

Dola是一款人工智能日历助理,通过自然语言处理技术,使用户能通过文本、语音或图片等多种方式与主流即时通讯软件(如Apple Messages、Telegram、LINE、Whats...
阅读原文

Mini-Omni

Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型的设计支持在不需要额外的自动语音识...
阅读原文

Slax Note

SlaxNote 是一款基于语音识别技术的 AI 语音笔记应用,可以实时将语音转换为文本,并自动润色这些文本,使表达更加流畅和专业。特别适合户外灵感捕捉、想法组...
阅读原文

VoxInstruct

VoxInstruct 是由清华大学开源的语音合成技术,能根据人类语言指令生成高度符合用户需求的语音。系统采用统一的多语言编解码器语言建模框架,将传统的文本到...
阅读原文

Kuakua

Kuakua 是结合积极心理学和AI技术的平台,提升用户的幸福感和心理健康。通过提供多语言支持、心理学资源、AI辅助工具、正念练习和生活方式建议,帮助用户在日...
阅读原文

Readtheirlips

Readtheirlips 是由 Symphonic Labs 推出的一款AI软件,用于通过分析视频中人物的嘴唇运动来识别和转录口语内容。软件能解读在没有声音的情况下,或者在声音...
阅读原文

TikTok Voice

TikTok Voice 是基于AI技术的文字转语音(TTS)在线工具,将文本转换成各种流行于TikTok平台的声音效果。工具为用户提供多种语音选项,如女士声音、Siri声音...
阅读原文

Sunoify

Sunoify是AI驱动的音乐创作平台,使用先进的人工智能技术将文字、表情符号、图片或产品网址转化为个性化的音乐作品。用户可以通过简单的界面选择创作模式,输...
阅读原文

PoseTalk

PoseTalk 是基于文本和音频的姿势控制和运动细化方法的开源项目,用于一次性生成会说话的头部视频。从图像、驱动音频和驱动姿势合成说话人脸视频,为用户提供...
阅读原文

AI小聚

AI小聚是由聚名科技推出的一款多功能AI助手,通过智能对话和创作功能,为用户提供便捷服务。用户通过文字或语音与AI小聚互动,获取个性化的文案创作、生活建...
阅读原文

Faster Whisper

Faster Whisper 是一个基于OpenAI Whisper模型的高效语音识别工具,运用CTranslate2引擎实现快速推理。在保持高准确度的同时,提升语音转写速度,降低内存使...
阅读原文

Draw an Audio

Draw an Audio 是中国科学院自动化研究所和美团点评的研究人员推出的视频生成音频系统。根据视频内容自动生成匹配的声音效果,类似于电影制作中的 Foley 艺术...
阅读原文

Gummy

Gummy是通义实验室在2024年云栖大会上推出的端到端语音翻译大模型。模型能实时流式生成语音识别与翻译结果,支持包括中文、英语、粤语、日语、韩语、法语、德...
阅读原文

AiNiee

AiNiee 是一款AI翻译工具,能一键自动翻译RPG、SLG游戏、Epub、TXT格式的小说、Srt、Lrc字幕文件等。工具支持多格式文件,接入多个主流AI接口平台,如OpenAI...
阅读原文

Rope

Rope是一款开源的AI换脸工具,基于insightface的inswapper_128模型构建,提供一个用户友好的图形界面。用户通过上传图片或视频,在几秒钟内完成换脸操作,效...
阅读原文
167891012