标签:语音识别

什么是NLP自然语言处理?定义、重要性、发展和应用

NLP(Natural Language Processing),即自然语言处理,是计算机科学的一个领域,重点是创建能够理解人类语音和语言的计算机和软件。NLP使用人工智能和机器学...
阅读原文

OpenVoice

OpenVoice是由MyShell推出的一个免费开源的AI即时语音克隆项目,相较于其他的语音克隆技术,OpenVoice的优势在于仅需一段简短的音频,便能以惊人的准确度复刻...
阅读原文

VoiceCraft

VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构...
阅读原文

Gauth APP

Gauth APP是由字节跳动的海外子公司开发的一款智能学习辅助应用,专注于帮助学生高效解决数学、化学、物理等科目的复杂问题。
阅读原文

Voice Engine

Voice Engine是OpenAI最新推出的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年...
阅读原文

腾讯元器

腾讯元器是腾讯公司在腾讯云生成式AI产业应用峰会上推出的一款基于其腾讯混元大模型的AI智能体创作与分发平台,可帮助用户轻松创建和部署智能体,无需编写代...
阅读原文

腾讯元宝APP

腾讯元宝APP是腾讯于5月30日最新推出的一款基于腾讯混元大模型的AI助手应用,旨在通过先进的人工智能技术,为用户提供办公、学习、创作和生活等方面的辅助。
阅读原文

Fish Speech

Fish Speech是一款由Fish Audio开发的开源的文本到语音(TTS)工具,支持中文、英文和日文。通过约15万小时的多语种数据训练,实现了接近人类水平的语音合成...
阅读原文

Moshi

Moshi是由法国的的人工智能研究实验室Kyutai推出的一款端到端实时音频多模态AI模型,拥有听、说、看的能力,并能模拟70种不同的情绪和风格进行交流。作为对标...
阅读原文

Whisper-Medusa

Whisper-Medusa是aiOla推出的开源AI语音识别模型,结合了OpenAI的Whisper技术与aiOla的创新,Whisper-Medusa引入了多头注意力机制,实现了并行处理,显著提升...
阅读原文

Amuse AI

Amuse 2.0是AMD最新推出的AI图像生成工具,专为AMD硬件优化,支持在PC上生成高质量图像。Amuse 2.0具备设计模式,能够将用户草图和文本提示转化为图像,同时...
阅读原文

墨问便签

墨问便签是专为创作者设计的AI便签工具,支持AI语音转录功能,用户可以录制长达10分钟的语音,实时看到转录文字,便于即时修正。AI还能自动润色,如分段和修...
阅读原文

Aide

Aide 是免费开源的AI 编程插件,具备代码注释、语言转换、智能粘贴、批量处理、变量命名和自定义命令等功能,帮助开发者快速理解、编写和重构代码。Aide 支持...
阅读原文

智谱AI开放平台

智谱AI开放平台 是一个面向开发者的大模型开发平台。整合了先进的模型能力、丰富的开发资源、自定义知识库及应用体验中心,助力开发者利用GLM大模型的技术潜...

汉王语音王

汉王语音王是汉王科技推出的智能语音APP,集成了AI语音记录、翻译与同声传译功能。基于自研的多模态大模型,支持高准确率转写、拍录同步、智能总结和实时翻译...
阅读原文
18910111215