实时转录 - OpenI

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

2年前 (2024)

StepAudio 2.5 ASR

StepAudio 2.5 ASR 是阶跃星辰推出的新一代自动语音识别模型，专为语音转写、会议纪要与长音频处理设计。模型采用 Audio Encoder + Linear Adapter + 4B LLM ...

阅读原文

AI工具

3个月前

Speech 2.5

Speech 2.5 是 MiniMax 推出的新一代语音生成模型，在多语种表现力、音色复刻和语言覆盖范围上实现重大突破。模型支持40种语言，能精准还原不同语言和口音的...

阅读原文

AI工具

12个月前

Soundwave

Soundwave是香港中文大学（深圳）开源的语音理解大模型，专注于语音与文本的智能对齐和理解。通过创新的对齐适配器和压缩适配器技术，有效解决了语音和文本在...

阅读原文

AI工具

1年前 (2025)

gpt-4o-mini-transcribe

gpt-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型，gpt-4o-transcribe的精简版。gpt-4o-mini-transcribe 基于 GPT-4o-mini 架构，用知识蒸馏技术从大...

阅读原文

AI工具

1年前 (2025)

gpt-4o-transcribe

gpt-4o-transcribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构，用海量多样化音频数据训练，精准捕捉语音细微差别，显著降低单词错误率（...

阅读原文

AI工具

1年前 (2025)

Multi-Speaker

Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道，解决传统音频工具在处理重叠语音时的难题...

阅读原文

AI工具

1年前 (2025)

WhisperChain

WhisperChain 是开源的语音识别工具，基于语音输入提升工作效率。WhisperChain用 Whisper.cpp 实现实时语音识别，将语音转换为文本，基于 LangChain 对文本进...

阅读原文

AI工具

1年前 (2025)

ClearerVoice-Studio：智能语音处理框架助力多场景应用的高效解决方案

ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架，集成语音增强、分离和音视频说话人提取等功能。框架基于复数域深度学习算法，有效消除...

阅读原文

AI工具

2年前 (2024)

MacWhisper

MacWhisper 是一款AI音频转文字工具，基于 OpenAI 的 Whisper 技术，能在本地将音频文件快速转录成文本。支持多种语言，确保隐私安全。操作简单，支持导出字...

阅读原文

AI工具

2年前 (2024)

Faster Whisper

Faster Whisper 是一个基于OpenAI Whisper模型的高效语音识别工具，运用CTranslate2引擎实现快速推理。在保持高准确度的同时，提升语音转写速度，降低内存使...

阅读原文

AI工具

2年前 (2024)

Videotoword.ai

Videotowords.ai是一款AI驱动的在线服务，能将视频和音频文件转换成文字。基于先进的语音识别技术，支持多达98种语言的转录，提供自动生成摘要、快速准确的转...

阅读原文

AI工具

2年前 (2024)

Reverb ASR

Reverb ASR是Rev公司推出的开源自动语音识别和说话人分离模型，基于20万小时的人工转录英语数据训练而成。模型在长语音识别领域表现卓越，适合处理如播客和财...

阅读原文

AI工具

2年前 (2024)

FunASR

FunASR是由阿里巴巴达摩院开源的语音识别工具包，提供包括语音识别（ASR）、语音活动检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离及多说话人ASR...

阅读原文

AI工具

2年前 (2024)

标签：实时转录