语音识别 - 第 5 页

GEN3C

GEN3C 是NVIDIA、多伦多大学和向量研究所推出的新型生成式视频模型，基于精确的相机控制和时空一致性生成高质量的 3D 视频内容。GEN3C构建基于点云的 3D 缓存...

阅读原文

AI工具

1年前 (2025)

WhisperChain

WhisperChain 是开源的语音识别工具，基于语音输入提升工作效率。WhisperChain用 Whisper.cpp 实现实时语音识别，将语音转换为文本，基于 LangChain 对文本进...

阅读原文

AI工具

1年前 (2025)

Baichuan-Audio

Baichuan-Audio是百川智能推出的端到端音频大语言模型，支持无缝集成音频理解和生成功能，实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码...

阅读原文

AI工具

1年前 (2025)

TinyR1-Preview

TinyR1-Preview是北京大学计算机学院与360公司联合推出的32B参数量的推理模型。模型仅用5%的参数量，逼近Deepseek-R1-671B的性能，TinyR1-Preview在数学领域...

阅读原文

AI工具

1年前 (2025)

TANGLED

TANGLED是上海科技大学、Deemos Technology和华中科技大学联合推出的3D发型生成方法，支持从任意风格和视角的图像中生成高质量的3D发丝。TANGLED基于三个核心...

阅读原文

AI工具

1年前 (2025)

Ovis2

Ovis2 是阿里巴巴国际团队推出的新型多模态大语言模型，基于结构化嵌入对齐解决视觉与文本模态间的差异。Ovis2继承、优化了 Ovis 系列架构，强化小规模模型的...

阅读原文

AI工具

1年前 (2025)

交小智

交小智是西安交通大学推出的基于大语言模型技术的AI应用创建平台，为全校师生提供低代码、低门槛的智能体（Agent）创建与管理服务。通过平台，用户无需编程基...

阅读原文

AI工具

1年前 (2025)

好伴AI

好伴AI是杭州智诊科技推出的医疗健康智能助手应用，专注于为用户提供专业、便捷的健康咨询和医疗建议。基于全科医学通用大语言模型WiseDiag-Z1，能24小时在线...

阅读原文

AI工具

1年前 (2025)

华为小艺

华为小艺是华为推出的小艺AI助手网页端，用户可以通过浏览器直接访问使用。适配了手机和PC布局，提供多种功能，包括AI问答、AI写作、编程助手和AI翻译等。小...

阅读原文

AI工具

1年前 (2025)

Hibiki

Hibiki是Kyutai Labs开源的用在同时语音翻译的解码器模型，能实时将一种语言的语音翻译成另一种语言的语音或文本。Hibiki基于多流语言模型架构，同步处理源语...

阅读原文

AI工具

1年前 (2025)

AstrBot

AstrBot 是多平台聊天机器人及开发框架，支持多种大语言模型（如 OpenAI GPT、Google Gemini、Llama 等）和多种消息平台（如 QQ、Telegram、微信等）。AstrBo...

阅读原文

AI工具

1年前 (2025)

LIMO

LIMO（Less Is More for Reasoning）是上海交通大学研究团队提出的高效推理方法，通过极少量高质量的训练样本激活大语言模型（LLM）的复杂推理能力。核心假设...

阅读原文

AI工具

1年前 (2025)

ICLR 2025｜小米新一代Kaldi语音识别算法CR-CTC，纯CTC性能实现SOTA

性能比肩 Transducer 和 CTC/AED。

阅读原文

AIGC动态

1年前 (2025)

北京邮电大学AI入门课《AI在大前》

亲爱的同学们，你们好！在进入大学之前,这个课程将让你对人工智能有全新的认知和理解。你将学习到人工智能的核心概念，学习数学和物理学的相关基础知识，了解...

阅读原文

AI教程

1年前 (2025)

Loora

Loora 是先进的 AI 英语辅导应用，能帮助用户提高英语口语能力。基于模拟各种真实场景的对话，让用户在商务、面试、日常交流等情境中练习英语。Loora 能实时...

阅读原文

AI工具

1年前 (2025)

标签：语音识别