语音识别 - 第 2 页

Zoe

Zoe是百型智能推出的国内首个外贸行业垂类Agent，AI外贸员。能根据企业设定的目标自动拆解工作流程，独立完成外贸开发拓客的全链路操作，涵盖市场分析、潜在...

阅读原文

AI工具

1年前 (2025)

Chinese-LiPS

Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集，包含100小时的语音、视频和手动转录文本，创新性地融合了唇读视频和演讲...

阅读原文

AI工具

1年前 (2025)

Audio-SDS

Audio-SDS是NVIDIA AI研究团队推出的创新技术，将Score Distillation Sampling（SDS）技术扩展至文本条件音频扩散模型，为音频处理领域带来了重大突破。无需...

阅读原文

AI工具

1年前 (2025)

Day.ai

Day.ai 是 HubSpot 前高管创立的 AI 原生 CRM 工具，通过 AI 技术自动从电子邮件和视频会议中提取信息，为客户创建完善的 CRM 系统。核心功能包括AI 驱动的会...

阅读原文

AI工具

1年前 (2025)

BILIVE

BILIVE 是一款基于 AI 技术的开源工具，专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕，支持语音识别、自动切片精彩片段，生成有趣的...

阅读原文

AI工具

1年前 (2025)

Mogao

Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器，结合变分自编码器（VAE）和视觉变换器（ViT），能更好地进行视觉理解...

阅读原文

AI工具

1年前 (2025)

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别（ASR）模型。采用FastConformer编码器和TDT解码器架构，通过预测文本标记及其持续时间加速推理，减少计算...

阅读原文

AI工具

1年前 (2025)

oli

oli 是开源的智能代码助手，支持为开发者提供强大的编程支持。基于现代化的混合架构，结合 Rust 后端的高性能和 React/Ink 前端的交互式终端界面。oli 支持多...

阅读原文

未分类

1年前 (2025)

Ztalk.ai

Ztalk.ai 是AI桌面应用程序，专注于实时语音翻译。支持超过30种语言，延迟小于100毫秒，能与Zoom、Google Meet、Teams等主流视频会议工具无缝集成。

阅读原文

未分类

1年前 (2025)

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型，具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破...

阅读原文

AI工具

1年前 (2025)

攻壳智能体

攻壳智能体是专注于智能体和 AI 工具的门户网站，为用户介绍最新、热门的智能体和 AI 工具，帮助用户快速找到适合自己的学习、工作、生活的 AI 利器。通过精...

阅读原文

AI工具

1年前 (2025)

Aero-1-Audio

Aero-1-Audio 是 LMMs-Lab 开发的轻量级音频模型，基于 Qwen-2.5-1.5B 构建，仅包含 1.5 亿参数。专为长音频处理设计，能支持长达 15 分钟的连续音频输入，无...

阅读原文

AI工具

1年前 (2025)

Spring.new

Spring.new 是基于人工智能的低代码/无代码构建平台，帮助用户快速构建和部署定制化的商业应用程序。通过自然语言输入，用户可以将想法转化为实际应用，无需...

阅读原文

AI工具

1年前 (2025)

URM

URM（Universal Recommendation Model）是阿里妈妈推出的世界知识大模型，基于知识注入和信息对齐，将LLM的通用知识与电商领域的专业知识相结合，解决传统LLM...

阅读原文

AI工具

1年前 (2025)

风宇

风宇是中国气象局联合南昌大学和华为共同推出的全球首个全链式空间天气大模型。模型基于创新的链式训练结构，结合卫星观测数据与数值模式数据，实现太阳风、...

阅读原文

AI工具

1年前 (2025)

标签：语音识别