标签:语音识别

Audio-SDS

Audio-SDS是NVIDIA AI研究团队推出的创新技术,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,为音频处理领域带来了重大突破。无需...
阅读原文

Day.ai

Day.ai 是 HubSpot 前高管创立的 AI 原生 CRM 工具,通过 AI 技术自动从电子邮件和视频会议中提取信息,为客户创建完善的 CRM 系统。核心功能包括AI 驱动的会...
阅读原文

BILIVE

BILIVE 是一款基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的...
阅读原文

Mogao

Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理解...
阅读原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算...
阅读原文

oli

oli 是开源的智能代码助手,支持为开发者提供强大的编程支持。基于现代化的混合架构,结合 Rust 后端的高性能和 React/Ink 前端的交互式终端界面。oli 支持多...
阅读原文

Ztalk.ai

Ztalk.ai 是AI桌面应用程序,专注于实时语音翻译。支持超过30种语言,延迟小于100毫秒,能与Zoom、Google Meet、Teams等主流视频会议工具无缝集成。
阅读原文

Gemini 2.5 Pro (I/O 版)

Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升级版多模态AI模型,具体版本号为 Gemini 2.5 Pro Preview 05-06。模型在编程能力上取得重大突破...
阅读原文

攻壳智能体

攻壳智能体是专注于智能体和 AI 工具的门户网站,为用户介绍最新、热门的智能体和 AI 工具,帮助用户快速找到适合自己的学习、工作、生活的 AI 利器。通过精...
阅读原文

Aero-1-Audio

Aero-1-Audio 是 LMMs-Lab 开发的轻量级音频模型,基于 Qwen-2.5-1.5B 构建,仅包含 1.5 亿参数。专为长音频处理设计,能支持长达 15 分钟的连续音频输入,无...
阅读原文

Spring.new

Spring.new 是基于人工智能的低代码/无代码构建平台,帮助用户快速构建和部署定制化的商业应用程序。通过自然语言输入,用户可以将想法转化为实际应用,无需...
阅读原文

URM

URM(Universal Recommendation Model)是阿里妈妈推出的世界知识大模型,基于知识注入和信息对齐,将LLM的通用知识与电商领域的专业知识相结合,解决传统LLM...
阅读原文

风宇

风宇是中国气象局联合南昌大学和华为共同推出的全球首个全链式空间天气大模型。模型基于创新的链式训练结构,结合卫星观测数据与数值模式数据,实现太阳风、...
阅读原文

Hyprnote

Hyprnote 是为会议设计的AI笔记应用。基于实时记录会议内容结合用户笔记,快速生成高质量的会议总结。Hyprnote 支持离线使用,所有数据存储在本地,确保隐私...
阅读原文

Miras

Miras是谷歌推出的用在深度学习架构设计的通用框架,特别是序列建模任务。Miras基于关联记忆和注意力偏差的概念,将Transformer、现代线性RNN等模型重新定义...
阅读原文
123415