标签:语音识别

WPS接入DeepSeek,秒变办公神器!

WPS 大家经常用来日常写作,虽然本身提供了AI功能,但可惜需要会员,本文教你三分钟接入最火的DeepSeek,让WPS秒变办公神器。 DeepSeek API申请地址:http:/...
阅读原文

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

Context7

Context7 是 Upstash 推出的AI工具,为大型语言模型(LLMs)和 AI 代码编辑器提供最新、版本特定的文档和代码片段。通过解析文档、丰富内容、向量化和重新排...
阅读原文

豆包·语音播客模型

豆包·语音播客模型是字节跳动旗下火山引擎推出的语音播客模型。模型基于流式模型构建,可将文本秒级转化为双人对话式播客,具有低成本、高时效、强互动特点。...
阅读原文

Notato

Notato 是AI笔记应用,专为高效学习和工作设计。能将音频、视频、文档或网页链接快速转换为清晰的笔记、总结、闪卡和测验,帮助用户轻松整理和复习关键信息。
阅读原文

DICE-Talk

DICE-Talk是复旦大学联合腾讯优图实验室推出的新颖情感化动态肖像生成框架,支持生成具有生动情感表达且保持身份一致性的动态肖像视频。DICE-Talk引入情感关...
阅读原文

Speech-02

Speech-02 是 MiniMax 推出的新一代文本到语音(TTS)模型。模型基于回归 Transformer 架构,实现零样本语音克隆,仅需几秒参考语音能生成高度相似的目标语音...
阅读原文

AI智能体

AI工具集收录了最新最全的AI智能体工具,包括通用型AI Agent、AI编程、AI设计、AI数据分析、AI智能体开发等。
阅读原文

Zoe

Zoe是百型智能推出的国内首个外贸行业垂类Agent,AI外贸员。能根据企业设定的目标自动拆解工作流程,独立完成外贸开发拓客的全链路操作,涵盖市场分析、潜在...
阅读原文

Chinese-LiPS

Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲...
阅读原文

Audio-SDS

Audio-SDS是NVIDIA AI研究团队推出的创新技术,将Score Distillation Sampling(SDS)技术扩展至文本条件音频扩散模型,为音频处理领域带来了重大突破。无需...
阅读原文

Day.ai

Day.ai 是 HubSpot 前高管创立的 AI 原生 CRM 工具,通过 AI 技术自动从电子邮件和视频会议中提取信息,为客户创建完善的 CRM 系统。核心功能包括AI 驱动的会...
阅读原文

BILIVE

BILIVE 是一款基于 AI 技术的开源工具,专为 B 站直播录制与处理设计。工具支持自动录制直播、渲染弹幕和字幕,支持语音识别、自动切片精彩片段,生成有趣的...
阅读原文

Mogao

Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理解...
阅读原文

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算...
阅读原文

oli

oli 是开源的智能代码助手,支持为开发者提供强大的编程支持。基于现代化的混合架构,结合 Rust 后端的高性能和 React/Ink 前端的交互式终端界面。oli 支持多...
阅读原文

Ztalk.ai

Ztalk.ai 是AI桌面应用程序,专注于实时语音翻译。支持超过30种语言,延迟小于100毫秒,能与Zoom、Google Meet、Teams等主流视频会议工具无缝集成。
阅读原文
12315