标签：实时音频处理

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

2年前 (2024)

LongCat-Audio-Codec

LongCat-Audio-Codec 是美团 LongCat 团队开源的语音编解码方案，专为语音大语言模型（Speech LLM）设计。通过语义和声学双 Token 并行提取机制，兼顾语音的...

阅读原文

AI工具

8个月前

Bebop

Bebop 是AI销售工具，专为中小企业设计，帮助用户快速找到潜在客户并提升销售效率。用户只需输入公司网站地址，Bebop 能在短时间内扫描市场，生成潜在客户名...

阅读原文

AI工具

1年前 (2025)

Maestro

Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制，解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语法，...

阅读原文

AI工具

1年前 (2025)

SeedFoley

SeedFoley 是字节跳动豆包大模型语音团队开发的端到端视频音效生成模型，为视频创作提供智能音效生成服务。通过融合时空视频特征与扩散生成模型，实现音效与...

阅读原文

AI工具

1年前 (2025)

MakeBestMusic

MakeBestMusic 是基于AI技术的音乐创作平台，基于简单易用的工具帮助用户快速生成高质量的个性化音乐。用户用文本描述生成器乐或人声音乐，基于上传音频进行...

阅读原文

AI工具

1年前 (2025)

Jammable

Jammable是AI音乐翻唱平台。用户选择喜欢的歌手声音或风格，让AI模仿创作出个性化的音乐作品。平台提供热门声音、音乐合集和合作作品展示，方便用户了解流行...

阅读原文

AI工具

1年前 (2025)

3D-Speaker：多模态说话人识别技术的创新突破与应用潜力

3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目，基于结合声学、语义、视觉信息，实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模...

阅读原文

AI工具

2年前 (2024)

Ultravox：智能多模态助手实现文本与语音的无缝理解

Ultravox是新型的多模态大型语言模型（LLM），能直接理解文本和人类语音，无需依赖单独的自动语音识别（ASR）阶段。基于多模态投影器技术将音频数据转换为高...

阅读原文

AI工具

2年前 (2024)

MultiFoley：创新音效生成系统助力创作者实现无限灵感

MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统，能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音...

阅读原文

AI工具

2年前 (2024)

EzAudio

EzAudio是由约翰霍普金斯大学和腾讯AI实验室共同推出的一款文本到音频（Text-to-Audio, T2A）生成模型。基于一种高效的扩散变换器技术，用在从文本提示生成高...

阅读原文

AI工具

2年前 (2024)