领先的文本到语音转换模型
大规模多语种语音生成数据集
300行代码实现基于LLM的语音转录。
与任何大型语言模型进行快速的免提语音交互。
与大型语言模型进行自然的语音对话
个性化AI助手,记录每一刻,与AI对话获取反馈。
极速语音识别,精准时间戳
开源的语音识别和说话人分割模型推理代码
一款文本转语音工具,帮助您轻松阅读文本。
Android平台上的私有、设备端语音识别键盘和文字服务
统一的开放命名实体和语音识别模型
开源AI语音处理工具包,支持语音增强、分离和目标说话人提取。
实时浏览器端语音识别应用
开源、注重隐私的语音助手
自动语音识别工具,提供词级时间戳和说话人识别
AI语音代理测试与可观测性平台
基于PyTorch的生成式音频模型库
一个开源的GUI音频书和配音生成器。
ComfyUI节点,用于MMAudio模型的音频处理
使用API调用suno.ai的音乐生成AI,并轻松集成到GPT等代理中。
开源项目,实现AI音乐服务的API接口
音频采样器,创造音乐节奏
一键生成海量模板,支持SaaS多开的全开源系统
开源自主软件开发系统
开源大型语言模型工具集合
利用AI生成的Next.js开源应用模板。
全栈开源机器人
开源AI网关和开发者门户,轻松管理、集成和部署AI服务。
一个开源的交互式开发环境,用于构建和优化基于LLM的数据处理管道。
AI组件驱动技术,一行文本即可创建、设计和开发网页组件。
低代码工具,快速构建和协调多智能体团队
一个强大的OCR包,使用最先进的视觉语言模型提取图像中的文本。