高效视频生成建模的金字塔流匹配技术
开源视频生成模型
Genmo 的视频生成模型,具有高保真运动和强提示遵循性。
Mochi视频生成器的ComfyUI包装节点
基于 Apple MLX 框架的视频字幕生成工具
实时AI视频生成开源模型
为LTX视频模型提供额外控制的ComfyUI节点集合
视频处理界面,提供视频编码和解码功能
开放高效的视频水印技术
AI数字人口型同步技术,无限多开贴牌OEM解决方案
一站式AI数字人系统,支持视频合成、声音合成、声音克隆。
领先的文本到语音转换模型
大规模多语种语音生成数据集
300行代码实现基于LLM的语音转录。
与任何大型语言模型进行快速的免提语音交互。
与大型语言模型进行自然的语音对话
个性化AI助手,记录每一刻,与AI对话获取反馈。
极速语音识别,精准时间戳
开源的语音识别和说话人分割模型推理代码
一款文本转语音工具,帮助您轻松阅读文本。
Android平台上的私有、设备端语音识别键盘和文字服务
统一的开放命名实体和语音识别模型
开源AI语音处理工具包,支持语音增强、分离和目标说话人提取。
实时浏览器端语音识别应用
开源、注重隐私的语音助手
自动语音识别工具,提供词级时间戳和说话人识别
AI语音代理测试与可观测性平台
基于PyTorch的生成式音频模型库
一个开源的GUI音频书和配音生成器。
ComfyUI节点,用于MMAudio模型的音频处理
使用API调用suno.ai的音乐生成AI,并轻松集成到GPT等代理中。
开源项目,实现AI音乐服务的API接口