AI项目和框架
LiveKit Agents
LiveKit Agents 是一个强大的框架,用于创建能实时通过语音、视频和数据与用户互动的多模态AI代理。框架支持 Python 编程,简化开发过程,支持开发者轻松集成...
Matryoshka Diffusion Models
Matryoshka Diffusion Models(MDM)是苹果公司推出的一种创新的扩散模型,主要用于生成高分辨率图像和视频。MDM通过多分辨率扩散过程,在不同尺度上同时进行...
Inverse Painting
Inverse Painting 是一种AI技术,由华盛顿大学的研究人员推出,能逆向重现绘画过程。通过分析艺术家的绘画视频,学习绘画技巧和顺序,然后生成一系列绘画指令...
Playground v3
Playground v3(PGv3)是由Playground Research推出的最新文本到图像模型,基于深度融合的大型语言模型(LLM)技术,实现在图形设计任务上超越人类设计师的能...
Reverb ASR
Reverb ASR是Rev公司推出的开源自动语音识别和说话人分离模型,基于20万小时的人工转录英语数据训练而成。模型在长语音识别领域表现卓越,适合处理如播客和财...
Open NotebookLM
Open NotebookLM 是一个开源的AI工具,基于最新的开源AI模型,如Llama 3.1 405B、MeloTTS和Bark,将PDF文档转换成播客形式的音频内容。工具适合将书面信息转...
StoryDiffusion
StoryDiffusion是一个先进的AI图像和视频生成框架,用于从文本描述生成具有一致性的图像和视频序列。基于Consistent Self-Attention机制增强图像间的一致性,...
LosslessCut
LosslessCut是一款开源的视频编辑工具,用于快速且无损地剪切和合并视频和音频文件。基于强大的FFmpeg库构建,提供一个直观的图形用户界面,用户轻松地进行剪...