AI项目和框架

anime.gf

Anime.gf 是一个开源的本地应用程序,支持用户创建和互动自己的虚拟角色。工具提供一个用户友好的界面,用户与各种具有独特个性和语言风格的虚拟角色进行交流。
阅读原文

ChopperBot

ChopperBot是一款智能化的直播视频剪辑和发布机器人,ChopperBot能自动化地管理和分发直播内容。支持多个流行直播平台,如斗鱼、虎牙、B站、抖音和Twitch等,...
阅读原文

FineZip

FineZip 是一种基于大型语言模型(LLMs)的无损文本压缩系统,结合在线记忆和动态上下文大小技术,提高文本压缩的速度和效率。在线记忆指的是在压缩前对模型...
阅读原文

Depth Pro

Depth Pro是苹果公司开发的一种先进的单目深度估计模型,能从单个2D图像快速生成高分辨率的3D深度图。模型不仅速度快,只需0.3秒,而且提供度量级别的深度信...
阅读原文

VideoLingo

VideoLingo 是一款一键全自动视频翻译工具,能将视频进行字幕切割、翻译、对齐和配音,最终生成 Netflix 级别的字幕和配音。VideoLingo 基于自然语言处理(NL...
阅读原文

CatVTON

CatVTON是一种先进的虚拟试衣技术,由中山大学和Pixocial联合推出。基于轻量化的架构和高效的训练策略,实现高质量的虚拟试衣效果。CatVTON的特点是只需要极...
阅读原文

ScribbleDiff

ScribbleDiff是一种先进的文本到图像生成技术,基于用户简单涂鸦的视觉提示指导图像的生成过程。通过分析涂鸦确保生成的图像中的对象方向与用户涂鸦的方向一...
阅读原文

Boow-VTON

Boow-VTON是阿里巴巴推出的一种先进的虚拟试衣技术。能在野外场景中实现高质量的虚拟试衣效果,无需依赖精确的遮罩或修复工作。通过有效的数据增强方法,基于...
阅读原文

LiveKit Agents

LiveKit Agents 是一个强大的框架,用于创建能实时通过语音、视频和数据与用户互动的多模态AI代理。框架支持 Python 编程,简化开发过程,支持开发者轻松集成...
阅读原文

Matryoshka Diffusion Models

Matryoshka Diffusion Models(MDM)是苹果公司推出的一种创新的扩散模型,主要用于生成高分辨率图像和视频。MDM通过多分辨率扩散过程,在不同尺度上同时进行...
阅读原文

IFAdapter

IFAdapter是一种新型的文本到图像生成模型,由腾讯和新加坡国立大学共同推出。提升生成含有多个实例的图像时的位置和特征准确性。传统模型在处理多实例图像时...
阅读原文

TinyVLA

TinyVLA是一种面向机器人操控的视觉-语言-动作(VLA)模型,由华东师范大学和上海大学团队推出。针对现有VLA模型的不足,如推理速度慢和需要大量数据预训练,...
阅读原文

Inverse Painting

Inverse Painting 是一种AI技术,由华盛顿大学的研究人员推出,能逆向重现绘画过程。通过分析艺术家的绘画视频,学习绘画技巧和顺序,然后生成一系列绘画指令...
阅读原文

Playground v3

Playground v3(PGv3)是由Playground Research推出的最新文本到图像模型,基于深度融合的大型语言模型(LLM)技术,实现在图形设计任务上超越人类设计师的能...
阅读原文

Reverb ASR

Reverb ASR是Rev公司推出的开源自动语音识别和说话人分离模型,基于20万小时的人工转录英语数据训练而成。模型在长语音识别领域表现卓越,适合处理如播客和财...
阅读原文
1697071727384