AI项目和框架

MIP-Adapter

MIP-Adapter是一种个性化图像生成技术,由阿里巴巴集团推出并开源。基于IP-Adapter模型,进一步扩展其能力,支持同时处理多个参考图像,生成更准确和高质量的...
阅读原文

CapsWriter-Offline

CapsWriter-Offline是一款高效的PC端离线语音输入和字幕转录工具,支持用户通过简单的按键操作实现实时语音转文字。软件适合快速记录和转写大量语音信息的场...
阅读原文

HelloBench

HelloBench是一个用于评估大型语言模型(LLMs)长文本生成能力的开源基准测试。HelloBench包含五个基于布鲁姆分类法的子任务:开放式问答、摘要、聊天、文本...
阅读原文

VirtualWife

VirtualWife是一个创新的虚拟数字人项目,专注于开发具有AI的虚拟角色。角色设计用于在B站等直播平台上进行互动,提供娱乐和信息。通过集成先进的AI技术,如...
阅读原文

MMSearch

MMSearch是一个用于评估大型多模态模型(LMMs)作为AI搜索引擎能力的基准测试。包括一个MMSearch-Engine框架和MMSearch测试集,后者包含300个问题,涵盖14个...
阅读原文

anime.gf

Anime.gf 是一个开源的本地应用程序,支持用户创建和互动自己的虚拟角色。工具提供一个用户友好的界面,用户与各种具有独特个性和语言风格的虚拟角色进行交流。
阅读原文

ChopperBot

ChopperBot是一款智能化的直播视频剪辑和发布机器人,ChopperBot能自动化地管理和分发直播内容。支持多个流行直播平台,如斗鱼、虎牙、B站、抖音和Twitch等,...
阅读原文

FineZip

FineZip 是一种基于大型语言模型(LLMs)的无损文本压缩系统,结合在线记忆和动态上下文大小技术,提高文本压缩的速度和效率。在线记忆指的是在压缩前对模型...
阅读原文

Depth Pro

Depth Pro是苹果公司开发的一种先进的单目深度估计模型,能从单个2D图像快速生成高分辨率的3D深度图。模型不仅速度快,只需0.3秒,而且提供度量级别的深度信...
阅读原文

VideoLingo

VideoLingo 是一款一键全自动视频翻译工具,能将视频进行字幕切割、翻译、对齐和配音,最终生成 Netflix 级别的字幕和配音。VideoLingo 基于自然语言处理(NL...
阅读原文

CatVTON

CatVTON是一种先进的虚拟试衣技术,由中山大学和Pixocial联合推出。基于轻量化的架构和高效的训练策略,实现高质量的虚拟试衣效果。CatVTON的特点是只需要极...
阅读原文

ScribbleDiff

ScribbleDiff是一种先进的文本到图像生成技术,基于用户简单涂鸦的视觉提示指导图像的生成过程。通过分析涂鸦确保生成的图像中的对象方向与用户涂鸦的方向一...
阅读原文

Boow-VTON

Boow-VTON是阿里巴巴推出的一种先进的虚拟试衣技术。能在野外场景中实现高质量的虚拟试衣效果,无需依赖精确的遮罩或修复工作。通过有效的数据增强方法,基于...
阅读原文

LiveKit Agents

LiveKit Agents 是一个强大的框架,用于创建能实时通过语音、视频和数据与用户互动的多模态AI代理。框架支持 Python 编程,简化开发过程,支持开发者轻松集成...
阅读原文

Matryoshka Diffusion Models

Matryoshka Diffusion Models(MDM)是苹果公司推出的一种创新的扩散模型,主要用于生成高分辨率图像和视频。MDM通过多分辨率扩散过程,在不同尺度上同时进行...
阅读原文
1464748495062