AI项目和框架

The Matrix:AI基础世界模拟器打造虚拟环境助力创新与探索

The Matrix是与电影同名的、首个AI基础世界模拟器,是全华人团队推出的(作者分别来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Insititute)...
阅读原文

DreamPolish:智能文本到3D生成平台实现创意无限可能

DreamPolish是Zhipu AI、清华大学和北京大学推出的文本到3D生成模型,基于两阶段方法改进复杂对象的精细几何结构和高质量纹理的生成。第一阶段用多种神经表示...
阅读原文

OmniBooth:华为诺亚方舟与港科大携手打造创新图像生成框架,推动智能创作新体验

OmniBooth是华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关...
阅读原文

DynaMem:智能互动空间记忆系统提升人机协作体验

DynaMem是纽约大学和Hello Robot推出的动态空间语义记忆系统,专为开放世界中的移动操作设计。基于维护一个特征点云作为机器人记忆,处理环境中的动态变化,...
阅读原文

MVPaint:腾讯PCG与高校联手打造的创新3D纹理生成框架,助力数字创作新

MVPaint是腾讯PCG 、上海AI LAB、南洋理工大学S-Lab、清华大学共同推出的3D纹理生成框架,基于同步多视角扩散技术实现高分辨率、无缝且多视图一致的3D纹理生...
阅读原文

LTXV:Lightricks推出创新开源AI视频生成模型,实现高效创作与个性化定制

LTXV是Lightricks推出的开源AI视频生成模型,全称为LTX Video。能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和...
阅读原文

AutoConsis:美团与复旦大学携手推出UI内容一致性AI检测工具,助力提升用户体验

AutoConsis是UI内容一致性智能检测,是美团技术团队与复旦大学联合推出的。工具基于深度学习和大型语言模型自动识别和提取界面中的关键数据,检测并识别数据...
阅读原文

OmniEdit:开源通用图像编辑工具实现智能化视觉创作与修改

OmniEdit是先进的图像编辑技术,通过结合多个专家模型的监督来训练一个通用模型,处理多种图像编辑任务。能处理不同纵横比的图像,七种不同的图像编辑任务,...
阅读原文

In-Context LoRA:创新图像生成框架基于DiTs技术赋能多场景应用

In-Context LoRA是阿里巴巴通义实验室推出的基于扩散变换器(DiTs)的图像生成框架,用模型的内在上下文学习能力,最小化调整激活模型的上下文生成能力。这种...
阅读原文

SmoothCache:Roblox与女王大合研发的通用推理加速技术提升DiT效率与灵活性

SmoothCache 是用在Diffusion Transformers (DiT)模型的通用推理加速技术,是 Roblox 和女王大学的研究团队推出。基于分析相邻扩散时间步的层输出相似性,...
阅读原文

JoyVASA:音频驱动的数字人头项目实现智能交互与个性化体验

JoyVASA是京东健康国际公司开源的音频驱动的数字人头项目,基于扩散模型技术,根据音频信号生成与音频同步的面部动态和头部运动。JoyVASA能实现人物的唇形同...
阅读原文

TIP-I2V:创新智能家居助手提升生活品质与便利性

TIP-I2V是大规模真实文本和图像提示数据集,用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像提示,及五种SOTA图生视频模型生成的相应视频...
阅读原文

FLUX Tools:黑森林实验室全新模型工具套组助力高效开发与创新设计

FLUX Tools是黑森林实验室推出的一套模型工具,能增强基础文本到图像模型FLUX.1的控制性和可操作性。FLUX Tools包括FLUX.1 Fill(图像修复和扩展)、FLUX.1 D...
阅读原文

AlphaQubit:谷歌量子错误解码器:提升量子计算稳定性与效率的创新解决方案

AlphaQubit是谷歌推出基于AI技术的量子错误解码器,用深度学习架构Transformers识别和纠正量子计算中的错误。AlphaQubit基于精确的误差识别,助力量子计算机...
阅读原文

CAD-MLLM:智能CAD模型生成系统助力高效设计与创新

CAD-MLLM是由上海科技大学、Transcengram、DeepSeek AI和香港大学共同推出的,计算机辅助设计(CAD)模型生成系统,根据用户的多种输入(如文本描述、图像、...
阅读原文
16768697071115