AI项目和框架
Markdown-to-Image:在线 Markdown 转海报编辑器让创作变得简单高效
Markdown-to-Image是开源的Markdown 转为海报的编辑器,作为React组件能将Markdown文本内容转换成图像,适用于创建社交媒体帖子、海报和其他视觉内容。工具支...
TÜLU 3:开源指令遵循模型的创新特性与应用潜力
TÜLU 3是艾伦人工智能研究所(Ai2)推出的一系列开源指令遵循模型,包括8B和70B两个版本,未来计划推出405B版本。模型在性能上超越Llama 3.1 Instruct版本,...
EchoMimicV2:革新数字人生成技术实现个性化虚拟形象定制
EchoMimicV2是蚂蚁集团推出的半身人体动画(数字人)生成方法,基于参考图片、音频剪辑和手部姿势序列生成高质量动画视频,确保音频内容与半身动作的一致性。...
FlipSketch:萨里大学推出的智能文本驱动无约束草图动画生成系统
FlipSketch 是萨里大学推出的创新系统,能将静态绘图转变为文本引导的草图动画。技术基于三个关键创新实现:微调草图风格的帧生成、用噪声细化保持输入草图视...
Add-it:英伟达推出无需训练的智能图像编辑工具,实现一键式创作与灵活调整
Add-it是NVIDIA推出的无需训练的图像编辑技术,能根据文本指令在图像中添加对象。这项技术基于扩展扩散模型的注意力机制,整合场景图像、文本提示和生成图像...
DINO-X:通用视觉大模型助力智能识别与分析的新时代
DINO-X是IDEA研究院推出的通用视觉大模型,具备开放世界对象检测与理解能力。支持文本、视觉和定制提示,能识别图像中的任何对象而无需用户提示。基于超过1亿...
The Matrix:AI基础世界模拟器打造虚拟环境助力创新与探索
The Matrix是与电影同名的、首个AI基础世界模拟器,是全华人团队推出的(作者分别来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Insititute)...
DreamPolish:智能文本到3D生成平台实现创意无限可能
DreamPolish是Zhipu AI、清华大学和北京大学推出的文本到3D生成模型,基于两阶段方法改进复杂对象的精细几何结构和高质量纹理的生成。第一阶段用多种神经表示...
OmniBooth:华为诺亚方舟与港科大携手打造创新图像生成框架,推动智能创作新体验
OmniBooth是华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关...
DynaMem:智能互动空间记忆系统提升人机协作体验
DynaMem是纽约大学和Hello Robot推出的动态空间语义记忆系统,专为开放世界中的移动操作设计。基于维护一个特征点云作为机器人记忆,处理环境中的动态变化,...
MVPaint:腾讯PCG与高校联手打造的创新3D纹理生成框架,助力数字创作新
MVPaint是腾讯PCG 、上海AI LAB、南洋理工大学S-Lab、清华大学共同推出的3D纹理生成框架,基于同步多视角扩散技术实现高分辨率、无缝且多视图一致的3D纹理生...
LTXV:Lightricks推出创新开源AI视频生成模型,实现高效创作与个性化定制
LTXV是Lightricks推出的开源AI视频生成模型,全称为LTX Video。能在4秒内生成5秒的高质量视频,速度超过观看速度。基于2亿参数的DiT架构,确保帧间平滑运动和...
AutoConsis:美团与复旦大学携手推出UI内容一致性AI检测工具,助力提升用户体验
AutoConsis是UI内容一致性智能检测,是美团技术团队与复旦大学联合推出的。工具基于深度学习和大型语言模型自动识别和提取界面中的关键数据,检测并识别数据...
OmniEdit:开源通用图像编辑工具实现智能化视觉创作与修改
OmniEdit是先进的图像编辑技术,通过结合多个专家模型的监督来训练一个通用模型,处理多种图像编辑任务。能处理不同纵横比的图像,七种不同的图像编辑任务,...
In-Context LoRA:创新图像生成框架基于DiTs技术赋能多场景应用
In-Context LoRA是阿里巴巴通义实验室推出的基于扩散变换器(DiTs)的图像生成框架,用模型的内在上下文学习能力,最小化调整激活模型的上下文生成能力。这种...