何恺明开辟分形图像生成新范式!计算效率提高4000倍,首次实现高分辨率逐像素生成

AIGC动态1个月前发布 量子位
306 0 0

再次开宗立派

何恺明开辟分形图像生成新范式!计算效率提高4000倍,首次实现高分辨率逐像素生成

原标题:何恺明开辟分形图像生成新范式!计算效率提高4000倍,首次实现高分辨率逐像素生成
文章来源:量子位
内容字数:3408字

何恺明团队开创分形生成模型新范式,实现高分辨率图像逐像素生成

何恺明团队最新研究成果——分形生成模型(Fractal Generative Models)——开创了生成模型的新范式,首次实现了高分辨率图像的逐像素生成。这项研究由MIT何恺明团队和谷歌DeepMind全华人班底合作完成,一作是何恺明的学生黎天鸿。

1. 分形生成模型的核心思想

该模型的核心思想源于数学中的分形理论,即一个几何形状可以被分成数个部分,每一部分都(至少近似地)是整体缩小后的形状。团队将生成模型抽象为可复用的“原子模块”,通过递归调用这些模块构建自相似的分形架构,如同套娃。 这与何恺明之前的代表作掩码自编码器MAE(通过掩蔽图像区块并重建缺失像素)有一定的联系,团队也结合了MAE的成果进行探索。

2. 高效的逐像素生成策略

为了高效地进行逐像素生成,团队采用了“分而治之”的策略。他们将自回归模型作为模块化单元,每个级别的生成器都能从单个输入生成多个输出,从而在少量递归级别下实现生成输出的指数级增长。 最终,自回归模型逐步细化生成过程,从图像块到最终像素。

3. 模型的优越性能

该模型在ImageNet数据集上表现出色。在ImageNet 64×64无条件生成上,实现了3.14bits/dim的负对数似然,超越了此前的最佳自回归模型。在图像质量上,FractalMAR-H模型达到6.15的FID和348.9的Inception Score。更重要的是,其计算效率提升了4000倍,首次实现了高分辨率图像的逐像素生成,在ImageNet 256×256数据集上,生成一张图仅需1.29秒。

4. 模型的应用潜力

该研究不仅在像素级图像生成上取得突破,还展现了分形方法在处理高维非顺序数据(如分子结构、蛋白质等)建模上的潜力,为其他数据领域的应用提供了参考。实验表明,该模型可以有效预测被掩蔽的像素,并从类标签中捕获高级语义。

5. 团队成员

该研究由MIT何恺明团队和谷歌DeepMind全华人班底完成,一作黎天鸿本科毕业于清华大学姚班,目前在MIT从事博士后研究;其他成员包括MIT三年级本科生Qinyi Sun和谷歌DeepMind研究科学家范丽杰。

6. 代码开源

该研究的代码已开源,方便其他研究者进行学习和应用。

总而言之,何恺明团队提出的分形生成模型,以其高效性和优越的性能,为高分辨率图像生成以及高维非顺序数据建模开辟了新的道路,具有重要的学术价值和应用前景。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...