颠覆想象：UniReal如何融合视频架构，实现图像生成与编辑的未来之旅

全新的图像编辑与生成范式。

原标题：UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律
文章来源：机器之心
内容字数：6122字

在图像生成与编辑领域，香港大学与Adobe联合提出了一种名为UniReal的新方法。该方法通过将多种图像任务统一到视频生成框架中，利用大规模真实视频数据学习属性、姿态和光照等变化规律，从而实现高保真的图像生成效果。

UniReal的目标是为各种图像生成与编辑任务构建一个统一框架。该方法特别关注如何保持输入和输出图像的一致性，同时根据控制信号建模图像变化。通过将不同图像视作视频帧处理，UniReal能够更好地捕捉多样化的动态变化。

UniReal采用了一种创新的模型结构，将输入图像通过变分自编码器（VAE）编码为视觉token，接着由Transformer进行处理。同时，利用T5文本编码器对输入指令进行编码，实现跨模态信息的高效融合。此外，UniReal引入了层级化提示设计，以整合多样化任务和数据，提升模型的生成能力。

UniReal基于原始视频数据构建了大规模训练数据集。通过从视频中提取帧并生成编辑指令，构造了多种编辑任务的数据。同时，利用图像理解模型进行自动标注，为可控生成和图像理解任务提供了丰富的条件信息。

UniReal在多个图像任务中展现出强大的性能，包括图像定制化生成、指令编辑和物体插入。实验表明，UniReal能够在保留细节的同时，生成具有较大姿态和场景变化的图像，并支持用户通过文本进行灵活编辑。此外，UniReal展现了优秀的环境理解能力，能够自然地将插入物体融入背景。

尽管UniReal在多个任务中表现出色，但随着输入和输出图像数量的增加，训练与推理效率问题成为关键挑战。未来的研究将集中于设计更高效的注意力结构，进一步提升模型性能与实用性。

总之，UniReal作为一种全新的图像生成与编辑范式，展示了广泛的应用潜力和出色的泛化能力，为未来的研究和应用提供了新的方向。

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

文章版权归作者所有，未经允许请勿转载。

暂无评论...