ACE：全能图像生成与编辑模型赋能创意无限可能

AI工具2年前 (2024)发布 AI工具集

ACE（All-round Creator and Editor）是阿里巴巴集团Tongyi Lab推出的一款全能图像生成和编辑模型，基于先进的扩散变换器技术。通过长上下文条件单元（LCU）和统一的条件格式，ACE能够理解和执行自然语言指令，完成多种视觉生成任务。

ACE是什么

ACE（All-round Creator and Editor）是阿里巴巴集团Tongyi Lab开发的图像生成与编辑的全能模型，利用扩散变换器技术实现高效的视觉内容创作。其采用了长上下文条件单元（LCU）与统一的条件格式，能够理解用户的自然语言指令，并执行多种复杂的视觉生成任务。ACE支持多模态输入，使其在图像生成、编辑以及多轮交互等方面表现出色，从而提高了视觉内容创作的效率和灵活性。

ACE的主要功能

多模态视觉生成：根据用户提供的文本指令生成各类图像，支持风格转换、对象添加或删除等多种视觉生成任务。
图像编辑：对现有图像进行编辑，包括语义编辑、元素编辑（如文本和对象的增减）以及重绘功能（inpainting）。
长上下文处理：通过长上下文条件单元（LCU），ACE能够理解并执行多轮对话中的图像编辑任务，确保对话历史的连贯性。
高效数据处理：采用先进的数据收集方法，通过合成或聚类流水线获取成对图像，并利用微调的大型多模态语言模型生成准确的文本指令。
单模型多任务处理：简化视觉代理的流程，通过单一模型后端快速响应任何图像创建请求，从而提升整体效率。

ACE的技术原理

长上下文条件单元（LCU）：LCU作为一种统一的条件格式，将历史信息与当前文本指令结合，增强对用户请求的理解，从而生成更符合期望的图像。
基于Transformer的扩散模型：构建以Transformer为基础的扩散模型，利用LCU作为输入，联合训练各种生成与编辑任务，从而提升模型的多任务处理能力。
条件标记化（Condition Tokenizing）：将文本指令与视觉信息（如图像和掩码）分别编码为序列，并进行合并处理，确保多模态信息的有效对齐。
图像指示嵌入（Image Indicator Embedding）：通过预定义的文本标记指示图像顺序，确保文本指令中提到的图像顺序与条件单元中的图像序列一致。
长上下文注意力块（Long-context Attention Block）：该模块基于时间步嵌入（T-Emb）和3D旋转位置编码（RoPE），区分不同的空间和帧级图像嵌入，确保在自注意力和交叉注意力层中，文本与图像嵌入可以逐帧对齐。