T2I-R1

T2I-R1 – 港中文联合上海AI Lab推出文生图模型

T2I-R1

T2I-R1 是由香港中文大学与上海AI Lab联合开发的先进文本生成图像模型。该模型通过引入双层推理机制，结合语义级链式思维（CoT）和 Token 级 CoT，成功实现了高层次图像规划与低层次像素生成的解耦，显著提升了图像生成的质量与稳健性。在多项基准测试中，T2I-R1 的性能超越了当前的顶尖模型 FLUX.1，展现了其在复杂场景理解与高质量图像生成方面的卓越能力。

T2I-R1是什么

T2I-R1 是一款新型的文本生成图像模型，由香港中文大学与上海AI Lab共同研发。该模型利用双层推理机制，结合语义级链式思维（CoT）与 Token 级 CoT，成功实现了高层次的图像规划与低层次的像素生成相互，显著提升了生成图像的质量与鲁棒性。T2I-R1 采用 BiCoT-GRPO 强化学习框架，通过多专家奖励模型的集成来优化生成过程。

T2I-R1的主要功能

卓越的图像生成：运用双层推理机制，生成与人类期望高度一致的高质量图像。
深度理解复杂场景：能够理解用户提示中的复杂语义，生成高度一致的图像，尤其在处理不常见或模糊场景时表现出色。
优化图像多样性：通过语义级 CoT 的规划能力，增强生成图像的多样性，避免单一的输出结果。

T2I-R1的技术原理

双层 CoT 推理机制：
- 语义级 CoT：在生成图像之前，对文本提示进行推理规划，以明确整体结构与元素布局。
- Token 级 CoT：在图像生成过程中，逐块生成图像 Token，专注于局部细节与视觉连贯性。
BiCoT-GRPO 算法：结合强化学习（Reinforcement Learning，RL）对语义级与 Token 级 CoT 进行联合优化，确保推理与生成过程的协调。通过群组相对奖励（Group-Relative Reward）与多专家奖励模型的集成，从多个维度评估生成图像的质量。
多专家奖励模型集成：结合人类偏好模型、目标检测器、视觉问答模型等多种视觉专家，从美学质量、文本对齐、对象存在性等多个方面评估生成图像，防止模型对单一奖励模型的过拟合，提升生成结果的稳定性与泛化能力。