PromptEnhancer

PromptEnhancer – 腾讯开源的文本到图像提示词增强框架

PromptEnhancer 是一款腾讯混元团队推出的革新性文本到图像（T2I）提示优化框架，它通过模拟人类思维过程的“思维链”（CoT）提示重写技术，结合专门设计的“AlignEvaluator”奖励模型，极大地增强了T2I模型对复杂用户指令的理解能力和生成图像的精确度。该框架无需修改现有T2I模型的内部参数，具备出色的通用性和即插即用性，能够无缝适配多种主流模型，如HunyuanImage、Stable Diffusion和Imagen等。通过两阶段的精细化训练，PromptEnhancer能够显著提升生成图像与用户真实意图的贴合度。

PromptEnhancer：赋能 T2I 模型，实现更精准的图像生成

PromptEnhancer 是一款由腾讯混元团队重磅推出的文本到图像（T2I）提示重写框架，旨在为T2I模型注入更强大的指令理解能力和生成精度。它巧妙地融合了“思维链”（Chain-of-Thought，CoT）提示重写技术与专用的“AlignEvaluator”奖励模型，使得T2I模型能够更深刻地洞察并忠实地还原用户提出的复杂指令，从而生成与之高度契合的图像。

核心优势：通用、高效、智能

PromptEnhancer 的卓越之处在于其“通用性”和“即插即用”的设计理念。它无需对任何预训练T2I模型的权重进行改动，即可作为的模块，轻松集成到HunyuanImage、Stable Diffusion、Imagen等多种主流T2I模型之中，极大地降低了模型优化的门槛和成本。通过精心设计的两阶段训练流程，PromptEnhancer 能够对提示进行深度优化，确保最终生成的图像能够精准地反映用户的真实意图。

赋能 T2I 模型，解锁更高精度图像生成

PromptEnhancer 的核心使命是显著提升T2I模型的生成准确性和对齐精度。它能够有效地解析和处理用户输入的复杂指令，包括属性的精确绑定、否定指令的理解以及多元素之间复杂关系的描述。这意味着用户可以更加随心所欲地表达创意，而T2I模型则能更准确地将这些创意转化为视觉图像。

技术亮点：思维的链条与精准的评估

PromptEnhancer 的强大能力源于其创新的技术原理：

* **思维链（CoT）提示重写**：该框架引入了模拟人类设计师思考过程的“思维链”机制。它能够将用户简洁的指令逐步拆解，经过“核心元素识别”、“潜在歧义分析”和“细节补充”等多个思考步骤，最终生成更加精细化、逻辑严谨的提示。

* **专用奖励模型AlignEvaluator**：为了更客观地评价生成图像与用户意图的匹配程度，PromptEnhancer 构建了一个名为“AlignEvaluator”的专用奖励模型。该模型覆盖了语言理解（如否定指令、代词指代）、视觉属性（如物体数量、材质、表情）以及复杂关系（如包含关系、相似关系、反事实场景）等六大类别、二十四个关键维度。通过海量标注数据的训练，AlignEvaluator 能够针对每个维度对生成图像给出精确的评分，为提示优化提供了坚实的评估依据。

* **两阶段训练策略**：
* **第一阶段：监督微调（SFT）**：在这一阶段，PromptEnhancer 利用监督微调技术对CoT重写器进行初始化。通过使用由大模型生成的、包含“原始提示-思维链-精细化提示”的海量数据进行训练，确保重写器能够生成语确且逻辑清晰的精细化提示。
* **第二阶段：基于生成奖励的策略优化（GRPO）**：在完成监督微调后，PromptEnhancer 进入基于生成奖励的策略优化阶段。它会将重写器生成的多个候选提示输入到冻结的T2I模型中，并利用AlignEvaluator对生成的图像进行评分。通过“奖励越高的提示越受重视”的强化学习逻辑，不断优化重写器的生成策略，使其能够生成最大化图像与用户意图对齐度的提示。

触手可及的创新资源

PromptEnhancer 项目为研究者和开发者提供了丰富的资源：

* **项目官网**：https://hunyuan-promptenhancer.github.io/
* **GitHub仓库**：https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer
* **HuggingFace模型库**：https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt
* **arXiv技术论文**：https://www.arxiv.org/pdf/2509.04545

广泛的应用前景

PromptEnhancer 的强大功能使其在多个创意领域拥有广阔的应用前景：

* **广告设计**：能够快速生成高质量的广告海报和宣传材料，显著提升设计效率。
* **插画创作**：辅助插画师快速生成创意草图，节省宝贵的设计时间。
* **游戏设计**：为游戏开发者提供快速生成游戏角色、场景和道具概念图的能力，加速游戏开发流程。
* **社交媒体内容**：帮助创作者快速生成引人注目的社交媒体图片和视频，提升内容吸引力。
* **视频制作**：在视频内容创作中，能够生成高质量的视频帧或概念图，为视频剪辑和特效制作提供有力支持。

阅读原文