原标题:单提示生成「主体一致」图像,且无需训练!已斩获ICLR 2025 Spotlight
文章来源:新智元
内容字数:5466字
AI绘画新突破:单提示单故事法实现人物形象一致
现今的AI绘画技术已能根据文字描述生成高质量图像,但要创作人物形象在不同场景下保持一致的故事,却面临挑战。通常解决方法需要海量数据训练或复杂模型修改,限制了应用范围。南开大学、中科院等机构的研究人员提出了一种无需额外训练的创新方法——“单提示单故事”(1Prompt1Story),有效解决了这一难题。
1. 1Prompt1Story的核心思想
1Prompt1Story的核心思想是将所有场景描述整合到一个超长提示中,直接输入AI绘画模型。这利用了语言模型的上下文理解能力,让模型一开始就记住人物特征,保证初步一致性。 为了进一步优化,研究人员引入了两项关键技术:奇异值重加权(SVR)和身份保持交叉注意力(IPCA)。
2. 关键技术详解
2.1 奇异值重加权 (SVR):SVR通过奇异值分解分析词向量重要性,增强当前场景描述的语义信息,同时弱化其他场景的干扰,确保模型关注焦点清晰。
2.2 身份保持交叉注意力 (IPCA):IPCA在图像生成过程中,强化人物身份描述的特征,弱化场景描述对人物身份的影响,从而确保每一帧图像都保持人物身份的一致性。
3. 与现有方法的比较
现有方法主要分为需要训练和无需训练两类。需要训练的方法耗时耗力,容易出现语言漂移;无需训练的方法则可能资源消耗大或设计复杂,且忽略了长提示的内在特性,容易出现背景混淆等问题。1Prompt1Story方法则有效避免了这些缺点。
4. 实验结果
实验结果表明,1Prompt1Story在人物身份保持、图像内容准确性以及图像多样性方面均优于现有方法。定量分析显示,其文本与图像对齐程度接近原始模型,身份一致性也仅次于IP-Adapter,但后者牺牲了图像多样性。1Prompt1Story在文本-图像对齐和身份一致性之间取得了良好的平衡。
5. 总结
1Prompt1Story通过提示整合 (PCon)、奇异值重加权 (SVR) 和身份保持交叉注意力 (IPCA) 三个步骤,实现了高效的人物身份一致性图像生成。该方法无需额外训练,且在实验中展现出优异的性能,为AI绘画技术的发展提供了新的方向。
6. 未来展望
该研究成果展示了利用语言模型内在能力进行图像生成的潜力,未来可以探索将其应用于更复杂的场景,例如多主体故事生成和更长故事的生成,以及与不同基础模型的结合,进一步提升AI绘画的表达能力和创作效率。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。