360开源文生图模型：让寡姐瞬间化身中国新娘，重塑SD生态的魅力！

引入类似ControlNet的分支网络思路

原标题：更懂中文还兼顾SD生态，360开源文生图模型结构，寡姐秒变中国新娘 | AAAI
文章来源：量子位
内容字数：3676字

本文介绍了冷大炜博士及其团队在量子位的最新研究成果——Bridge Diffusion Model（BDM），该模型旨在解决中文AI绘画中的世界观偏见问题，并兼容Stable Diffusion（SD）生态。BDM是由360人工智能研究院提出的，最近被AAAI接收并已开源。

BDM不仅支持中文输入，更重要的是生成符合中文文化认知的图像。传统的英文模型如SD和Midjourney在生成内容时，往往受限于英文世界观，导致图像无法准确反映中文文化。

为了克服模型的偏见，研究团队提出了四种实现路线：英文模型+翻译、英文模型+隐式翻译、英文模型+隐式翻译+微调，以及中文数据从头训练。第四种方案是最彻底的，但也需要考虑与现有开源生态的兼容性。

BDM采用类似ControlNet的分支网络结构，能够根据不同语言学习数据，确保生成图像符合对应文化认知。该模型在训练中使用了10亿量级的中文图文数据，并与SD1.5社区生态实现兼容。

BDM在生成中文特有概念和应对中英多义情况下表现优异。360人工智能研究院在多模态理解和生成方向的持续研发，将为未来的AI绘画技术带来更大的突破。这些研究成果显示了在AI领域不断创新的重要性。

总之，BDM为中文AI绘画提供了新的解决方案，既能理解中文输入，又能生成符合中文文化的图像，推动了多模态生成技术的发展。

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

文章版权归作者所有，未经允许请勿转载。

暂无评论...