360开源文生图模型:让寡姐瞬间化身中国新娘,重塑SD生态的魅力!

引入类似ControlNet的分支网络思路

360开源文生图模型:让寡姐瞬间化身中国新娘,重塑SD生态的魅力!

原标题:更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘 | AAAI
文章来源:量子位
内容字数:3676字

文章要点总结

本文介绍了冷大炜博士及其团队在量子位的最新研究成果——Bridge Diffusion Model(BDM),该模型旨在解决中文AI绘画中的世界观偏见问题,并兼容Stable Diffusion(SD)生态。BDM是由360人工智能研究院提出的,最近被AAAI接收并已开源。

1. 原生中文理解能力

BDM不仅支持中文输入,更重要的是生成符合中文文化认知的图像。传统的英文模型如SD和Midjourney在生成内容时,往往受限于英文世界观,导致图像无法准确反映中文文化。

2. 解决模型的世界观偏见

为了克服模型的偏见,研究团队提出了四种实现路线:英文模型+翻译、英文模型+隐式翻译、英文模型+隐式翻译+微调,以及中文数据从头训练。第四种方案是最彻底的,但也需要考虑与现有开源生态的兼容性。

3. BDM的结构与功能

BDM采用类似ControlNet的分支网络结构,能够根据不同语言学习数据,确保生成图像符合对应文化认知。该模型在训练中使用了10亿量级的中文图文数据,并与SD1.5社区生态实现兼容。

4. 研究成果与未来方向

BDM在生成中文特有概念和应对中英多义情况下表现优异。360人工智能研究院在多模态理解和生成方向的持续研发,将为未来的AI绘画技术带来更大的突破。这些研究成果显示了在AI领域不断创新的重要性。

总之,BDM为中文AI绘画提供了新的解决方案,既能理解中文输入,又能生成符合中文文化的图像,推动了多模态生成技术的发展。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...