引入类似ControlNet的分支网络思路
原标题:更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘 | AAAI
文章来源:量子位
内容字数:3676字
文章要点总结
本文介绍了冷大炜博士及其团队在量子位的最新研究成果——Bridge Diffusion Model(BDM),该模型旨在解决中文AI绘画中的世界观偏见问题,并兼容Stable Diffusion(SD)生态。BDM是由360人工智能研究院提出的,最近被AAAI接收并已开源。
1. 原生中文理解能力
BDM不仅支持中文输入,更重要的是生成符合中文文化认知的图像。传统的英文模型如SD和Midjourney在生成内容时,往往受限于英文世界观,导致图像无法准确反映中文文化。
2. 解决模型的世界观偏见
为了克服模型的偏见,研究团队提出了四种实现路线:英文模型+翻译、英文模型+隐式翻译、英文模型+隐式翻译+微调,以及中文数据从头训练。第四种方案是最彻底的,但也需要考虑与现有开源生态的兼容性。
3. BDM的结构与功能
BDM采用类似ControlNet的分支网络结构,能够根据不同语言学习数据,确保生成图像符合对应文化认知。该模型在训练中使用了10亿量级的中文图文数据,并与SD1.5社区生态实现兼容。
4. 研究成果与未来方向
BDM在生成中文特有概念和应对中英多义情况下表现优异。360人工智能研究院在多模态理解和生成方向的持续研发,将为未来的AI绘画技术带来更大的突破。这些研究成果显示了在AI领域不断创新的重要性。
总之,BDM为中文AI绘画提供了新的解决方案,既能理解中文输入,又能生成符合中文文化的图像,推动了多模态生成技术的发展。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...