引入类似ControlNet的分支网络思路
原标题:更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘 | AAAI
文章来源:量子位
内容字数:3676字
360人工智能研究院提出原生中文理解文生图模型BDM
本文总结了360人工智能研究院提出的Bridge Diffusion Model (BDM) 文生图模型的主要特点和优势。BDM 解决了现有AI绘画模型中普遍存在的中文理解和文化偏见问题,并实现了与Stable Diffusion 生态的兼容。
1. 解决中文AI绘画的世界观偏见
当前许多中文AI绘画产品依赖于开源的英文模型,导致生成的图像存在明显的英文世界观偏见。例如,人物形象、服饰、建筑等方面都难以准确反映中文文化的认知。BDM的核心目标正是解决这一问题,它致力于实现“原生中文”理解,即不仅支持中文输入,更重要的是能够生成符合中文文化认知的图像。
2. BDM模型的创新之处
BDM采用了类似ControlNet的分支网络结构,通过不同的网络分支学习不同语言的数据。这使得BDM不仅可以实现原生中文图像生成,还可以支持其他任意语言,并保证生成的图像符合对应语言文化的认知。英文部分可以直接复用已有的开源模型,从而实现与Stable Diffusion等开源社区的无缝兼容。使用时只需要输入一种语言,例如输入中文时,英文分支则为空文本输入。
3. BDM模型的训练和效果
BDM v1版本使用10亿量级的中文图文数据进行训练,并兼容SD1.5社区生态。实验结果表明,BDM能够有效生成具有中文特有概念的图像,并能处理中英多义词等复杂情况,同时保持与不同SD1.5风格微调模型的良好兼容性。
4. 与其他中文AI绘画方案的对比
文章对比了四种实现中文AI绘画的路线:英文模型+翻译、英文模型+隐式翻译、英文模型+隐式翻译+微调以及中文数据从头训练。前三种方法都存在局限性,难以完全解决模型的世界观偏见问题。而BDM通过其独特的模型结构,在兼顾原生中文理解的同时,实现了与现有开源生态的兼容,这是一种更有效且更具实用性的方案。
5. 360人工智能研究院的AI战略
BDM是360人工智能研究院在多模态生成方向的重要成果,该研究院承担着360集团All in AI战略下的多模态大模型研发任务,并已陆续推出多个相关模型,例如360VL多模态大模型、可控布局HiCo模型以及新一代DiT架构Qihoo-T2X等。BDM和多模态理解模型IAA均被AAAI 2025会议接收,彰显了360人工智能研究院在AI领域的科研实力。
6. 开源信息
BDM模型已开源,相关论文和代码可在Arxiv和Github上获取。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破