更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘 | AAAI

AIGC动态1个月前发布 量子位
1 0 0

引入类似ControlNet的分支网络思路

更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘 | AAAI

原标题:更懂中文还兼顾SD生态,360开源文生图模型结构,寡姐秒变中国新娘 | AAAI
文章来源:量子位
内容字数:3676字

360人工智能研究院提出原生中文理解文生图模型BDM

本文总结了360人工智能研究院提出的Bridge Diffusion Model (BDM) 文生图模型的主要特点和优势。BDM 解决了现有AI绘画模型中普遍存在的中文理解和文化偏见问题,并实现了与Stable Diffusion 生态的兼容。

1. 解决中文AI绘画的世界观偏见

当前许多中文AI绘画产品依赖于开源的英文模型,导致生成的图像存在明显的英文世界观偏见。例如,人物形象、服饰、建筑等方面都难以准确反映中文文化的认知。BDM的核心目标正是解决这一问题,它致力于实现“原生中文”理解,即不仅支持中文输入,更重要的是能够生成符合中文文化认知的图像。

2. BDM模型的创新之处

BDM采用了类似ControlNet的分支网络结构,通过不同的网络分支学习不同语言的数据。这使得BDM不仅可以实现原生中文图像生成,还可以支持其他任意语言,并保证生成的图像符合对应语言文化的认知。英文部分可以直接复用已有的开源模型,从而实现与Stable Diffusion等开源社区的无缝兼容。使用时只需要输入一种语言,例如输入中文时,英文分支则为空文本输入。

3. BDM模型的训练和效果

BDM v1版本使用10亿量级的中文图文数据进行训练,并兼容SD1.5社区生态。实验结果表明,BDM能够有效生成具有中文特有概念的图像,并能处理中英多义词等复杂情况,同时保持与不同SD1.5风格微调模型的良好兼容性。

4. 与其他中文AI绘画方案的对比

文章对比了四种实现中文AI绘画的路线:英文模型+翻译、英文模型+隐式翻译、英文模型+隐式翻译+微调以及中文数据从头训练。前三种方法都存在局限性,难以完全解决模型的世界观偏见问题。而BDM通过其独特的模型结构,在兼顾原生中文理解的同时,实现了与现有开源生态的兼容,这是一种更有效且更具实用性的方案。

5. 360人工智能研究院的AI战略

BDM是360人工智能研究院在多模态生成方向的重要成果,该研究院承担着360集团All in AI战略下的多模态大模型研发任务,并已陆续推出多个相关模型,例如360VL多模态大模型、可控布局HiCo模型以及新一代DiT架构Qihoo-T2X等。BDM和多模态理解模型IAA均被AAAI 2025会议接收,彰显了360人工智能研究院在AI领域的科研实力。

6. 开源信息

BDM模型已开源,相关论文和代码可在Arxiv和Github上获取。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止