更懂中文还兼顾SD生态，360开源文生图模型结构，寡姐秒变中国新娘 | AAAI

引入类似ControlNet的分支网络思路

原标题：更懂中文还兼顾SD生态，360开源文生图模型结构，寡姐秒变中国新娘 | AAAI
文章来源：量子位
内容字数：3676字

360人工智能研究院提出原生中文理解文生图模型BDM

本文总结了360人工智能研究院提出的Bridge Diffusion Model (BDM) 文生图模型的主要特点和优势。BDM 解决了现有AI绘画模型中普遍存在的中文理解和文化偏见问题，并实现了与Stable Diffusion 生态的兼容。

1. 解决中文AI绘画的世界观偏见

当前许多中文AI绘画产品依赖于开源的英文模型，导致生成的图像存在明显的英文世界观偏见。例如，人物形象、服饰、建筑等方面都难以准确反映中文文化的认知。BDM的核心目标正是解决这一问题，它致力于实现“原生中文”理解，即不仅支持中文输入，更重要的是能够生成符合中文文化认知的图像。

2. BDM模型的创新之处

BDM采用了类似ControlNet的分支网络结构，通过不同的网络分支学习不同语言的数据。这使得BDM不仅可以实现原生中文图像生成，还可以支持其他任意语言，并保证生成的图像符合对应语言文化的认知。英文部分可以直接复用已有的开源模型，从而实现与Stable Diffusion等开源社区的无缝兼容。使用时只需要输入一种语言，例如输入中文时，英文分支则为空文本输入。

3. BDM模型的训练和效果

BDM v1版本使用10亿量级的中文图文数据进行训练，并兼容SD1.5社区生态。实验结果表明，BDM能够有效生成具有中文特有概念的图像，并能处理中英多义词等复杂情况，同时保持与不同SD1.5风格微调模型的良好兼容性。

4. 与其他中文AI绘画方案的对比

文章对比了四种实现中文AI绘画的路线：英文模型+翻译、英文模型+隐式翻译、英文模型+隐式翻译+微调以及中文数据从头训练。前三种方法都存在局限性，难以完全解决模型的世界观偏见问题。而BDM通过其独特的模型结构，在兼顾原生中文理解的同时，实现了与现有开源生态的兼容，这是一种更有效且更具实用性的方案。

5. 360人工智能研究院的AI战略

BDM是360人工智能研究院在多模态生成方向的重要成果，该研究院承担着360集团All in AI战略下的多模态大模型研发任务，并已陆续推出多个相关模型，例如360VL多模态大模型、可控布局HiCo模型以及新一代DiT架构Qihoo-T2X等。BDM和多模态理解模型IAA均被AAAI 2025会议接收，彰显了360人工智能研究院在AI领域的科研实力。

6. 开源信息

BDM模型已开源，相关论文和代码可在Arxiv和Github上获取。

联系作者

文章来源：量子位
作者微信：
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # AI图像生成 # SD生态 # 中国新娘主题 # 开源AI模型 # 文生图模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

更懂中文还兼顾SD生态，360开源文生图模型结构，寡姐秒变中国新娘 | AAAI

引入类似ControlNet的分支网络思路

360人工智能研究院提出原生中文理解文生图模型BDM

1. 解决中文AI绘画的世界观偏见

2. BDM模型的创新之处

3. BDM模型的训练和效果

4. 与其他中文AI绘画方案的对比

5. 360人工智能研究院的AI战略

6. 开源信息

联系作者

思必驰俞凯：分布式大模型智能体系统是 AGI 时代一道别样的风景

华为全家桶升级为纯血鸿蒙：揭示它背后的强大秘密！

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点