文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类
关键字：模型,图像,文本,语言,研究人员
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3，具备240亿参数量，采用深度融合的大型语言模型，实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师，同时支持精确的RGB颜色控制和多语言识别。自去年以来，文本到图像生成模型取得了巨大进展，模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。
Playground Research最近发布了一篇论文，详细介绍了团队最新的、基于DiT的扩散模型Playground v3（简称PGv3），将模型参数量扩展到240亿，在多个测试基准上达到了最先进的性能，更擅长图形设计。论文链接：https://arxiv.org/abs/2409.10695
数据链接：https://huggingface.co/datasets/playgroundai/CapsBench
与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同，PGv3完全集成了大型语言模型（LLMs），基于全新的深度融合（Deep-Fusion）架构，利用仅解码器（decod

原文链接：文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类