文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类

文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类

AIGC动态欢迎阅读

原标题:文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
关键字:模型,图像,文本,语言,研究人员
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:LRS
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。
Playground Research最近发布了一篇论文,详细介绍了团队最新的、基于DiT的扩散模型Playground v3(简称PGv3),将模型参数量扩展到240亿,在多个测试基准上达到了最先进的性能,更擅长图形设计。论文链接:https://arxiv.org/abs/2409.10695
数据链接:https://huggingface.co/datasets/playgroundai/CapsBench
与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同,PGv3完全集成了大型语言模型(LLMs),基于全新的深度融合(Deep-Fusion)架构,利用仅解码器(decod


原文链接:文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...