AIGC动态欢迎阅读
原标题:文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
关键字:模型,图像,文本,语言,研究人员
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:LRS
【新智元导读】Playground Research推出了新一代文本到图像模型PGv3,具备240亿参数量,采用深度融合的大型语言模型,实现了在图形设计和遵循文本提示指令上甚至超越了人类设计师,同时支持精确的RGB颜色控制和多语言识别。自去年以来,文本到图像生成模型取得了巨大进展,模型的架构从传统的基于UNet逐渐转变为基于Transformer的模型。
Playground Research最近发布了一篇论文,详细介绍了团队最新的、基于DiT的扩散模型Playground v3(简称PGv3),将模型参数量扩展到240亿,在多个测试基准上达到了最先进的性能,更擅长图形设计。论文链接:https://arxiv.org/abs/2409.10695
数据链接:https://huggingface.co/datasets/playgroundai/CapsBench
与传统依赖于预训练语言模型如T5或CLIP文本编码器的文本到图像生成模型不同,PGv3完全集成了大型语言模型(LLMs),基于全新的深度融合(Deep-Fusion)架构,利用仅解码器(decod
原文链接:文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
联系作者
文章来源:新智元
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...