AIGC动态欢迎阅读
原标题:DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式
关键字:模型,视觉,编码器,任务,图像
文章来源:机器之心
内容字数:0字
内容摘要:
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com论文: https://arxiv.org/pdf/2410.13848
项目主页:https://github.com/deepseek-ai/Janus
模型下载:https://huggingface.co/deepseek-ai/Janus-1.3B
在线 Demo:https://huggingface.co/spaces/deepseek-ai/Janus-1.3B
1. 太长不看版
我们提出了 Janus,一种基于自回归的多模态理解与生成统一模型。Janus 的核心思想是对理解和生成任务的视觉编码进行解耦,在提升了模型的灵活性的同时,有效缓解了使用单一视觉编码导致的冲突和性能瓶颈。实验表明,Janus 超越了此前的统一模型的效果,并取得了和纯理解
原文链接:DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式
联系作者
文章来源:机器之心
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...