AIGC动态欢迎阅读
原标题:颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑
关键字:视觉,模型,任务,模块,图像
文章来源:新智元
内容字数:15313字
内容摘要:
新智元报道编辑:LRS
【新智元导读】颜水成团队联合新加坡国立、南洋理工大学共同开源了Vitron模型,持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。近日,颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。项目主页&Demo:https://vitron-llm.github.io/
论文链接:https://is.gd/aGu0VV
开源代码:https://github.com/SkyworkAI/Vitron
这是一款重磅的通用视觉多模态大模型,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,解决了困扰大语言模型产业已久的图像/视频模型割裂问题,提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。
Vitron作为一个统一的像素级视觉多模态大语言模型,实现了从低层次到高层次的视觉任务的全面支持,
原文链接:颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...