颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑
关键字：视觉,模型,任务,模块,图像
文章来源：新智元
内容字数：15313字

内容摘要：

新智元报道编辑：LRS
【新智元导读】颜水成团队联合新加坡国立、南洋理工大学共同开源了Vitron模型，持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务，为下一代通用视觉大模型的终极形态奠定了基础，也标志着大模型迈向通用人工智能（AGI）的又一大步。近日，颜水成教授团队联合发布并开源了Vitron通用像素级视觉多模态大语言模型。项目主页&Demo：https://vitron-llm.github.io/
论文链接：https://is.gd/aGu0VV
开源代码：https://github.com/SkyworkAI/Vitron
这是一款重磅的通用视觉多模态大模型，支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务，解决了困扰大语言模型产业已久的图像/视频模型割裂问题，提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型，为下一代通用视觉大模型的终极形态奠定了基础，也标志着大模型迈向通用人工智能（AGI）的又一大步。
Vitron作为一个统一的像素级视觉多模态大语言模型，实现了从低层次到高层次的视觉任务的全面支持，

原文链接：颜水成挂帅，奠定「通用视觉多模态大模型」终极形态！一统理解/生成/分割/编辑