字节多模态大模型PixelLM:高效像素级推理,无需依赖SAM

AIGC动态11个月前发布 量子位
23 0 0

字节多模态大模型PixelLM:高效像素级推理,无需依赖SAM

AIGC动态欢迎阅读

原标题:字节多模态大模型PixelLM:高效像素级推理,无需依赖SAM
关键字:模型,字节跳动,目标,数据,图像
文章来源:量子位
内容字数:5403字

内容摘要:


梦晨 发自 凹非寺量子位 | 公众号 QbitAI多模态大模型爆发,准备好进入图像编辑、自动驾驶和机器人技术等细粒度任务中实际应用了吗?
目前大多数模型的能力还是局限于生成对整体图像或特定区域的文本描述,在像素级理解方面的能力(例如物体分割)相对有限。
针对这个问题,一些工作开始探索借助多模态大模型来处理用户的分割指令(例如,“请分割出图片中富含维生素C的水果”)。
然而,市面上的方法都存在两个主要缺点:
1)无法处理涉及多个目标对象的任务,而这在现实世界场景中是不可或缺的;
2)依赖于像SAM这样的预训练图像分割模型,而SAM的一次前向传播需要的计算量已经足够 Llama-7B产生500多个token了。
为了解决此问题,字节跳动智能创作团队联合北京交通大学、北京科技大学的研究人员提出了首个无需依赖SAM的高效像素级推理大模型PixelLM。
在具体介绍它之前,先来体验几组PixelLM实际分割的效果:
相比之前的工作,PixelLM的优势在于:
能够熟练处理任意数量的开放域目标和多样化的复杂推理分割任务。
避免了额外的、成本高昂的分割模型,提升了效率和对不同应用的迁移能力。
进一步


原文链接:字节多模态大模型PixelLM:高效像素级推理,无需依赖SAM

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...