年轻人的第一个多模态大模型：1080Ti轻松运行，已开源在线可玩

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：年轻人的第一个多模态大模型：1080Ti轻松运行，已开源在线可玩
关键字：报告,词表,视觉,模型,准确率
文章来源：量子位
内容字数：2814字

内容摘要：

Vary-toy团队投稿量子位 | 公众号 QbitAI一款名为Vary-toy的“年轻人的第一个多模态大模型”来了！
模型大小不到2B，消费级显卡可训练，GTX1080ti 8G的老显卡轻松运行。
想将一份文档图片转换成Markdown格式？以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。
现在只需一句话命令：
无论中英文，图片中的大段文字都能分分钟提取出来：
对一张图做对象检测，还是能给出具体坐标的那种：
这项研究由来自旷视、国科大、华中大的研究人员共同提出。
据介绍，Vary-toy虽小，但却几乎涵盖了目前LVLM（大型视觉语言模型）主流研究中的所有能力：文档OCR识别（Document OCR）、视觉定位（Visual Grounding）、图像描述（Image Caption）、视觉问答（VQA）。
现在，Vary-toy代码和模型均已开源，并有在线demo可试玩。
网友一边表示感兴趣，一边关注点在于旧·GTX1080，心情belike：
“缩小版”Vary其实，早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up

原文链接：年轻人的第一个多模态大模型：1080Ti轻松运行，已开源在线可玩