AIGC动态欢迎阅读
原标题:年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩
关键字:报告,词表,视觉,模型,准确率
文章来源:量子位
内容字数:2814字
内容摘要:
Vary-toy团队 投稿量子位 | 公众号 QbitAI一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!
模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。
想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。
现在只需一句话命令:
无论中英文,图片中的大段文字都能分分钟提取出来:
对一张图做对象检测,还是能给出具体坐标的那种:
这项研究由来自旷视、国科大、华中大的研究人员共同提出。
据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。
现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。
网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:
“缩小版”Vary其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up
原文链接:年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...