赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

AIGC动态欢迎阅读

原标题:赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了
关键字:数据,视觉,指令,模型,样本
文章来源:机器之心
内容字数:3623字

内容摘要:


机器之心报道
机器之心编辑部去年 4 月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学研究者共同发布了 LLaVA(Large Language and Vision Assistant)。尽管 LLaVA 是用一个小的多模态指令数据集训练的,却在一些样本上展示了与 GPT-4 非常相似的推理结果。10 月,LLaVA-1.5 重磅发布,通过对原始 LLaVA 的简单修改,在 11 个基准上刷新了 SOTA。
现在,研究团队宣布推出 LLaVA-1.6,主要改进了模型在推理、OCR 和世界知识方面的性能。LLaVA-1.6 甚至在多项基准测试中超越了 Gemini Pro。demo 地址:https://llava.hliu.cc/
项目地址:https://github.com/haotian-liu/LLaVA
与 LLaVA-1.5 相比,LLaVA-1.6 有如下几个改进:
将输入图像分辨率提升 4 倍,支持三种宽高比,最高可达 672×672、336×1344、1344×336 分辨率。这使得 LLaVA-1.6 能够掌握更多的视觉细节。
通过改进的视觉指令调整数据混合,


原文链接:赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...