字节携港大南大升级 LLaVA-NeXT：借 LLaMA-3 和 Qwen-1.5 脱胎换骨，轻松追平 GPT-4V

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：字节携港大南大升级 LLaVA-NeXT：借 LLaMA-3 和 Qwen-1.5 脱胎换骨，轻松追平 GPT-4V
关键字：腾讯,模型,字节跳动,侵权,解读
文章来源：算法邦
内容字数：7543字

内容摘要：

【2024腾讯云生成式AI产业应用峰会】定档5月17日，完整议程已公布，腾讯集团高级执行副总款、云与智慧产业事业群CEO汤道生等6位腾讯云高管、负责人聚焦大模型落地场景需求，将发布混元大模型最新进展，以及15+款重磅产品，欢迎报名预约直播。文章转载自公众号：AI科技大本营，本文只做学术/技术分享，如有侵权，联系删文。
2023 年，威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员共同开发的 LLaVA 首次亮相，彼时它被视为一个端到端训练的大型多模态模型，展现了在视觉与语言融合领域的潜力。今年 1 月 30 日，LLaVA 的后续版本 LLaVA-NeXT 推出，它利用了当时最强的 LLM——Yi-34B，进一步增强了多模态理解、OCR（光学字符识别）和世界知识等方面的能力，甚至在一些基准测试上与 Gemini-Pro 和 GPT-V 相媲美。在全世界默默等待 GPT-5 消息的这几个月里，开源社区出现了 LLaMA-3 和 Qwen-1.5 等语言能力更为强大的模型，阿里的 Qwen 更是在昨天发布了 2.5 版本，剑指 GPT-4。因此，LLaVA-NeXT 的研究团队开

原文链接：字节携港大南大升级 LLaVA-NeXT：借 LLaMA-3 和 Qwen-1.5 脱胎换骨，轻松追平 GPT-4V