梗图理解“天花板”！港中文终身教授贾佳亚团队推出多模态模型：GPT-4+DALL-E 3，王炸组合刷爆榜单

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：梗图理解“天花板”！港中文终身教授贾佳亚团队推出多模态模型：GPT-4+DALL-E 3，王炸组合刷爆榜单
关键字：字节跳动,小米,报告,模型,图像
文章来源：AI前线
内容字数：5373字

内容摘要：

整理 | 傅宇琪
近日，港中文终身教授贾佳亚团队推出了一款名为 Mini-Gemini 的多模态模型，包括 2B 小杯到 34B 的超大杯，一经发布便登上了 PaperWithCode 热榜。凭借超强的图文理解力，Mini-Gemini 的最强模型版本在多个指标上，直接媲美 Gemini Pro，GPT-4V，网友称其效果堪称是开源社区的 GPT4+DALL-E 3 的王炸组合！
目前，研究团队将 Mini-Gemini 的代码、模型、数据全部开源。更有意思的是，超会玩梗的 Mini-Gemini 线上 Demo 已经发布，人人皆可上手试玩。“浅尝”之后，有人认为：Mini-Gemini 跟商业模型差不了多少！最“懂”图的大模型？图像理解及推理当下，绝大多数多模态模型仅支持低分辨率图像输入和文字输出。而在实际场景中，许多任务都需要对高清图像进行解析，并用图像的形式进行展现。Mini-Gemini 在这一点上有着不错的表现：
给它一张做面包的九宫格漫画教程，Mini-Gemini 能看懂并进行手把手教学。
拍一张苹果店 Mac 电脑信息图，Mini-Gemini 能够将两种 Mac 的参

原文链接：梗图理解“天花板”！港中文终身教授贾佳亚团队推出多模态模型：GPT-4+DALL-E 3，王炸组合刷爆榜单