标签:视觉
清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
作者 | 凌敏 近日,清华 KEG 实验室与智谱 AI 联合推出了视觉 GUI Agent——CogAgent,CogAgent 是一个通用的视觉理解大模型,具备视觉问答、视觉定位(Ground...
ViT-22B被取代了!商汤开源60亿视觉参数大模型InternVL刷爆多模态榜单!
论文链接: https://arxiv.org/abs/2312.14238开源代码: https://github.com/OpenGVLab/InternVL01引言大型语言模型(LLMs)在开放世界语言任务中展现出令人...
ImageNet的故事:李飞飞自传《我所见的世界》中文节选
新智元报道来源:Web3天空之城 编辑:好困 【新智元导读】《The Worlds I See》是李飞飞的第一人称叙述,它从内部记录了这个世纪的关键时刻,清晰并激动人心...
港中文 128 页全球首份 Gemini vs GPT-4V 多模态 PK 报告
2023 年 12 月 6 日,谷歌发布了最新一代的通用人工智能大模型 Gemini,并报告在多项测试中取得了最先进的结果,甚至在 MMLU 测试中首次取得了超过人类专家的...
OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!
国科大&旷视团队 投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式? 以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗...
阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA
机器之心专栏 机器之心编辑部OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最...
腾讯发布实体任务规划基准,GPT-4V也频频出错!迈向大模型与物理世界交互!
夕小瑶科技说 原创作者 | 智商掉了一地、Python多模态大型语言模型(MLLM)目前主要通过数字化的方式与信息世界进行交互,涉及自然语言处理、计算机视觉和多...
谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文128页全面测评报告
happy投稿量子位 | 公众号 QbitAI谷歌扳回一局! 在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示: 在37个视...
清华提出ViLa,揭秘 GPT-4V 在机器人视觉规划中的潜力
夕小瑶科技说 原创作者 | 智商掉了一地、兔子酱人类在面对简洁的语言指令时,可以根据上下文进行一连串的操作。对于“拿一罐可乐”的指令,若可乐近在眼前,下...
追忆商汤科技汤晓鸥:告别一个有趣的灵魂|甲子光年
汤晓鸥教授,一路走好。作者|「甲子光年」内容团队“我不是在最好的时光遇见了你们,而是遇见了你们,我才有了这段最好的时光。”在今年7月举办的2023世界...
悼念!商汤创始人汤晓鸥逝世,享年55岁
金磊 发自 凹非寺量子位 | 公众号 QbitAI据多方消息证实,商汤科技创始人、香港中文大学教授汤晓鸥,在睡梦中不幸离世,享年55岁。有商汤人士称:你真的不知...
哀悼 !中国计算机视觉领军者、商汤创始人汤晓鸥去世
作者丨王悦编辑丨陈彩娴12 月 16 日中午,AI科技评论获悉:上海人工智能实验室主任、商汤科技创始人、香港中文大学信息工程学系教授汤晓鸥去世。经多位独立信...
LLM生成3D场景,无限延伸!斯坦福华人提出3D动画生成框架,一句话一幅图创造无限3D世界
新智元报道编辑:alan 润【新智元导读】近日,斯坦福的华人研究人员提出全新视频生成框架——WonderJourney,一句话或者一张图,即可自动生成一系列3D场景的连...
当GPT-4V充当机器人大脑,可能你都没AI会规划
机器之心专栏机器之心编辑部来自清华大学交叉信息研究院的研究者提出了「ViLa」(全称Robotic Vision-Language Planning)算法,其能在非常复杂的环境中控制...