标签:视觉

鼠鼠我呀,也有VR头显了!康奈尔给小鼠开颅,沉浸式研究大脑和行为

新智元报道编辑:Aeneas【新智元导读】最近,康奈尔大学的研究者们,给老鼠也戴上VR头显了。虽然拥有了VR体验,但鼠鼠们也付出了一些代价——比如,需要提前做...
阅读原文

ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶

克雷西 萧箫 发自 凹非寺量子位 | 公众号 QbitAI刚刚,计算机视觉巅峰大会ICCV 2023,在法国巴黎正式“开奖”!今年的最佳论文奖,简直是“神仙打架”。例如,获...
阅读原文

微软最新166页测评报告:视觉模态GPT-4V到底有多强?

本文来源:机器之心一周之前,ChatGPT 迎来重大更新,不管是 GPT-4 还是 GPT-3.5 模型,都可以基于图像进行分析和对话。与之对应的,多模态版 GPT-4V 模型相...
阅读原文

纽大具身智能新进展:靠视觉反馈学会开罐头,任务成功率提高135%,LeCun点赞

克雷西 发自 凹非寺量子位 | 公众号 QbitAI注意看,这个机器人用手中的钳子轻松剪断了一根金属丝。盖上的铁盒子,也三下五除二就打开了。除此之外,物体抓取...
阅读原文

试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读

机器之心报道编辑:陈萍、张倩这篇由微软撰写的报告,深入研究了GPT-4V的功能,任何想要探索GPT-4V潜力的人,都值得一读。一周之前,ChatGPT迎来,不管是 GPT...
阅读原文

多模态大模型综述:从专家到通用助手

文章转载自量子位,Founder Park 有所调整。多模态大模型最全综述来了!由微软 7 位华人研究员撰写,足足 119 页——它从目前已经完善的和还处于最前沿的两类多...
阅读原文

微软最新发布:从专家到通用AI代理,一文读懂「多模态基础模型」

视觉是人类和其他生物感知世界的主要渠道之一。人工智能(AI)的一个核心愿景是开发 AI 代理,模仿感知、生成视觉信号,与视觉世界进行互动。近日,微软研究...
阅读原文

马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减

新智元报道编辑:桃子 好困【新智元导读】马毅教授团队最新研究表明,微调多模态大语言模型(MLLM)将会导致灾难性遗忘。模型灾难性遗忘,成为当前一个关键热...
阅读原文

文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型

新智元报道编辑:LRS 好困【新智元导读】文字也是一种视觉信息,多模态大语言模型KOSMOS-2.5不光能读懂论文,还能输出markdown格式!当前一个显著的趋势是致...
阅读原文

多模态大模型会是未来人机交互的方向吗?

前言:目前,市面上的交互产品是以单模交互为主,尤其是语音交互。语音类产品的形态主要为语音助手。语音可以带来比按键更便捷的体验,尤其是,在行车过程中...
阅读原文

IEEE Fellow 张磊:普及大模型,手机端的创新很关键

大模型规模化部署的关键与难点是什么?作者|郭 思编辑|陈彩娴2022年底以来,以ChatGPT为代表的大模型集中爆发,实现了从无到有,从0到1的跨越。而经过近一...
阅读原文

多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页

丰色 发自 凹非寺量子位 | 公众号 QbitAI多模态大模型最全综述来了!由微软7位华人研究员撰写,足足119页——它从目前已经完善的和还处于最前沿的两类多模态大...
阅读原文

OpenAI放大招“对打”谷歌Gemini:全力筹备多模态大模型,并发布新指令语言模型

编译 | 凌敏、核子可乐 这场大模型时代的较量,谁能笑到最后? 自去年年底通过 ChatGPT 惊艳全球以来,OpenAI 一直保持着惊人的产品发布速度,通过迅如闪电的...
阅读原文

七次 CV 夺冠背后:颜水成与他的学生们

一波深度学习浪潮、七次世界冠军、两次转场与追随......作者 | 李梅 郭思编辑| 岑峰他们不仅乘上了 AI 的浪潮,更创造了浪潮本身。1冠军团队的诞生2007 年,...
阅读原文

涉水视觉:从关键技术到智能装备

机器之心专栏机器之心编辑部为什么大海是蓝色的?这个古老而又神秘的问题一直以来都让人好奇不已。在《涉水视觉》(Water-related Vision)一文中,作者从光...
阅读原文
114151617