标签:视觉

GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会

新智元报道编辑:LRS 好困【新智元导读】马里兰大学发布首个专为VLM设计的基准测试HallusionBench,全面测试GPT-4V视觉错误和语言幻觉。GPT-4被吹的神乎其神...
阅读原文

多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟

新智元报道编辑:好困【新智元导读】最近,来自中科大等机构的研究人员提出了首个多模态修正架构「啄木鸟」,可有效解决MLLM输出幻觉的问题。视觉幻觉是常见...
阅读原文

1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强

新智元报道编辑:贝果 润【新智元导读】谷歌研究院和DeepMind研究人员推出最新PaLI-3视觉语言模型(VLM),模型以更小、更快、更强的特点获得大部分研究人员...
阅读原文

清华光电计算新突破:芯片性能提升万倍,研究登顶Nature

机器之心专栏机器之心编辑部清华大学团队在超高性能计算芯片领域取得新突破,相关研究发表在Nature上。随着各类大模型和深度神经网络的涌现,如何制造出满足...
阅读原文

别再吹 GPT-4V 了!连北京烤鸭都不认识,你敢信??

夕小瑶科技说 原创作者 | 智商掉了一地、ZenMooreGPT-4 被吹的神乎其神,作为具备视觉能力的 GPT-4 版本——GPT-4V,也被大众寄于了厚望。但如果告诉你,GPT-4V...
阅读原文

在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

机器之心报道编辑:杜伟、小舟全新视觉提示方法 SoM(Set-of-Mark),让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。最近一段时间,我们见...
阅读原文

利用视觉大模型,虹软引发商拍市场一场豹变|甲子光年

虹软PhotoStudio® AI杀入“卖家秀” 。作者|陈杨编辑|王博“双11”大促即将开启,但今年的“卖家秀”会有一些不一样。10月23日,虹软科技创新产品——PhotoStudio® ...
阅读原文

今秋首个AIGC爆款应用来了?电商卖家秀一键生成,虹软变革商拍玩法

解密AIGC商拍图工厂!电商狂喜的工具,动动鼠标就能给虚拟人换装。作者|三北编辑|漠影AI不仅能修图,现在也能干摄影师和模特的活了!智东西10月23日报道,今...
阅读原文

让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%

转载自 沁园夏量子位 | 公众号 QbitAI大模型“识图”能力都这么强了,为啥还老找错东西?例如,把长得不太像的蝙蝠和拍子搞混,又或是认不出一些数据集中的稀有...
阅读原文

从「最强2D」升维「最强3D」!智源联合清北重磅发布10亿参数Uni3D视觉大模型

新智元报道编辑:好困【新智元导读】最近,智源、清华和北大联合发布了全新的10亿参数的3D视觉通用模型——Uni3D,在主流3D视觉能力上取得了全方位的性能突出!...
阅读原文

AI读脑成真,延迟仅0.25秒!Meta里程碑新研究:MEG实时解码大脑图像,LeCun转赞

新智元报道编辑:润 贝果【新智元导读】Meta AI研发新成果,利用脑电信号将人类大脑活动解码并可视化。这项研究开辟了一条前所未有的新途径,能够帮助科学界...
阅读原文

马斯克一觉醒来,纯视觉NOA已在中国开跑:上海闹市一镜到底0接管,高速城区全都不用自己开

贾浩楠 发自 凹非寺量子位 | 公众号 QbitAI极越汽车,搞了一个车圈科技圈大新闻:纯视觉NOA国内首发上路!一段陆家嘴点到点领航辅助驾驶的实拍视频刚刚被公开...
阅读原文

超火迷你GPT-4视觉能力暴涨,GitHub两万星,华人团队出品

白交 发自 凹非寺量子位 | 公众号 QbitAIGPT-4V来做目标检测?网友实测:还没有准备好。虽然检测到的类别没问题,但大多数边界框都错放了。没关系,有人会出...
阅读原文

精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023

新智元报道编辑:LRS【新智元导读】MQ-Det在已有基于文本查询的检测大模型基础上,加入了视觉示例查询功能,同时保留了高泛化性能和细粒度多模态查询,在ODin...
阅读原文

MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务

机器之心专栏机器之心编辑部MiniGPT-v2 将大语言模型作为视觉语言多任务学习的统一接口。几个月前,来自 KAUST(沙特阿卜杜拉国王科技大学)的几位研究者提出...
阅读原文