标签:视觉

GPT-4V 也会追剧、刷抖音、打游戏、玩手机?微软 MM-VID 充分释放 GPT-4V 潜力!

夕小瑶科技说 原创作者 | 付奶茶、ZenMooreGPT-4V 在多模态看图能力上很强大,我们在往期的推文中也领略了它在看手相(?)、看胸片、看草图做网页等等上面的卓...
阅读原文

OpenAI 将在首届开发者大会上让模型更便宜、更强大

点击上方蓝字关注我们图|匡萃彪文|匡萃彪“ OpenAI在首次开发者大会上宣布了产品升级,使其AI模型更便宜、功能更强大。这些升级旨在鼓励公司使用OpenAI的技...
阅读原文

何恺明做科研也emo!最新QA完整版在此

西风 发自 凹非寺量子位 | 公众号 QbitAIAI大牛何恺明的一句话火了,他说:科研中95%的时间是令人沮丧的。什么???就连何恺明都觉得科研很煎熬?没错,此话...
阅读原文

GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会

新智元报道编辑:LRS 好困【新智元导读】马里兰大学发布首个专为VLM设计的基准测试HallusionBench,全面测试GPT-4V视觉错误和语言幻觉。GPT-4被吹的神乎其神...
阅读原文

多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟

新智元报道编辑:好困【新智元导读】最近,来自中科大等机构的研究人员提出了首个多模态修正架构「啄木鸟」,可有效解决MLLM输出幻觉的问题。视觉幻觉是常见...
阅读原文

1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强

新智元报道编辑:贝果 润【新智元导读】谷歌研究院和DeepMind研究人员推出最新PaLI-3视觉语言模型(VLM),模型以更小、更快、更强的特点获得大部分研究人员...
阅读原文

清华光电计算新突破:芯片性能提升万倍,研究登顶Nature

机器之心专栏机器之心编辑部清华大学团队在超高性能计算芯片领域取得新突破,相关研究发表在Nature上。随着各类大模型和深度神经网络的涌现,如何制造出满足...
阅读原文

别再吹 GPT-4V 了!连北京烤鸭都不认识,你敢信??

夕小瑶科技说 原创作者 | 智商掉了一地、ZenMooreGPT-4 被吹的神乎其神,作为具备视觉能力的 GPT-4 版本——GPT-4V,也被大众寄于了厚望。但如果告诉你,GPT-4V...
阅读原文

在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细

机器之心报道编辑:杜伟、小舟全新视觉提示方法 SoM(Set-of-Mark),让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。最近一段时间,我们见...
阅读原文

利用视觉大模型,虹软引发商拍市场一场豹变|甲子光年

虹软PhotoStudio® AI杀入“卖家秀” 。作者|陈杨编辑|王博“双11”大促即将开启,但今年的“卖家秀”会有一些不一样。10月23日,虹软科技创新产品——PhotoStudio® ...
阅读原文

今秋首个AIGC爆款应用来了?电商卖家秀一键生成,虹软变革商拍玩法

解密AIGC商拍图工厂!电商狂喜的工具,动动鼠标就能给虚拟人换装。作者|三北编辑|漠影AI不仅能修图,现在也能干摄影师和模特的活了!智东西10月23日报道,今...
阅读原文

让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%

转载自 沁园夏量子位 | 公众号 QbitAI大模型“识图”能力都这么强了,为啥还老找错东西?例如,把长得不太像的蝙蝠和拍子搞混,又或是认不出一些数据集中的稀有...
阅读原文

从「最强2D」升维「最强3D」!智源联合清北重磅发布10亿参数Uni3D视觉大模型

新智元报道编辑:好困【新智元导读】最近,智源、清华和北大联合发布了全新的10亿参数的3D视觉通用模型——Uni3D,在主流3D视觉能力上取得了全方位的性能突出!...
阅读原文

AI读脑成真,延迟仅0.25秒!Meta里程碑新研究:MEG实时解码大脑图像,LeCun转赞

新智元报道编辑:润 贝果【新智元导读】Meta AI研发新成果,利用脑电信号将人类大脑活动解码并可视化。这项研究开辟了一条前所未有的新途径,能够帮助科学界...
阅读原文

马斯克一觉醒来,纯视觉NOA已在中国开跑:上海闹市一镜到底0接管,高速城区全都不用自己开

贾浩楠 发自 凹非寺量子位 | 公众号 QbitAI极越汽车,搞了一个车圈科技圈大新闻:纯视觉NOA国内首发上路!一段陆家嘴点到点领航辅助驾驶的实拍视频刚刚被公开...
阅读原文