标签:视觉
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
机器之心报道编辑:杜伟、小舟全新视觉提示方法 SoM(Set-of-Mark),让 OpenAI 多模态大模型 GPT-4V 在视觉内容理解方面有了质的提升。最近一段时间,我们见...
利用视觉大模型,虹软引发商拍市场一场豹变|甲子光年
虹软PhotoStudio® AI杀入“卖家秀” 。作者|陈杨编辑|王博“双11”大促即将开启,但今年的“卖家秀”会有一些不一样。10月23日,虹软科技创新产品——PhotoStudio® ...
今秋首个AIGC爆款应用来了?电商卖家秀一键生成,虹软变革商拍玩法
解密AIGC商拍图工厂!电商狂喜的工具,动动鼠标就能给虚拟人换装。作者|三北编辑|漠影AI不仅能修图,现在也能干摄影师和模特的活了!智东西10月23日报道,今...
让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%
转载自 沁园夏量子位 | 公众号 QbitAI大模型“识图”能力都这么强了,为啥还老找错东西?例如,把长得不太像的蝙蝠和拍子搞混,又或是认不出一些数据集中的稀有...
从「最强2D」升维「最强3D」!智源联合清北重磅发布10亿参数Uni3D视觉大模型
新智元报道编辑:好困【新智元导读】最近,智源、清华和北大联合发布了全新的10亿参数的3D视觉通用模型——Uni3D,在主流3D视觉能力上取得了全方位的性能突出!...
AI读脑成真,延迟仅0.25秒!Meta里程碑新研究:MEG实时解码大脑图像,LeCun转赞
新智元报道编辑:润 贝果【新智元导读】Meta AI研发新成果,利用脑电信号将人类大脑活动解码并可视化。这项研究开辟了一条前所未有的新途径,能够帮助科学界...
马斯克一觉醒来,纯视觉NOA已在中国开跑:上海闹市一镜到底0接管,高速城区全都不用自己开
贾浩楠 发自 凹非寺量子位 | 公众号 QbitAI极越汽车,搞了一个车圈科技圈大新闻:纯视觉NOA国内首发上路!一段陆家嘴点到点领航辅助驾驶的实拍视频刚刚被公开...
超火迷你GPT-4视觉能力暴涨,GitHub两万星,华人团队出品
白交 发自 凹非寺量子位 | 公众号 QbitAIGPT-4V来做目标检测?网友实测:还没有准备好。虽然检测到的类别没问题,但大多数边界框都错放了。没关系,有人会出...
精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023
新智元报道编辑:LRS【新智元导读】MQ-Det在已有基于文本查询的检测大模型基础上,加入了视觉示例查询功能,同时保留了高泛化性能和细粒度多模态查询,在ODin...
MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务
机器之心专栏机器之心编辑部MiniGPT-v2 将大语言模型作为视觉语言多任务学习的统一接口。几个月前,来自 KAUST(沙特阿卜杜拉国王科技大学)的几位研究者提出...
计算机视觉的十年:深度学习带来变革,经典元素仍主导特定挑战
大数据文摘出品编译:文摘菌近些年来,计算机视觉(CV)的发展势如破竹,渗透到了我们生活的方方面面。对于大众而言,这可能像是一项新鲜且令人兴奋的科技创...
大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友
白交 发自 凹非寺量子位 | 公众号 QbitAI语言模型击败扩散模型,在视频和图像生成上实现双SOTA!这是来自谷歌CMU最新研究成果。据介绍,这是语言模型第一次在...
美图视觉大模型 3.0:让设计师做甲方
AI工作流提效之战正式开启。作者丨郭思编辑丨陈彩娴ChatGPT之前,国内最近一次的AI热潮是以“AI四小龙”的发展为代表,但这些公司烧钱程度与落地产出的不匹配,...
在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键
机器之心报道编辑:张倩、陈萍为什么语言模型在视觉生成方面落后于扩散模型?来自谷歌、CMU 的研究表明,tokenizer 是关键。大型语言模型(LLM 或 LM)一开始...
挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩
梦晨 发自 凹非寺量子位 | 公众号 QbitAI看看这张图中有几个房子?如果你回答3个,就和GPT-4V的答案一样。但是最新开源的国产多模态模型CogVLM-17B,就能看出...