标签:视觉
争分夺秒:以人工智能的速度进行战争!
往期回顾随着人工智能发展步伐的加快,美国国防规划者非常重视人工智能技术在指挥和控制方面所预示的超匹配能力。重要的规划、规划和预算编制已经开始,这将...
微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题
机器之心报道编辑:Panda、陈萍差不多已经掌握语言能力的大模型正在进军视觉领域,但具有里程碑意义的 GPT-4V 也仍有诸多不足之处,参阅《》。近日,微软 Azu...
视觉分词器统一图文信息,快手提出基座模型 LaVIT 刷榜多模态任务
夕小瑶科技说 原创作者 | 智商掉了一地、Python你是否想过,有朝一日能够仅输入寥寥数语或图片,就可以一键检索最为匹配的短视频内容。不是凭借视频标签、也...
让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了
机器之心专栏机器之心编辑部电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》(GTA)为例,在 GTA 的世界里,玩家可以以第一...
大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干
新智元报道编辑:LRS 好困【新智元导读】让视觉语言模型(VLM)在模拟的电子世界里游玩是什么体验?让Octopus根据智能体的观测写控制代码,即可实现让VLM做家...
马斯克最新芯片:脑机专用,让失明人群“看见”
白交 发自 凹非寺量子位 | 公众号 QbitAI亲口承认!马斯克Neuralink正在开发一款芯片。“几年内”发布,用脑机接口解决失明那种。在一位网友的回复底下,马斯克...
GPT-4V 也会追剧、刷抖音、打游戏、玩手机?微软 MM-VID 充分释放 GPT-4V 潜力!
夕小瑶科技说 原创作者 | 付奶茶、ZenMooreGPT-4V 在多模态看图能力上很强大,我们在往期的推文中也领略了它在看手相(?)、看胸片、看草图做网页等等上面的卓...
OpenAI 将在首届开发者大会上让模型更便宜、更强大
点击上方蓝字关注我们图|匡萃彪文|匡萃彪“ OpenAI在首次开发者大会上宣布了产品升级,使其AI模型更便宜、功能更强大。这些升级旨在鼓励公司使用OpenAI的技...
何恺明做科研也emo!最新QA完整版在此
西风 发自 凹非寺量子位 | 公众号 QbitAIAI大牛何恺明的一句话火了,他说:科研中95%的时间是令人沮丧的。什么???就连何恺明都觉得科研很煎熬?没错,此话...
GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会
新智元报道编辑:LRS 好困【新智元导读】马里兰大学发布首个专为VLM设计的基准测试HallusionBench,全面测试GPT-4V视觉错误和语言幻觉。GPT-4被吹的神乎其神...
多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟
新智元报道编辑:好困【新智元导读】最近,来自中科大等机构的研究人员提出了首个多模态修正架构「啄木鸟」,可有效解决MLLM输出幻觉的问题。视觉幻觉是常见...
1/10体量达到SOTA!谷歌发布5B参数视觉语言模型PaLI-3,更小更快却更强
新智元报道编辑:贝果 润【新智元导读】谷歌研究院和DeepMind研究人员推出最新PaLI-3视觉语言模型(VLM),模型以更小、更快、更强的特点获得大部分研究人员...
清华光电计算新突破:芯片性能提升万倍,研究登顶Nature
机器之心专栏机器之心编辑部清华大学团队在超高性能计算芯片领域取得新突破,相关研究发表在Nature上。随着各类大模型和深度神经网络的涌现,如何制造出满足...
别再吹 GPT-4V 了!连北京烤鸭都不认识,你敢信??
夕小瑶科技说 原创作者 | 智商掉了一地、ZenMooreGPT-4 被吹的神乎其神,作为具备视觉能力的 GPT-4 版本——GPT-4V,也被大众寄于了厚望。但如果告诉你,GPT-4V...