标签:视觉

用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

白交 发自 凹非寺量子位 | 公众号 QbitAI用视觉来做Prompt,是种什么体验?只需在图里随便框一下,结果秒秒钟圈出同一类别!即便是那种GPT-4V都难搞定的数米...
阅读原文

懂语言者得天下,IDEA 研究院沈向洋宣布重磅研产结晶

11月22日,AI与数字经济领域一年一度的科创盛会,2023 IDEA大会在深圳举行。IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲,发布ID...
阅读原文

新王加冕,GPT-4V 屠榜视觉问答

夕小瑶科技说 原创作者 | 智商掉了一地、Python当前,多模态大型模型(Multi-modal Large Language Model, MLLM)在视觉问答(VQA)领域展现了卓越的能力。然...
阅读原文

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

新智元报道编辑:好困【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Vid...
阅读原文

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI能理解搞笑视频笑点在哪里了。AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真...
阅读原文

争分夺秒:以人工智能的速度进行战争!

往期回顾随着人工智能发展步伐的加快,美国国防规划者非常重视人工智能技术在指挥和控制方面所预示的超匹配能力。重要的规划、规划和预算编制已经开始,这将...
阅读原文

OpenAI 疑似 Bug,用户可以免费跳转 GPT4

功能介绍AI、自然语言处理、计算机视觉、数据挖掘、数据分析、C、C++。当然,也聊关于程序员的方方面面。…
阅读原文

微软用GPT-4V解读视频,看懂电影还能讲给盲人听,1小时不是问题

机器之心报道编辑:Panda、陈萍差不多已经掌握语言能力的大模型正在进军视觉领域,但具有里程碑意义的 GPT-4V 也仍有诸多不足之处,参阅《》。近日,微软 Azu...
阅读原文

视觉分词器统一图文信息,快手提出基座模型 LaVIT 刷榜多模态任务

夕小瑶科技说 原创作者 | 智商掉了一地、Python你是否想过,有朝一日能够仅输入寥寥数语或图片,就可以一键检索最为匹配的短视频内容。不是凭借视频标签、也...
阅读原文

让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了

机器之心专栏机器之心编辑部电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》(GTA)为例,在 GTA 的世界里,玩家可以以第一...
阅读原文

大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干

新智元报道编辑:LRS 好困【新智元导读】让视觉语言模型(VLM)在模拟的电子世界里游玩是什么体验?让Octopus根据智能体的观测写控制代码,即可实现让VLM做家...
阅读原文

马斯克最新芯片:脑机专用,让失明人群“看见”

白交 发自 凹非寺量子位 | 公众号 QbitAI亲口承认!马斯克Neuralink正在开发一款芯片。“几年内”发布,用脑机接口解决失明那种。在一位网友的回复底下,马斯克...
阅读原文

GPT-4V 也会追剧、刷抖音、打游戏、玩手机?微软 MM-VID 充分释放 GPT-4V 潜力!

夕小瑶科技说 原创作者 | 付奶茶、ZenMooreGPT-4V 在多模态看图能力上很强大,我们在往期的推文中也领略了它在看手相(?)、看胸片、看草图做网页等等上面的卓...
阅读原文

OpenAI 将在首届开发者大会上让模型更便宜、更强大

点击上方蓝字关注我们图|匡萃彪文|匡萃彪“ OpenAI在首次开发者大会上宣布了产品升级,使其AI模型更便宜、功能更强大。这些升级旨在鼓励公司使用OpenAI的技...
阅读原文

何恺明做科研也emo!最新QA完整版在此

西风 发自 凹非寺量子位 | 公众号 QbitAIAI大牛何恺明的一句话火了,他说:科研中95%的时间是令人沮丧的。什么???就连何恺明都觉得科研很煎熬?没错,此话...
阅读原文
1141516171820