标签:视觉

首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下

机器之心专栏机器之心编辑部想要迈向通用人工智能,必须要构建一个能够理解人类生活的真实世界,并掌握丰富技能的具身通用智能体。今年以来,以 GPT-4 (V)[1]...
阅读原文

传字节月底推生成式AI开发平台;马斯克Grok一周左右向X订阅用户开放;王慧文入股大模型AI创企丨AIGC大事日报

12/04全球AIGC产业要闻1、传字节月底推出AI聊天机器人开发平台2、王慧文入股袁进辉旗下新AI创企3、马斯克Grok一周左右向X订阅用户开放4、传谷歌Gemini推迟至...
阅读原文

R-CNN作者Ross Girshick离职,何恺明、谢赛宁回归学界,Meta CV走出了多少大神

机器之心报道编辑:杜伟、陈萍Yann LeCun 表示:「人才离开 FAIR 是我们的损失,但自己仍为他们感到高兴」。FAIR 又一位大佬级研究科学家「出走了」,这次是 ...
阅读原文

通用视觉推理显现,UC伯克利炼出单一纯CV大模型,三位资深学者参与

机器之心报道机器之心编辑部仅靠视觉(像素)模型能走多远?UC 伯克利、约翰霍普金斯大学的新论文探讨了这一问题,并展示了大型视觉模型(LVM)在多种 CV 任...
阅读原文

计算机视觉GPT时刻!UC伯克利三巨头祭出首个纯CV大模型,推理惊现AGI火花

新智元报道编辑:编辑部【新智元导读】UC伯克利的CV三巨头推出首个无自然语言的纯视觉大模型,第一次证明纯CV模型也是可扩展的。更令人震惊的是,LVM竟然也能...
阅读原文

横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%

新智元报道编辑:LRS【新智元导读】哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了so...
阅读原文

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

一个北大投稿 发送至 凹非寺量子位 | 公众号 QbitAI训完130亿参数通用视觉语言大模型,只需3天!北大和中山大学团队又出招了——在最新研究中,研究团队提出了...
阅读原文

训练130亿大模型仅3天,北大提出Chat-UniVi统一图片和视频理解

机器之心专栏机器之心编辑部北京大学和中山大学等机构研究者提出了统一的视觉语言大模型 ——Chat-UniVi。通过构建图片和视频统一表征,该框架使得一个 LLM 能...
阅读原文

用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

白交 发自 凹非寺量子位 | 公众号 QbitAI用视觉来做Prompt,是种什么体验?只需在图里随便框一下,结果秒秒钟圈出同一类别!即便是那种GPT-4V都难搞定的数米...
阅读原文

懂语言者得天下,IDEA 研究院沈向洋宣布重磅研产结晶

11月22日,AI与数字经济领域一年一度的科创盛会,2023 IDEA大会在深圳举行。IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在会上发表主旨演讲,发布ID...
阅读原文

新王加冕,GPT-4V 屠榜视觉问答

夕小瑶科技说 原创作者 | 智商掉了一地、Python当前,多模态大型模型(Multi-modal Large Language Model, MLLM)在视觉问答(VQA)领域展现了卓越的能力。然...
阅读原文

提前对齐,视频问答新SOTA!北大全新Video-LLaVA视觉语言大模型,秒懂视频笑点

新智元报道编辑:好困【新智元导读】最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Vid...
阅读原文

北大视频大模型新SOTA,搞笑抖音视频AI秒懂笑点|开源

梦晨 发自 凹非寺量子位 | 公众号 QbitAIAI能理解搞笑视频笑点在哪里了。AI回答:这个视频之所以搞笑,在于一个小宝宝正坐在床上努力读书,但他显然还不会真...
阅读原文

争分夺秒:以人工智能的速度进行战争!

往期回顾随着人工智能发展步伐的加快,美国国防规划者非常重视人工智能技术在指挥和控制方面所预示的超匹配能力。重要的规划、规划和预算编制已经开始,这将...
阅读原文

OpenAI 疑似 Bug,用户可以免费跳转 GPT4

功能介绍AI、自然语言处理、计算机视觉、数据挖掘、数据分析、C、C++。当然,也聊关于程序员的方方面面。…
阅读原文
1131415161719