标签:视觉

还不如人类五岁小孩,难度为零的视觉测试,GPT-4o、Claude 3.5 Sonnet却挑战失败了

大数据文摘授权转载自学术头条 撰文:马雪薇 GPT-4o、Claude 3.5 Sonnet 等具有视觉能力的大语言模型(LLM),是否能像人类一样感知图像?最新研究表明,在一...
阅读原文

基于LoRA微调多模态大模型一文解析

7月16日19点,「智猩猩AI新青年讲座」第244讲将开讲。上海交通大学和宁波东方理工大学联合培养博士生徐良将主要讲解通用的3D人体动作生成框架ActFormer和人体...
阅读原文

多模态模型(VLM)部署方法抛砖引玉

7月11日19点,「智猩猩自动驾驶新青年讲座」第36讲将开讲,主讲理想汽车最新成果:基于MLLM的闭环规划智能体PlanAgent,由理想汽车实习研究员、中国科学院自...
阅读原文

上交发布MG-LLaVA,基于多粒度指令调整,横扫视觉大模型榜单

夕小瑶科技说 原创作者 |Richard近年来多模态大语言模型(MLLMs)在视觉理解任务中取得了长足进步。然而,大多数模型仍局限于处理低分辨率图像,这限制了它们在...
阅读原文

DeepMind新方法:训练时间减少13倍,算力降低90%

一水 发自 凹非寺量子位 | 公众号 QbitAI大幅节省算力资源,又又又有新解了!! DeepMind团队提出了一种新的数据筛选方法JEST—— 将AI训练时间减少13倍,并将...
阅读原文

无人车团队跨维进军好莱坞!推出电影级视觉AI特效,“新时代皮克斯”

一水 发自 凹非寺量子位 | 公众号 QbitAI好莱坞级视觉AI横空出世!一个demo已令网友疯狂~ 来,我们直接看视频: 以上来自Odyssey,能够打造好莱坞级山脉、平...
阅读原文

自动驾驶团队进军好莱坞?打造电影级Sora,Odyssey开启「荷马史诗」新篇章

新智元报道编辑:耳朵 【新智元导读】今日,Odyssey视觉AI发布预告,这款获得GV 900万美元种子资金的创新技术,旨在用AI技术讲好电影故事。具备强大的视觉内...
阅读原文

NVIDIA Isaac 加速机器人3D视觉感知与机械臂轨迹规划【36页PPT&回放】

导读7月2日,由智猩猩联合NVIDIA策划推出的「NVIDIA 机器人技术公开课」顺利完结。NVIDIA 解决方案架构总监舒家明以《NVIDIA Isaac 加速机器人3D视觉感知与机...
阅读原文

惠普“Z联盟”持续扩大,携手新成员共建AI生态共同体

AI时代,越来越多的企业开始探索如何在AI商用赛道上抢占商机,以求提升业务效率和竞争力。 惠普作为全球科技行业领军者,始终紧跟时代潮流,从用户的具体需求...
阅读原文

只需将感知推理能力拆分,2B大模型就能战胜20B!国产新框架高效处理视觉任务

Prism团队 投稿至 凹非寺量子位 | 公众号 QbitAI只要把推理和感知能力拆分,2B大模型就能战胜20B?! 上海AI Lab联合南京大学、香港中文大学等机构,共同推出...
阅读原文

直播预告:NVIDIA Isaac 加速机器人3D视觉感知与机械臂轨迹规划 | NVIDIA 机器人技术公开课

AI 机器人时代已经到来。基于 NVIDIA Isaac 机器人平台,NVIDIA 正在不断利用最新的生成式 AI 和先进的仿真技术,加速 AI 机器人技术的发展 今年以来,NVIDIA...
阅读原文

NVIDIA Isaac 加速机器人3D视觉感知与机械臂轨迹规划 | 公开课预告

AI 机器人时代已经到来。基于 NVIDIA Isaac 机器人平台,NVIDIA 正在不断利用最新的生成式 AI 和先进的仿真技术,加速 AI 机器人技术的发展 今年以来,NVIDIA...
阅读原文

大型视觉语言模型VLMs一年多的进展与思考

7月2日晚七点,「NVIDIA 机器人技术公开课」正式开讲,NVIDIA解决方案架构总监舒家明将以《NVIDIA Isaac 加速机器人3D视觉感知与机械臂轨迹规划》为主题进行...
阅读原文

击败Gemini-1.5-Pro、GPT-4V,从容大模型多模态能力跻身全球前三

机器之心报道 机器之心编辑部近日,云从科技从容大模型在综合评测权威平台 OpenCompass 的多模态评测领域中取得重大进展。 最新评测结果显示,云从科技的从容...
阅读原文

计算机视觉华人史:权龙与他的学生们

他们见证了 3D 视觉的崛起故事,也是故事的本身。作者 | 赖文昕 编辑 | 陈彩娴 「简单,是终极的复杂。」1群星闪耀时1988 年的冬天,一辆火车从法国出发、开...
阅读原文
13456719