标签:视觉

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

新智元报道编辑:乔杨 【新智元导读】LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足...
阅读原文

让「GPT-4V」跑在手机上,这家中国大模型公司做到了​

对标 GPT-4V,面壁让实时视频理解成功“跑”在端侧。作者 | 朱可轩 编辑 | 陈彩娴 真实世界的视觉信息是流动的,而在处理流动性的视觉信息上,端侧视频理解具有...
阅读原文

00后CEO杨丰瑜:耶鲁博士回国创业,五个月造出首款「可量产」人形机器人|AI Pioneer

人类正在迎来人工智能领域的爆炸式更新,技术向未知拓展的每一步,几乎都引起惊人的关注度。 在人工智能边界扩张的过程中,重要赛道的技术路线创新与分歧并存...
阅读原文

Nature | 揭示大脑如何通过视觉和运动信号追踪目标

编辑 | Coral 排版| Asher 在神经科学领域中,“对齐”是指大脑中的神经元如何协调和匹配不同类型的信息,使我们的感觉和动作能够顺利结合。简单来说,就是大脑...
阅读原文

Diffusion 反馈强势助力 CLIP 秒变火眼金睛:北京智源研究院、中科院自动化所联合推出 DIVA

本文分享论文Diffusion Feedback Helps CLIP See Better,专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。 作者:王文轩(中科院自动化所-...
阅读原文

南京大学发布百万规模文本生成视频数据集OpenVid-1M

夕小瑶科技说 原创作者 | Zicy“巧妇难为无米之炊”,文生视频作为一个在AI中较为年轻的研究方向,由许多至关重要的问题还尚未解决,其中之一就是缺乏大规模高...
阅读原文

4 个月创立一家 AI 独角兽公司,这位华裔创始人到底是谁?

点击上方蓝字关注我们斯坦福大学人工智能领军人物李飞飞在短短四个月内悄然打造了一家估值十亿美元的初创企业——World Labs,加入到科技界将人工智能技术商业...
阅读原文

VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格

新智元报道编辑:编辑部 【新智元导读】视觉大语言模型在最基础的视觉任务上集体「翻车」,即便是简单的图形识别都能难倒一片,或许这些最先进的VLM还没有发...
阅读原文

抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

还不如人类五岁小孩,难度为零的视觉测试,GPT-4o、Claude 3.5 Sonnet却挑战失败了

大数据文摘授权转载自学术头条 撰文:马雪薇 GPT-4o、Claude 3.5 Sonnet 等具有视觉能力的大语言模型(LLM),是否能像人类一样感知图像?最新研究表明,在一...
阅读原文

基于LoRA微调多模态大模型一文解析

7月16日19点,「智猩猩AI新青年讲座」第244讲将开讲。上海交通大学和宁波东方理工大学联合培养博士生徐良将主要讲解通用的3D人体动作生成框架ActFormer和人体...
阅读原文

多模态模型(VLM)部署方法抛砖引玉

7月11日19点,「智猩猩自动驾驶新青年讲座」第36讲将开讲,主讲理想汽车最新成果:基于MLLM的闭环规划智能体PlanAgent,由理想汽车实习研究员、中国科学院自...
阅读原文

上交发布MG-LLaVA,基于多粒度指令调整,横扫视觉大模型榜单

夕小瑶科技说 原创作者 |Richard近年来多模态大语言模型(MLLMs)在视觉理解任务中取得了长足进步。然而,大多数模型仍局限于处理低分辨率图像,这限制了它们在...
阅读原文

DeepMind新方法:训练时间减少13倍,算力降低90%

一水 发自 凹非寺量子位 | 公众号 QbitAI大幅节省算力资源,又又又有新解了!! DeepMind团队提出了一种新的数据筛选方法JEST—— 将AI训练时间减少13倍,并将...
阅读原文

无人车团队跨维进军好莱坞!推出电影级视觉AI特效,“新时代皮克斯”

一水 发自 凹非寺量子位 | 公众号 QbitAI好莱坞级视觉AI横空出世!一个demo已令网友疯狂~ 来,我们直接看视频: 以上来自Odyssey,能够打造好莱坞级山脉、平...
阅读原文
123417