标签:视觉
00后CEO杨丰瑜:耶鲁博士回国创业,五个月造出首款「可量产」人形机器人|AI Pioneer
人类正在迎来人工智能领域的爆炸式更新,技术向未知拓展的每一步,几乎都引起惊人的关注度。 在人工智能边界扩张的过程中,重要赛道的技术路线创新与分歧并存...
Nature | 揭示大脑如何通过视觉和运动信号追踪目标
编辑 | Coral 排版| Asher 在神经科学领域中,“对齐”是指大脑中的神经元如何协调和匹配不同类型的信息,使我们的感觉和动作能够顺利结合。简单来说,就是大脑...
Diffusion 反馈强势助力 CLIP 秒变火眼金睛:北京智源研究院、中科院自动化所联合推出 DIVA
本文分享论文Diffusion Feedback Helps CLIP See Better,专注于通过自监督学习范式解决CLIP无法区分细粒度视觉细节的问题。 作者:王文轩(中科院自动化所-...
南京大学发布百万规模文本生成视频数据集OpenVid-1M
夕小瑶科技说 原创作者 | Zicy“巧妇难为无米之炊”,文生视频作为一个在AI中较为年轻的研究方向,由许多至关重要的问题还尚未解决,其中之一就是缺乏大规模高...
4 个月创立一家 AI 独角兽公司,这位华裔创始人到底是谁?
点击上方蓝字关注我们斯坦福大学人工智能领军人物李飞飞在短短四个月内悄然打造了一家估值十亿美元的初创企业——World Labs,加入到科技界将人工智能技术商业...
VLM集体「失明」?视力测试惨败,GPT-4o、Claude 3.5全都不及格
新智元报道编辑:编辑部 【新智元导读】视觉大语言模型在最基础的视觉任务上集体「翻车」,即便是简单的图形识别都能难倒一片,或许这些最先进的VLM还没有发...
抛弃视觉编码器,这个「原生版」多模态大模型也能媲美主流方法
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
还不如人类五岁小孩,难度为零的视觉测试,GPT-4o、Claude 3.5 Sonnet却挑战失败了
大数据文摘授权转载自学术头条 撰文:马雪薇 GPT-4o、Claude 3.5 Sonnet 等具有视觉能力的大语言模型(LLM),是否能像人类一样感知图像?最新研究表明,在一...
基于LoRA微调多模态大模型一文解析
7月16日19点,「智猩猩AI新青年讲座」第244讲将开讲。上海交通大学和宁波东方理工大学联合培养博士生徐良将主要讲解通用的3D人体动作生成框架ActFormer和人体...
多模态模型(VLM)部署方法抛砖引玉
7月11日19点,「智猩猩自动驾驶新青年讲座」第36讲将开讲,主讲理想汽车最新成果:基于MLLM的闭环规划智能体PlanAgent,由理想汽车实习研究员、中国科学院自...
上交发布MG-LLaVA,基于多粒度指令调整,横扫视觉大模型榜单
夕小瑶科技说 原创作者 |Richard近年来多模态大语言模型(MLLMs)在视觉理解任务中取得了长足进步。然而,大多数模型仍局限于处理低分辨率图像,这限制了它们在...
DeepMind新方法:训练时间减少13倍,算力降低90%
一水 发自 凹非寺量子位 | 公众号 QbitAI大幅节省算力资源,又又又有新解了!! DeepMind团队提出了一种新的数据筛选方法JEST—— 将AI训练时间减少13倍,并将...
无人车团队跨维进军好莱坞!推出电影级视觉AI特效,“新时代皮克斯”
一水 发自 凹非寺量子位 | 公众号 QbitAI好莱坞级视觉AI横空出世!一个demo已令网友疯狂~ 来,我们直接看视频: 以上来自Odyssey,能够打造好莱坞级山脉、平...
自动驾驶团队进军好莱坞?打造电影级Sora,Odyssey开启「荷马史诗」新篇章
新智元报道编辑:耳朵 【新智元导读】今日,Odyssey视觉AI发布预告,这款获得GV 900万美元种子资金的创新技术,旨在用AI技术讲好电影故事。具备强大的视觉内...
NVIDIA Isaac 加速机器人3D视觉感知与机械臂轨迹规划【36页PPT&回放】
导读7月2日,由智猩猩联合NVIDIA策划推出的「NVIDIA 机器人技术公开课」顺利完结。NVIDIA 解决方案架构总监舒家明以《NVIDIA Isaac 加速机器人3D视觉感知与机...