标签:视觉

北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

CVPR 2024现场观察:随处可见的华人面孔和最热的三大研究领域|甲子光年

在凉爽的西雅图,屋子太小,CVPR太火。作者|苏霍伊‍ 编辑|王博 发自美国西雅图 美国当地时间6月19日,2024年IEEE国际计算机视觉与模式识别会议(CVPR)的最...
阅读原文

超1.2万人参加CVPR 2024,谷歌研究院获得最佳论文

大数据文摘授权转载自AI科技评论 作者:赖文昕、马蕊蕾 编辑:陈彩娴 北京时间今天凌晨,美国西雅图正在召开的计算机视觉盛会 CVPR 2024 正式公布了最佳论文...
阅读原文

超 1.2 万人参加 CVPR 2024,谷歌研究院获得最佳论文

视觉基础模型与文生视频成为 CVPR 2024 两大热点。作者丨赖文昕 马蕊蕾 编辑丨陈彩娴 北京时间今天凌晨,美国西雅图正在召开的计算机视觉盛会 CVPR 2024 正式...
阅读原文

商汤披露:50篇论文入选CVPR 2024

一水 发自 凹非寺量子位 | 公众号 QbitAICVPR正在进行中,中国科研力量再次成为场内外焦点之一。 日前,AI顶会常客选手商汤科技,已经披露了今年成绩单:50篇...
阅读原文

霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

西风 发自 凹非寺量子位 | 公众号 QbitAI一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。 一种名为Hallo的研究火了,GitHub已揽星1k+。 话...
阅读原文

大模型理解复杂表格,字节&中科大出手了

允中 发自 凹非寺量子位 | 公众号 QbitAI只要一个大模型,就能解决打工人遇到的表格难题! 字节联手中科大推出了一款统一表格理解大模型,可以以用户友好的方...
阅读原文

全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%,所有模型最易犯感知错误

王家豪 投稿自 凹非寺量子位 | 公众号 QbitAIGPT-4o再次掀起多模态大模型的浪潮。 如果他们能以近似人类的熟练程度,在不同领域执行广泛的任务,这对许多领域...
阅读原文

复旦字节强强联手,量身定制多模态思维链,让7B模型全面超越GPT-4V

夕小瑶科技说 原创作者 | 任同学多模态大模型在不同的任务中表现出了令人印象深刻的能力,但是在处理复杂任务时,模型的性能仍然受到了单步推理范式的限制。...
阅读原文

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

机器之心报道 编辑:Panda近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用...
阅读原文

为虚拟神经科学开辟新领域,斯坦福AI新算法模拟大脑如何理解视觉世界

来源:ScienceAI 编辑:X 当我们看着时钟的秒针移动时,我们的大脑会激活一系列的神经元,这些神经元对特定的视觉角度敏感。这些细胞形成美丽的「风车」图,...
阅读原文

原作者带队,LSTM卷土重来之Vision-LSTM出世

机器之心报道 编辑:鸭梨、蛋酱与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比,ViL 的性能更胜一筹。 AI 领域的研究者应该还记得,在 Transforme...
阅读原文

329篇图像、视频生成论文,今年CVPR最火的研究主题是这些

机器之心报道 编辑:Sia图像与视频合成、3D 视觉、人体行为识别、视觉与语言推理等研究方向论文最多,属于最热门的方向,体现当前学界对视觉生成、三维感知、...
阅读原文

多模态视觉-语言大模型的架构演进

直播预告 | 6月6日晚7点,「智猩猩AI新青年讲座」第238讲正式开讲,香港大学CVMI Lab在读博士 杨霁晗将直播讲解《V-IRL:根植于真实世界的AI Agents》,欢迎...
阅读原文

从 ImageNet 到 AlexNet,李飞飞万字自述人工智能诞生的关键进程

要怎么介绍李飞飞? AI 教母、《时代》百大 AI 影响力人物、福布斯中国·全球华人精英 Top100, 美国国家工程院、国家医学院、艺术与科学院三院院士, 现代人...
阅读原文
15678920