标签:物体

上交发布MG-LLaVA,基于多粒度指令调整,横扫视觉大模型榜单

夕小瑶科技说 原创作者 |Richard近年来多模态大语言模型(MLLMs)在视觉理解任务中取得了长足进步。然而,大多数模型仍局限于处理低分辨率图像,这限制了它们在...
阅读原文

靠Scaling Laws炼出4D版视频生成模型,多伦多大学北交大等携手开源81K高质量数据集

Diffusion4D团队 投稿量子位 | 公众号 QbitAI只需几分钟、一张图或一句话,就能完成时空一致的4D内容生成。 注意看,这些生成的3D物体,是带有动作变化的那种...
阅读原文

斯坦福博士助力,一年打造7亿融资独角兽!银河通用机器人创具身智能赛道天使轮融资纪录

新智元报道编辑:编辑部 【新智元导读】过去一年,美元在华投资大幅缩水,资本市场呈现「寒冬」态势。然而,在这样的背景下,这家中国公司成立仅一年却创纪录...
阅读原文

给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024

新智元报道编辑:LRST 【新智元导读】本文提出了SAX-NeRF框架,一种专为稀疏视角下X光三维重建设计的新型NeRF方法,通过Lineformer Transformer和MLG采样策略...
阅读原文

北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,代码将开源

杨灵 投稿自 凹非寺量子位 | 公众号 QbitAI如何生成高难度、指令超复杂的视频呢? 北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,...
阅读原文

3D资产生成领域福音:自动化所、北邮团队联合打造材质生成新范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

颠覆传统操控!解密美国东北大学机器蛇如何在复杂地形中灵活表现

大数据文摘受权转载自机器大讲堂 你没看错,这个不断翻滚上坡的条状物是一个蛇形机器人。 在人们的印象中,大多数蛇形机器人似乎无法像许多轮式和腿式机...
阅读原文

银河通用王鹤:让具身智能机器人“言出法随”,需攻克两大局限性丨GenAICon 2024

没有做好小模型的公司、没有能让动作小模型泛化的公司不可能让大模型泛化。 2024中国生成式AI大会于4月18-19日在北京举行,在大会第一天的主会场开幕式上,北...
阅读原文

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

允中 发自 凹非寺量子位 | 公众号 QbitAI当前,多模态大模型(MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像...
阅读原文

李飞飞「空间智能」系列新进展,吴佳俊团队新「BVS」套件评估计算机视觉模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

让机器准确「看懂」手物交互动作,清华大学等提出GeneOH Diffusion方法

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

新智元报道编辑:LRS 【新智元导读】PhysDreamer利用材质点法(MPM)对物体的各个物理属性进行估计,实现了逼真的交互式响应结果,在视频生成领域向更真实的...
阅读原文

看透物体的3D表示和生成模型:NUS团队提出X-Ray

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

华为P70闪拍功能意外爆火,CTO亲自下场解读技术原理

克雷西 发自 凹非寺量子位 | 公众号 QbitAI一段博主拍摄的视频,让华为P70的抓拍功能意外火了…… 注意看,这里有一个高速运转的机械,是不是让你看得已经眼花...
阅读原文

无任务学习及在机器人任务和规划中的应用

大数据文摘授权转载自中国人工智能学会 作者:张宪琦,范晓鹏摘 要: 本文提出了无任务学习的方法,阐述了其与现有方法(包括自监督学习、迁移学习、模仿学习...
阅读原文