Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

AIGC动态欢迎阅读

原标题:Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
关键字:机器人,目标,环境,长上,指令
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:张倩长上下文大模型帮助机器人理解世界。最近,谷歌 DeepMind 突然开始炫起了机器人。这个机器人可以轻松听从人类指令、进行视觉导览,用常识推理在三维空间中寻找路径。
它使用的是最近谷歌发布的大模型 Gemini 1.5 Pro。在使用传统 AI 模型时,机器人常因上下文长度限制而难以回忆起环境细节,但 Gemini 1.5 Pro 的百万级 token 上下文长度为机器人提供了强大的环境记忆能力。
在真实的办公室场景中,工程师引导机器人游览特定区域,并标出了需要回忆的关键地点,例如「刘易斯的办公桌」或「临时办公桌区域」。转完一圈后,别人要问起来,机器人就能根据这些记忆带他去这些地点了。即使你说不出具体要去的地点,只是表达一下目的,机器人也能带你找到对应的位置。这是大模型的推理能力在机器人身上的具体表现。这一切离不开一个叫 Mobility VLA 的导航策略。论文标题:Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
论文链接


原文链接:Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...