Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路
关键字：机器人,目标,环境,长上,指令
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：张倩长上下文大模型帮助机器人理解世界。最近，谷歌 DeepMind 突然开始炫起了机器人。这个机器人可以轻松听从人类指令、进行视觉导览，用常识推理在三维空间中寻找路径。
它使用的是最近谷歌发布的大模型 Gemini 1.5 Pro。在使用传统 AI 模型时，机器人常因上下文长度限制而难以回忆起环境细节，但 Gemini 1.5 Pro 的百万级 token 上下文长度为机器人提供了强大的环境记忆能力。
在真实的办公室场景中，工程师引导机器人游览特定区域，并标出了需要回忆的关键地点，例如「刘易斯的办公桌」或「临时办公桌区域」。转完一圈后，别人要问起来，机器人就能根据这些记忆带他去这些地点了。即使你说不出具体要去的地点，只是表达一下目的，机器人也能带你找到对应的位置。这是大模型的推理能力在机器人身上的具体表现。这一切离不开一个叫 Mobility VLA 的导航策略。论文标题：Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
论文链接

原文链接：Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路