AIGC动态欢迎阅读
原标题:NVIDIA Research 研究科学家李柏依:探索基于多模态LLM 的自动驾驶智能体 | 公开课预告
关键字:解读,智能,场景,能力,环境
文章来源:智猩猩GenAI
内容字数:0字
内容摘要:
让自动驾驶系统适应新环境和不同地区的习惯和法规是自动驾驶领域长期面临的挑战。NVIDIA Research 团队提出的自动驾驶智能体 LLaDA 能够利用 LLM 生成适应不同环境的驾驶策略和指令,为驾驶员和自动驾驶汽车提供多语言和地区交通规则的实时指导,帮助他们更轻松地在陌生的地方导航。此外,LLaDA 还能帮助自动驾驶汽车重新规划出与当地环境更加匹配的运动轨迹,调整自动驾驶汽车的运动规划策略。相关论文成果收录于CVPR 2024。然而,LLaDA 无法实现场景的自动识别,且对场景描述的质量有着较高要求。尽管 GPT-4V 能够提供这种描述,但是却不够准确。为此,NVIDIA Research 提出一个创新的自动化视频字幕生成框架 Wolf。Wolf 采用专家混合方法,利用视觉语言模型(VLMs)的互补优势,能够提升自动驾驶智能体的场景理解能力。此外,LLaDA 通常是与用户直接交互,并主要处理文本信息。相比之下,自动驾驶系统则需要提供具体的位置和轨迹规划信息。基于这些差异,NVIDIA Research 团队专为自动驾驶领域设计出一种多模态大型语言模型(MM-LLM)TOKEN。T
原文链接:NVIDIA Research 研究科学家李柏依:探索基于多模态LLM 的自动驾驶智能体 | 公开课预告
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...