港科大在读博士刘兆洋：从 InternGPT 到 ControlLLM，基于大语言模型的多模态理解与生成能力构建

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：港科大在读博士刘兆洋：从 InternGPT 到 ControlLLM，基于大语言模型的多模态理解与生成能力构建
关键字：模型,语言,工具,用户,工作
文章来源：算法邦
内容字数：2045字

内容摘要：

1月17日晚7点，智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品，并聚焦于大语言模型工具调用 ControlLLM、长视频理解视觉语言模型 LLaMA-VID和多模态文档理解大模型 mPLUG-DocOwl，香港科技大学在读博士刘兆洋、香港中文大学在读博士李彦玮和阿里巴巴通义实验室高级算法工程师文束将参与主讲。
其中，刘兆洋将围绕主题《从 InternGPT 到 ControlLLM，基于大语言模型的多模态理解与生成能力构建》进行直播讲解。
本次分享将围绕大语言模型工具调用的最新进展以及相关工作进行展开，主要包括：InternGPT 和 ControlLLM。
InternGPT 作为早期大语言模型工具调用的探索工作，率先尝试基于指尖设备构建多模态交互系统，让用户通过点击、框选、拖动等方式与 ChatGPT 交流，并解决视觉任务。ControlLLM 是全新的工具调用框架，基于 Thoughts-on-Graph 任务规划范式，让大型语言模型 (LLMs) 能够利用多模态工具，解决更复杂的真实世界任务。
这两个工作都展示了如何通过

原文链接：港科大在读博士刘兆洋：从 InternGPT 到 ControlLLM，基于大语言模型的多模态理解与生成能力构建