大模型+多模态的3种实现方法｜文末赠书

AIGC动态3年前 (2023)发布 AI前线

大模型+多模态的3种实现方法｜文末赠书

AIGC动态欢迎阅读

原标题：大模型+多模态的3种实现方法｜文末赠书

文章来源：AI前线

内容字数：5975字

内容摘要：我们知道，预训练LLM已经取得了诸多惊人的成就，然而其明显的劣势是不支持其他模态（包括图像、语音、视频模态）的输入和输出，那么如何在预训练LLM的基础上引入跨模态的信息，让其变得更强大、更通用呢？本节将介绍“大模型+多模态”的3种实现方法。01以LLM为核心，调用其他多模态组件2023年5月，微软亚洲研究院（MSRA）联合浙江大学发布了HuggingGPT框架，该框架能够以LLM为核心，调用其他的多模态组件来合作完成复杂的AI任务（更多细节可参见Yongliang Shen等人发表的论文“HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace”）。HuggingGPT框架的原理示意图如图1所示。下面根据论文中提到的示例来一步一步地拆解 HuggingGPT框架的执行过程。图1假如现在你要执行这样一个…

原文链接：点此阅读原文：大模型+多模态的3种实现方法｜文末赠书