从零训练一个多模态LLM：预训练+指令微调+对齐+融合多模态+链接外部系统

AIGC动态1年前 (2024)发布智猩猩AGI

AIGC动态欢迎阅读

原标题：从零训练一个多模态LLM：预训练+指令微调+对齐+融合多模态+链接外部系统
关键字：模型,数据,指令,任务,文本
文章来源：智猩猩AGI
内容字数：0字

内容摘要：

7月25日上午10点，中国科学技术大学与微软亚洲研究院联合培养博士生张博文将在智猩猩直播讲解微软亚洲研究院开源成果GaussianCube，主题为《结构化3DGS为高质量3D生成带来新思路》。欢迎扫名~本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。
01准备阶段1 模型结构
目前主要有三种模型架构，基于Transformer解码器，基于General Language Model，以及混合专家模型。这一步可以直接选择开源的的基座模型，例如基于Transformer解码器架构的LLaMA模型族，模型结构及一些重要参数如下图。假设选择LLaMA-65B，Tokenizer选择LLaMA的基于BPE算法构造的tokenizer。如果想要扩展词表，可以在目标语言上训练好词表后和LLaMA的词表merge在一起。
02预训练数据1 数据源
根据Chinchilla 的scaling law，要达到最优的计算利用率，65B模型对应的训练token数量应该达到1.4T。当前用于训练LLM的数据来源很多，但

原文链接：从零训练一个多模态LLM：预训练+指令微调+对齐+融合多模态+链接外部系统