如何从零训练多模态大模型（预训练方向）

AIGC动态1年前 (2024)发布智猩猩GenAI

如何从零训练多模态大模型（预训练方向）

AIGC动态欢迎阅读

原标题：如何从零训练多模态大模型（预训练方向）
关键字：知乎,侵权,数据,阶段,指令
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

开讲预约导读原文来自知乎，作者为HelloWorld，标题为《LLaVA（六）训练你自己的多模态模型》。作者详细介绍了如何从零训练LLaVA v1.5多模态模型，包括特征对齐和视觉指令微调两个阶段的训练流程、数据准备、启动脚本及相关注意事项。原文地址：https://zhuanlan.zhihu.com/p/718354385
本文只做学术/技术分享，如有侵权，联系删文。本文参考官方教程[1]介绍如何训练 LLaVA v1.5 多模态模型。LLaVA 训练包括特征对齐阶段（feature alignment stage）和视觉指令微调阶段（visual instruction tuning stage），其中特征对齐阶段使用 LAION-CC-SBU 数据集的 558K 子集（记为 LLaVA-Pretrain），目的是训练 MLP connector（或称为 projector），而视觉指令微调阶段使用 GPT-4 生成的 150K 条多模态指令跟随数据和来自学术任务的 515K 条 VQA 数据引导 LLaVA 模型遵从多模态指令。
官方给出的 LLaVA v1.5 使用了 8 个

原文链接：如何从零训练多模态大模型（预训练方向）