训练视觉语言模型VLM的经验

AIGC动态欢迎阅读

原标题：训练视觉语言模型VLM的经验
关键字：数据,知乎,侵权,业务,模型
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

讲座预告11月1日上午10点，南开大学在读博士李森茂，将以《基于扩散模型编码器模块的推理加速》为主题进行直播讲解，欢迎扫名~导读作者为lym
原文来自知乎，地址：https://zhuanlan.zhihu.com/p/890327005
本文只做学术/技术分享，如有侵权，联系删文。如果可以用prompt解决，尽量用prompt解决，因为训练（精调）的模型往往通用能力会下降，训练和长期部署成本都比较高，这个成本也包括时间成本。
基于prompt确实不行（情况包括格式输出不稳定、格式输出基本不对、任务不完全会、任务完全不会等情况，难度逐渐加大），选择上SFT微调。
业务场景基本用不到强化学习，强化解决的是最后一公里的问题，可以理解为有两种非常接近的输出（这两种输出都非常接近目标输出，此时已经解决了90%的问题），强化学习会对相同的输入，打压其中一种不希望的输出，同时增强另一种更接近目标的希望的输出（从DPO loss就可以看出）。强化是用来应对细微输出差异的，并且业务场景优先用DPO，DPO只需要pair对数据，更好构造。PPO的reward model几乎没有开源的，需要的数据更多

原文链接：训练视觉语言模型VLM的经验