HuggingFace教你怎样做出SOTA视觉模型

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：HuggingFace教你怎样做出SOTA视觉模型
关键字：模型,数据,视觉,架构,经验
文章来源：量子位
内容字数：5508字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI前有OpenAI的GPT-4o，后有谷歌的系列王炸，先进的多模态大模型接连炸场。
其他从业者在震撼之余，也再次开始思考怎么追赶这些超级模型了。
刚好在这时，HuggingFace和法国索邦大学的一篇论文，总结出了构建视觉大模型的关键经验，给开发者指明了一条路。
这些经验涵盖了模型架构选择、训练方法、训练数据等多个方面，作者在多方比较之后给出了详尽的总结，核心要点包括这些内容：
想把视觉大模型搞好，架构的选择很重要。
语言模型对整体表现的影响，比视觉模块更大。
采用分阶段预训练策略，更有利于构建模型能力。
训练数据应包含多种类型，并注意之间的比例平衡。
可以说，HF能够打造出同规模SOTA的视觉模型Idefics2，背后依靠的都是这些经验。
Idefics2基于Mistral-7B打造，整体拥有8B的参数量，可以准确识别出手写字体。
专业人士评价称，这是一篇很好的调查报告，对视觉模型开发者很有帮助，不过同时也提醒说不要当成万金油来看。
当然也有人打趣说，什么架构数据都是浮云，有GPU才是最关键的。
倒也有些道理，不过玩笑归玩笑，还是来看

原文链接：HuggingFace教你怎样做出SOTA视觉模型