模型越大，性能越好？苹果自回归视觉模型AIM：没错

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：模型越大，性能越好？苹果自回归视觉模型AIM：没错
关键字：模型,研究者,报告,目标,下游
文章来源：机器之心
内容字数：6522字

内容摘要：

机器之心报道
编辑：蛋酱、杜伟视觉模型，同样遵循「参数越多性能越强」的规律？刚刚，一项来自苹果公司的研究验证了这个猜想。
过去几年，大规模预训练模型在 NLP 领域取得了成功，这类模型可以通过几个示例解决复杂的推理任务，也可以按照指令进行推理。
众所周知的是，预训练模型能取得成功的一个理论基础是，随着容量（即参数量）或预训练数据量的增加，模型能够不断提升性能。
这很自然地引发了研究者们的联想：使用自回归目标对 Transformers 进行缩放的成功是否仅限于文本？
在最新的一篇论文《Scalable Pre-training of Large Autoregressive Image Models》中，苹果的研究者提出了自回归图像模型（AIM），探讨了用自回归目标训练 ViT 模型是否能在学习表征方面获得与 LLMs 相同的扩展能力。论文链接：https://arxiv.org/pdf/2401.08541.pdf
项目地址：https://github.com/apple/ml-aim
先说结论：研究者发现，模型容量可以轻松扩展到数十亿个参数，并且 AIM 能够有效利用大量未经整理

原文链接：模型越大，性能越好？苹果自回归视觉模型AIM：没错