纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画
关键字：模型,视觉,图像,概念,场景
文章来源：新智元
内容字数：14276字

内容摘要：

新智元报道编辑：LRS
【新智元导读】不用图像，只用文本就能训练出视觉概念表征？用写代码的方式读懂画面，形状、物体、场景都能懂！只会「看书」的大语言模型，有现实世界的视觉感知力吗？通过对字符串之间的关系进行建模，关于视觉世界，语言模型到底能学会什么？
最近，麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）的研究人员对语言模型的视觉能力进行了系统的评估，从简单形状、物体到复杂场景，要求模型不断生成和识别出更复杂的视觉概念，并演示了如何利用纯文本模型训练出一个初步的视觉表征学习系统。论文链接：https://arxiv.org/abs/2401.01862
由于语言模型无法以像素的形式输入或输出视觉信息，所以在研究中使用代码来渲染、表示图像。
虽然LLM生成的图像看起来不像自然图像，但从生成结果，以及模型可以自我纠正来看，对字符串/文本的精确建模可以教会语言模型关于视觉世界中的诸多概念。
此外，研究人员还探索了如何利用文本模型生成的图像来进行自监督视觉表征学习，结果也展现了其用作视觉模型训练的潜力，可以仅使用LLM对自然图像进行语义评估。
语言模型的视觉概念先问一个问题：对于

原文链接：纯文本模型训出「视觉」表征！MIT最新研究：语言模型用代码就能作画