评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024

AIGC动态欢迎阅读

原标题：评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024
关键字：模型,表征,语言,数据,图像
文章来源：量子位
内容字数：0字

内容摘要：

上交大MIFA实验室魏来投稿量子位 | 公众号 QbitAI能够深入大模型内部的新评测指标来了！
上交大MIFA实验室提出了全新的大模型评估指标Diff-eRank。
不同于传统评测方法，Diff-eRank不研究模型输出，而是选择了分析其背后的隐藏表征。
该方法从信息论和几何的视角，分析大模型的隐藏表征，量化大语言模型在训练前后如何剔除数据中的冗余信息，并以此作为衡量模型性能的指标。
对于多模态大模型，研究团队也设计了基于秩的评估方法，用于衡量不同模态之间的对齐程度。
目前，本工作已被NeurIPS 2024接收。
将评估深入到大模型内部在进行Diff-eRank的相关工作之前，作者首先提出了这样一个问题——
一个语言模型是如何从海量的训练数据中「学习」到知识的？
对于这个问题，前OpenAI科学家Ilya Sutskever在2023年的演讲中曾经这样说：
大语言模型海量数据中训练时，会逐步消除其表征空间中的冗余信息，使得数据的表征变得更加规整、结构化。
这个过程类似于「去噪」，即模型逐渐剔除数据中的无用信息，同时提取出更重要的模式和特征。
传统的评估方法多集中于模型在下游任务

原文链接：评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024