评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024

评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024

AIGC动态欢迎阅读

原标题:评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024
关键字:模型,表征,语言,数据,图像
文章来源:量子位
内容字数:0字

内容摘要:


上交大MIFA实验室 魏来 投稿量子位 | 公众号 QbitAI能够深入大模型内部的新评测指标来了!
上交大MIFA实验室提出了全新的大模型评估指标Diff-eRank。
不同于传统评测方法,Diff-eRank不研究模型输出,而是选择了分析其背后的隐藏表征。
该方法从信息论和几何的视角,分析大模型的隐藏表征,量化大语言模型在训练前后如何剔除数据中的冗余信息,并以此作为衡量模型性能的指标。
对于多模态大模型,研究团队也设计了基于秩的评估方法,用于衡量不同模态之间的对齐程度。
目前,本工作已被NeurIPS 2024接收。
将评估深入到大模型内部在进行Diff-eRank的相关工作之前,作者首先提出了这样一个问题——
一个语言模型是如何从海量的训练数据中「学习」到知识的?
对于这个问题,前OpenAI科学家Ilya Sutskever在2023年的演讲中曾经这样说:
大语言模型海量数据中训练时,会逐步消除其表征空间中的冗余信息,使得数据的表征变得更加规整、结构化。
这个过程类似于「去噪」,即模型逐渐剔除数据中的无用信息,同时提取出更重要的模式和特征。
传统的评估方法多集中于模型在下游任务


原文链接:评估大模型不看输出看「内在」,上交大新测试指标入选NeurIPS 2024

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...