LLM可解释性的未来希望?稀疏自编码器是如何工作的,这里有一份直观说明

LLM可解释性的未来希望?稀疏自编码器是如何工作的,这里有一份直观说明

AIGC动态欢迎阅读

原标题:LLM可解释性的未来希望?稀疏自编码器是如何工作的,这里有一份直观说明
关键字:向量,编码器,特征,解码器,解释性
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:Panda简而言之:矩阵 → ReLU 激活 → 矩阵在解释机器学习模型方面,稀疏自编码器(SAE)是一种越来越常用的工具(虽然 SAE 在 1997 年左右就已经问世了)。
机器学习模型和 LLM 正变得越来越强大、越来越有用,但它们仍旧是黑箱,我们并不理解它们完成任务的方式。理解它们的工作方式应当大有助益。
SAE 可帮助我们将模型的计算分解成可以理解的组件。近日,LLM 可解释性研究者 Adam Karvonen 发布了一篇博客文章,直观地解释了 SAE 的工作方式。
可解释性的难题
神经网络最自然的组件是各个神经元。不幸的是,单个神经元并不能便捷地与单个概念相对应,比如学术引用、英语对话、HTTP 请求和韩语文本。在神经网络中,概念是通过神经元的组合表示的,这被称为叠加(superposition)。
之所以会这样,是因为世界上很多变量天然就是稀疏的。
举个例子,某位名人的出生地可能出现在不到十亿分之一的训练 token 中,但现代 LLM 依然能学到这一事实以及有关这个世界的大量其它知识。训练数据中单个事实和概念的数量多于模型中神经元的数量,这可能就是叠加


原文链接:LLM可解释性的未来希望?稀疏自编码器是如何工作的,这里有一份直观说明

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...