打破大模型黑盒，彻底分解神经元！OpenAI对头Anthropic击破AI不可解释性障碍

AIGC动态3年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：打破大模型黑盒，彻底分解神经元！OpenAI对头Anthropic击破AI不可解释性障碍

关键字：特征,神经元,模型,报告,解释性

文章来源：新智元

内容字数：5169字

内容摘要：新智元报道编辑：Lumina【新智元导读】距离大模型「黑箱」难题又近了一步！近日，来自Anthropic的研究团队通过采用稀疏自动编码器的弱字典学习算法，从512个神经元中提取出来了4000多个可解释特征。长久以来，我们都无从理解AI是如何进行决策和输出的。模型开发人员只能决定算法、数据，最后得到模型的输出结果，而中间部分——模型是怎么根据这些算法和数据输出结果，就成为了不可见的「黑箱」。所以…

原文链接：点此阅读原文：打破大模型黑盒，彻底分解神经元！OpenAI对头Anthropic击破AI不可解释性障碍