OpenAI新作署名Ilya，提取1600万个特征看透GPT-4大脑！

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：OpenAI新作署名Ilya，提取1600万个特征看透GPT-4大脑！
关键字：模型,变量,解释性,编码器,论文
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨好困
【新智元导读】今天，OpenAI发布了一篇GPT-4可解释性的论文，似乎是作为前两天员工联名信的回应。网友细看论文才发现，这居然是已经解散的「超级对齐」团队的「最后之作」。前两天，OpenAI的一群员工刚刚联名发表公开信，表示自主的AI系统正在失控，呼吁公众提高警惕。
今天OpenAI就甩出了一篇论文来回应。
这篇文章通过逆向工程，为GPT-4做了一次「解剖」，旨在探索LLM的可解释性。更让人唏嘘的是，这项新研究由最近刚刚分崩离析的「超级对齐」团队完成，文章还有Ilya Sutskever和Jan Leike的署名。
论文地址：https://cdn.openai.com/papers/sparse-autoencoders.pdf
文章是发表了，但团队却早已解散。
物是人非，似乎也从另一个侧面说明了，OpenAI在AGI安全方面进行的重大转向。
论文提出，模型的可解释性与AI安全息息相关。
目前我们仍不了解语言模型的内部运作原理，而且它无法被轻易分解为可识别的部分。这意味着无法像推理汽车安全那样推理人工智能安全。
为了理解和解释神经网络，首先需要找到神经

原文链接：OpenAI新作署名Ilya，提取1600万个特征看透GPT-4大脑！