AIGC动态欢迎阅读
原标题:OpenAI新作署名Ilya,提取1600万个特征看透GPT-4大脑!
关键字:模型,变量,解释性,编码器,论文
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:乔杨 好困
【新智元导读】今天,OpenAI发布了一篇GPT-4可解释性的论文,似乎是作为前两天员工联名信的回应。网友细看论文才发现,这居然是已经解散的「超级对齐」团队的「最后之作」。前两天,OpenAI的一群员工刚刚联名发表公开信,表示自主的AI系统正在失控,呼吁公众提高警惕。
今天OpenAI就甩出了一篇论文来回应。
这篇文章通过逆向工程,为GPT-4做了一次「解剖」,旨在探索LLM的可解释性。更让人唏嘘的是,这项新研究由最近刚刚分崩离析的「超级对齐」团队完成,文章还有Ilya Sutskever和Jan Leike的署名。
论文地址:https://cdn.openai.com/papers/sparse-autoencoders.pdf
文章是发表了,但团队却早已解散。
物是人非,似乎也从另一个侧面说明了,OpenAI在AGI安全方面进行的重大转向。
论文提出,模型的可解释性与AI安全息息相关。
目前我们仍不了解语言模型的内部运作原理,而且它无法被轻易分解为可识别的部分。这意味着无法像推理汽车安全那样推理人工智能安全。
为了理解和解释神经网络,首先需要找到神经
原文链接:OpenAI新作署名Ilya,提取1600万个特征看透GPT-4大脑!
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...