从Claude 3中提取数百万特征,首次详细理解大模型的「思维」

从Claude 3中提取数百万特征,首次详细理解大模型的「思维」

AIGC动态欢迎阅读

原标题:从Claude 3中提取数百万特征,首次详细理解大模型的「思维」
关键字:特征,模型,神经元,研究者,表征
文章来源:机器之心
内容字数:5993字

内容摘要:


机器之心报道
编辑:陈萍、小舟刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。研究论文:https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
当前,我们通常将人工智能模型视为一个黑匣子:有东西进去就会有响应出来,但不清楚为什么模型会给出特定的响应。这使人们很难相信这些模型是安全的:如果我们不知道它们是如何工作的,我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的响应?我们如何相信它们会安全可靠?
打开「黑匣子」并不一定有帮助:模型的内部状态(模型在编写响应之前「思考」的内容)由一长串数字(「神经元激活」)组成,没有明确的含义。
Anthropic 的研究团队通过与 Claude 等模型进行交互发现,很明显模型能够理解和运用广泛的概念,但研究团队无法通过直接观察神经


原文链接:从Claude 3中提取数百万特征,首次详细理解大模型的「思维」

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...