重磅:AI机制可解释性的理论基础:抽象因果

重磅:AI机制可解释性的理论基础:抽象因果

AIGC动态欢迎阅读

原标题:重磅:AI机制可解释性的理论基础:抽象因果
关键字:因果,模型,变量,概念,解释性
文章来源:人工智能学家
内容字数:0字

内容摘要:


来源:图灵人工智能
Causal Abstraction:A Theoretical Foundation for Mechanistic Interpretability
https://arxiv.org/pdf/2301.04709 v3 2024
摘要
因果抽象为机制可解释性提供了理论基础,该领域涉及提供可理解的算法,这些算法是对已知但不透明的黑盒AI模型低层次细节的忠实简化。我们的贡献包括:(1) 将因果抽象理论从机制替换(即硬干预和软干预)推广到任意机制转换(即从旧机制到新机制的泛函),(2) 提供了一种灵活且精确的形式化定义,用于模块化特征、多义性神经元和分级忠实度的核心概念,以及(3) 在因果抽象的共同语言下统一了多种机制可解释性方法,即激活和路径修补、因果中介分析、因果清洗、因果追踪、电路分析、概念擦除、稀疏自编码器、差分二进制掩蔽、分布式对齐搜索和激活引导。
关键词:机制可解释性、因果关系、抽象、可解释AI、可解释性1. 引言
我们将可解释人工智能的基本目标视为解释AI模型为何做出其预测。在许多情况下,解释的范式是因果解释(Woodward, 2003; Pearl


原文链接:重磅:AI机制可解释性的理论基础:抽象因果

联系作者

文章来源:人工智能学家
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...