KAN网络技术最全解析——最热KAN能否干掉MLP和Transformer？

AIGC动态1年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：KAN网络技术最全解析——最热KAN能否干掉MLP和Transformer？
关键字：函数,知乎,多项式,算子,表征
文章来源：算法邦
内容字数：8852字

内容摘要：

导读本文来自知乎，已获授权，作者为陈巍博士。本文对KAN网络进行了深入解析，涉及KAN网络的基本思路、架构与缩放、可解释性。
陈巍博士，千芯科技董事长，曾担任华X系相关自然语言处理企业的首席科学家，大模型算法-芯片协同设计专家，国际计算机学会（ACM）会员、中国计算机学会（CCF）专业会员。主要研究领域包括大模型（Finetune、Agent、RAG）、存算一体、GPGPU。
原文链接：https://zhuanlan.zhihu.com/p/695830208KAN网络结构思路来自Kolmogorov-Arnold表示定理。MLP 在节点（“神经元”）上具有固定的激活函数，而 KAN 在边（“权重”）上具有可学习的激活函数。在数据拟合和 PDE 求解中，较小的 KAN 可以比较大的 MLP 获得更好的准确性。
相对MLP，KAN也具备更好的可解释性，适合作为数学和物理研究中的辅助模型，帮助发现和寻找更基础的数值规律。（点赞是我们分享的动力）
MLP与KAN对比
与传统的MLP 相比，KAN 有4个主要特点：
1）激活函数位于“边”而不是节点（Node）上；
2）激活函数是可学习的而不

原文链接：KAN网络技术最全解析——最热KAN能否干掉MLP和Transformer？