神经网络架构「殊途同归」？ICML 2024论文：模型不同，但学习内容相同

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：神经网络架构「殊途同归」？ICML 2024论文：模型不同，但学习内容相同
关键字：神经网络,表征,模型,据点,架构
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨
【新智元导读】深度神经网络有多种规模和架构，大家普遍认为这会影响到模型学习到的抽象表示。然而，UCL两位学者发表在ICML 2024上第一篇论文指出，如果模型的架构足够灵活，某些网络行为在不同架构间是广泛存在的。自从AI跨入大模型时代以来，Scaling Law几乎成为了一个。
论文地址：https://arxiv.org/abs/2001.08361
OpenAI的研究人员在2020年的这篇论文中提出，模型的性能与三方面的指标呈幂律关系：参数量N、数据集规模D以及训练算力C。
除了这三方面外，在合理范围内，超参数的选择和模型的宽度、深度等因素对性能的影响很小。
而且，这种幂律关系的存在没有对模型架构做出任何规定。换言之，我们可以认为Scaling Law几乎适用于任何模型架构。
此外2021年发表的一篇神经科学领域的论文似乎也从另一个角度触碰到了这个现象。
论文地址：https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.6258

原文链接：神经网络架构「殊途同归」？ICML 2024论文：模型不同，但学习内容相同