神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同

AIGC动态4个月前发布 新智元
12 0 0

神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同

AIGC动态欢迎阅读

原标题:神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同
关键字:神经网络,表征,模型,据点,架构
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:乔杨
【新智元导读】深度神经网络有多种规模和架构,大家普遍认为这会影响到模型学习到的抽象表示。然而,UCL两位学者发表在ICML 2024上第一篇论文指出,如果模型的架构足够灵活,某些网络行为在不同架构间是广泛存在的。自从AI跨入大模型时代以来,Scaling Law几乎成为了一个共识。
论文地址:https://arxiv.org/abs/2001.08361
OpenAI的研究人员在2020年的这篇论文中提出,模型的性能与三方面的指标呈幂律关系:参数量N、数据集规模D以及训练算力C。
除了这三方面外,在合理范围内,超参数的选择和模型的宽度、深度等因素对性能的影响很小。
而且,这种幂律关系的存在没有对模型架构做出任何规定。换言之,我们可以认为Scaling Law几乎适用于任何模型架构。
此外2021年发表的一篇神经科学领域的论文似乎也从另一个角度触碰到了这个现象。
论文地址:https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.6258


原文链接:神经网络架构「殊途同归」?ICML 2024论文:模型不同,但学习内容相同

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...