6700万参数比肩万亿巨兽GPT-4！微软MIT等联手Transformer推理密码

AIGC动态1年前 (2024)发布新智元

6700万参数比肩万亿巨兽GPT-4！微软MIT等联手破解Transformer推理密码

AIGC动态欢迎阅读

原标题：6700万参数比肩万亿巨兽GPT-4！微软MIT等联手Transformer推理密码
关键字：模型,因果,公理,节点,数据
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：桃子乔杨
【新智元导读】来自微软、MIT等机构的学者提出了一种创新的训练范式，攻破了大模型的推理缺陷。他们通过因果模型构建数据集，直接教模型学习公理，结果只有67M参数的微型Transformer竟能媲美GPT-4的推理能力。「因果推理」绝对是当前GenAI热潮下的小众领域，但是它有一个大佬级的坚定支持者——Yann LeCun。
他在上的日常操作之一，就是炮轰Sora等生成模型，并为自己坚信的因果推理领域摇旗呐喊。
甚至，早在2019年VentureBeat的采访中，他就表达过这一观点：我们需要在深度学习模型中引入的因果关系，才能增强泛化能力，减少训练数据使用。
对于当前最流行的模型架构Transformer，我们能教它因果推理吗？
最近，来自微软MIT等机构的研究人员提出了一种训练大模型新范式——公理框架（Axiomatic Framework）。
论文中，作者从头开始训练了6700万参数的模型，仅使用了简单的因果链作为训练数据。
令人惊讶的是，在推断复杂图表中的因果关系时，67M模型的表现超越了十亿级参数LLM，甚至可以与GPT-4相媲美。
论文地址：

原文链接：6700万参数比肩万亿巨兽GPT-4！微软MIT等联手Transformer推理密码