比Transformer更好，无Attention、MLPs的BERT、GPT反而更强了

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：比Transformer更好，无Attention、MLPs的BERT、GPT反而更强了

文章来源：机器之心

内容字数：7436字

内容摘要：机器之心报道编辑：杜伟、泽南本文探索了 Monarch Mixer (M2) ，这是一种在序列长度和模型维度上都是次二次的新架构，并且在现代加速器上具有很高的硬件效率。从 BERT、GPT 和 Flan-T5 等语言模型到 SAM 和 Stable Diffusion 等图像模型，Transformer 正以锐不可当之势席卷这个世界，但人们也不禁会问：Transformer 是唯一选择吗？斯坦福大…

原文链接：点此阅读原文：比Transformer更好，无Attention、MLPs的BERT、GPT反而更强了