比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了

AIGC动态11个月前发布 机器之心
33 0 0

比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了

AIGC动态欢迎阅读

原标题:比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了

关键字:报告,模型,矩阵,序列,卷积

文章来源:机器之心

内容字数:7436字

内容摘要:机器之心报道编辑:杜伟、泽南本文探索了 Monarch Mixer (M2) ,这是一种在序列长度和模型维度上都是次二次的新架构,并且在现代加速器上具有很高的硬件效率。从 BERT、GPT 和 Flan-T5 等语言模型到 SAM 和 Stable Diffusion 等图像模型,Transformer 正以锐不可当之势席卷这个世界,但人们也不禁会问:Transformer 是唯一选择吗?斯坦福大…

原文链接:点此阅读原文:比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...