AIGC动态欢迎阅读
原标题:比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
文章来源:机器之心
内容字数:7436字
内容摘要:机器之心报道编辑:杜伟、泽南本文探索了 Monarch Mixer (M2) ,这是一种在序列长度和模型维度上都是次二次的新架构,并且在现代加速器上具有很高的硬件效率。从 BERT、GPT 和 Flan-T5 等语言模型到 SAM 和 Stable Diffusion 等图像模型,Transformer 正以锐不可当之势席卷这个世界,但人们也不禁会问:Transformer 是唯一选择吗?斯坦福大…
原文链接:点此阅读原文:比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...