单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

AIGC动态欢迎阅读

原标题:单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率
关键字:模型,加法,数字,作者,架构
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
机器之心编辑部乘法和排序也有效。
自 2017 年被提出以来,Transformer 已成为 AI 大模型的主流架构,一直稳站 C 位。
但所有研究者都不得不承认的是,Transformer 在算数任务中表现非常糟糕,尤其是加法,这一缺陷在很大程度上源于 Transformer 无法跟踪大范围数字中每个数字的确切位置。
为了解决这个问题,来自马里兰大学、CMU 等机构的研究者向这一问题发起了挑战,他们通过在每个数字中添加一个嵌入来解决这个问题,该嵌入编码数字相对于开头的位置。该研究发现,只用一天时间在单个 GPU 上训练 20 位数字,就可以达到最新的性能水平,100 位数字加法问题高达 99% 的准确率。论文地址:https://arxiv.org/pdf/2405.17399
项目地址:https://github.com/mcleish7/arithmetic
标题:Transformers Can Do Arithmetic with the Right Embeddings
具体而言,研究者建议对数据表示进行一个简单的修改,就能解决这个缺点。他们提出了 Abac


原文链接:单GPU训练一天,Transformer在100位数字加法上就达能到99%准确率

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...