AIGC动态欢迎阅读
原标题:RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
关键字:模型,架构,英语,语言,数据
文章来源:新智元
内容字数:5059字
内容摘要:
新智元报道编辑:alan
【新智元导读】大模型内卷时代,也不断有人跳出来挑战Transformer的统治地位,RWKV最新发布的Eagle 7B模型登顶了多语言基准测试,同时成本降低了数十倍在大模型内卷的同时,Transformer的地位也接连受到挑战。
近日,RWKV发布了Eagle 7B模型,基于最新的RWKV-v5架构。
Eagle 7B在多语言基准测试中,击败了所有的同级别模型,在单独的英语测试中,也和表现最好的模型基本打平。
同时,Eagle 7B用的是RNN架构,相比于同尺寸的Transformer模型,推理成本降低了10-100倍以上,可以说是世界上最环保的7B模型。
由于RWKV-v5的论文可能要下个月才能发布,这里先奉上RWKV的论文,——也是第一个扩展到数百亿参数的非Transformer架构。
论文地址:https://arxiv.org/pdf/2305.13048.pdf
这篇工作已被EMNLP 2023录用,我们可以看到论文的作者来自不同国家的顶尖高校、研究机构以及科技公司。
下面是Eagle 7B的官图,表示这只老鹰正在飞跃变形金刚。
Eagle 7BE
原文链接:RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。