无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

AIGC动态9个月前发布 机器之心
10 0 0

无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

AIGC动态欢迎阅读

原标题:无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
关键字:模型,基准,架构,性能,英语
文章来源:机器之心
内容字数:3403字

内容摘要:


机器之心报道
编辑:陈萍Eagle 7B 可将推理成本降低 10-100 倍。在 AI 赛道中,与动辄上千亿参数的模型相比,最近,小模型开始受到大家的青睐。比如法国 AI 初创公司发布的 Mistral-7B 模型,其在每个基准测试中,都优于 Llama 2 13B,并且在代码、数学和推理方面也优于 LLaMA 1 34B。
与大模型相比,小模型具有很多优点,比如对算力的要求低、可在端侧运行等。
近日,又有一个新的语言模型出现了,即 7.52B 参数 Eagle 7B,来自开源非盈利组织 RWKV,其具有以下特点:基于 RWKV-v5 架构构建,该架构的推理成本较低(RWKV 是一个线性 transformer,推理成本降低 10-100 倍以上);
在 100 多种语言、1.1 万亿 token 上训练而成;
在多语言基准测试中优于所有的 7B 类模型;
在英语评测中,Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral;
英语评测中与 MPT-7B (1T) 相当;
没有注意力的 Transformer。前面我们已经了解到 Eagle 7B


原文链接:无注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...