直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

AIGC动态7个月前发布 机器之心
41 0 0

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

AIGC动态欢迎阅读

原标题:直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争
关键字:注意力,上下文,报告,内存,模型
文章来源:机器之心
内容字数:5751字

内容摘要:


机器之心报道
编辑:小舟、陈萍不知 Gemini 1.5 Pro 是否用到了这项技术。
谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。
Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,模型能处理 500K 的书籍摘要任务。
自 2017 年开创性研究论文《Attention is All You Need》问世以来,Transformer 架构就一直主导着生成式人工智能领域。而谷歌对 Transformer 的优化设计最近比较频繁,几天前,他们更新了 Transformer 架构,发布 Mixture-of-Depths(MoD),改变了以往 Transformer 计算模式。没过几天,谷歌又放出了这项新研究。专注 AI 领域的研究者都了解内存的重要性,它是智能的基石,可以为 LLM 提供高效的计算。然而,Transformer


原文链接:直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...