匿名论文提出奇招！增强大模型长文本能力居然还能这么做

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：匿名论文提出奇招！增强大模型长文本能力居然还能这么做
关键字：文本,模型,上下文,模块,作者
文章来源：量子位
内容字数：5062字

内容摘要：

丰色发自凹非寺量子位 | 公众号 QbitAI一提到提高大模型长文本能力，就想到长度外推或者上下文窗口扩展？
不行，这些都太费硬件资源了。
来看一个奇妙新解：
和长度外推等方法使用KV缓存的本质不同，它用模型的参数来存储大量上下文信息。
具体办法就是建一个临时Lora模块，让它仅在长文本生成过程中“流式更新”，也就是用先前生成的内容不断作为输入来充当训练数据，以此保证知识被存进模型参数中。
然后一旦推理完成，就丢掉它，保证不对模型参数产生长久影响。
这个方法可以让我们不用扩展上下文窗口的同时，随便存储上下文信息，想存多少存多少。
实验证明，这种方法：
既可以显著提高模型长文本任务质量，实现困惑度下降29.6%，长文本翻译质量（BLUE得分）提高53.2%；
还能兼容并增强现有大多数长文本生成方法。
最重要的是，能大大降低计算成本。
在保证生成质量小幅提升（困惑度降低3.8%）的同时，推理所需的FLOPs降低70.5%、延迟降低51.5%！
具体情况，我们翻开论文来看。
建个临时Lora模块用完即丢该方法名叫Temp-Lora，架构图如下：
其核心就是以自回归的方式用先前生成的文本上

原文链接：匿名论文提出奇招！增强大模型长文本能力居然还能这么做

联系作者

文章来源：量子位
作者微信：QbitAI
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

AIGC动态欢迎阅读

内容摘要：

联系作者

加速知识检索：伯克利&DeepMind联合研究，RaLMSpec让语言模型服务飞速提升2-7倍！

扎克伯格分红7亿刀，Meta股价大涨14%，开源大计成了？

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点

匿名论文提出奇招！增强大模型长文本能力居然还能这么做

AIGC动态欢迎阅读

内容摘要：

联系作者

加速知识检索：伯克利&DeepMind联合研究，RaLMSpec让语言模型服务飞速提升2-7倍！

扎克伯格分红7亿刀，Meta股价大涨14%，开源大计成了​？

相关文章

暂无评论

ChatGPT

毕业论文生成器

AIGC热点

扎克伯格分红7亿刀，Meta股价大涨14%，开源大计成了？