长序列（Long Context）大模型笔记

AIGC动态欢迎阅读

原标题：长序列（Long Context）大模型笔记
关键字：序列,侵权,知乎,感觉,模型
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

导读作者为Rooters
原文来自知乎，地址：https://zhuanlan.zhihu.com/p/926602895
本文只做学术/技术分享，如有侵权，联系删文。记录下过去一年业界长序列LLM的训练/推理方法。包括modeling方面和ml-sys方面的内容。以及一些看好的探索方向希望大家一起讨论。有些方面了解不全欢迎大家指出，补充+讨论！
01Position Embedding（位置编码）ALIBI 和RoPE
一年前刚有长序列探索时，一些模型会在ALIBI和RoPE里做选择，而后来新的模型一般都是RoPE为主（llama，mistral，cohere等）。ALIBI有个问题是原paper提出无损外推，但是后续工作发现在训练一定token数目（比如1T)之后会overfit这个训练length，并且好像没有很好的类似RoPE-NTK的方式去微调（有类似Position Interpolation的方式，好像效果一般）。一些ALIBI的后续工作比如FIRE没有被广泛应用。System的角度ALIBI和flash attention不兼容，需要实体化这个bias mask或者融合

原文链接：长序列（Long Context）大模型笔记