AIGC动态欢迎阅读
原标题:长序列(Long Context)大模型笔记
关键字:序列,侵权,知乎,感觉,模型
文章来源:智猩猩GenAI
内容字数:0字
内容摘要:
导读作者为Rooters
原文来自知乎,地址:https://zhuanlan.zhihu.com/p/926602895
本文只做学术/技术分享,如有侵权,联系删文。记录下过去一年业界长序列LLM的训练/推理方法。包括modeling方面和ml-sys方面的内容。以及一些看好的探索方向希望大家一起讨论。有些方面了解不全欢迎大家指出,补充+讨论!
01Position Embedding(位置编码)ALIBI 和RoPE
一年前刚有长序列探索时,一些模型会在ALIBI和RoPE里做选择,而后来新的模型一般都是RoPE为主(llama,mistral,cohere等)。ALIBI有个问题是原paper提出无损外推,但是后续工作发现在训练一定token数目(比如1T)之后会overfit这个训练length,并且好像没有很好的类似RoPE-NTK的方式去微调(有类似Position Interpolation的方式,好像效果一般)。一些ALIBI的后续工作比如FIRE没有被广泛应用。System的角度ALIBI和flash attention不兼容,需要实体化这个bias mask或者融合
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...