今日arXiv最热大模型论文:清华大学:一个简单缩放让大模型利用长上下文能力提升15.2%

今日arXiv最热大模型论文:清华大学:一个简单缩放让大模型利用长上下文能力提升15.2%

AIGC动态欢迎阅读

原标题:今日arXiv最热大模型论文:清华大学:一个简单缩放让大模型利用长上下文能力提升15.2%
关键字:位置,状态,偏差,模型,注意力
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 | 谢年年
不知道大家发现没有,一些大模型的提示技巧总是习惯将一些重要指令或信息放在提示的开头或者结尾。
这是因为LLMs在处理上下文的时候容易出现“lost in the middle”的位置偏差,即它们倾向于关注提示中开头和结尾的信息而忽略中间信息。特别随着上下文越来越长,这种位置偏差带来的性能效果愈发严重。
这个问题是所有LLMs的通病,连像ChatGPT这样的强大模型也难以避免这一问题。文献[1]就指出,GPT-3.5-Turbo模型在试验多文档问答任务时,将答案放置在提示中间与末尾的性能差异高达22分。
这到底是怎么一回事?位置偏差的根源是什么?是否与LLMs的结构有关?我们又该如何减轻这一问题?接下来,我们将通过清华大学的一项研究来探讨这些问题。
论文标题:Mitigate Position Bias in Large Language Models via Scaling a Single Dimension
论文链接:https://arxiv.org/pdf/2406.02536
出现位置偏差的原因位置偏差的微观表现大模型的一大基本组成结构是T


原文链接:今日arXiv最热大模型论文:清华大学:一个简单缩放让大模型利用长上下文能力提升15.2%

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...