四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：四行代码让大模型上下文暴增3倍，羊驼Mistral都适用
关键字：模型,文本,长度,窗口,能力
文章来源：量子位
内容字数：3103字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAI无需微调，只要四行代码就能让大模型窗口长度暴增，最高可增加3倍！
而且是“即插即用”，理论上可以适配任意大模型，目前已在Mistral和Llama2上试验成功。
有了这项技术，大模型（LargeLM）就能摇身一变，成为LongLM。
近日，来自得克萨斯农工大学等机构的华人学者们发布了全新的大模型窗口扩展方法SelfExtended（简称SE）。
在Mistral上，研究者在24k长度的文本中随机插入5位数字让模型搜索，结果经SE处理后，呈现出了全绿（通过）的测试结果。
而未经处理的版本，在6k长度时就已经开始“见红”了。
GitHub Copilot主创Alex Graveley也激动地宣布，在Llama2上进行的实验同样取得了成功。
在网友的进一步询问之下，Alex解释了推文中“work”的具体含义：原先在4k长度时就会出现的噪声，现在已经消失了。
而对于SE窗口长度的极限，一位根据论文复现SE代码的大佬表示，理论上（只要算力足够）可以达到无限长。
那么，SE具体能达到什么样的效果呢？
长文本能力显著增强在窗口长度从4096增长到1

原文链接：四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

联系作者

文章来源：量子位
作者微信：QbitAI
作者简介：追踪人工智能新趋势，关注科技行业新突破

阅读原文

# AIGC动态 # 文本 # 模型 # 窗口 # 能力 # 长度

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

AIGC动态欢迎阅读

内容摘要：

联系作者

余震强度预测能力升级，Nature 刊文认证基于神经网络的模型性能优于传统模型

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制

相关文章

暂无评论

ChatGPT

玩虚拟模特？

四行代码让大模型上下文暴增3倍，羊驼Mistral都适用

AIGC动态欢迎阅读

内容摘要：

联系作者

余震强度预测能力升级，Nature 刊文认证基于神经网络的模型性能优于传统模型

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制​

相关文章

暂无评论

ChatGPT

玩虚拟模特？

多轮对话推理速度提升46%，开源方案打破LLM多轮对话的长度限制