标签:长上

Meta无限长文本大模型来了:参数仅7B,已开源

机器之心报道 编辑:泽南、陈萍谷歌之后,Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意...
阅读原文

Transformer并非万能:Jamba在效率和吞吐量上大幅超越

点击上方蓝字关注我们“AI21 Labs推出Jamba,一种结合SSM与transformers的新AI模型,旨在提高处理长上下文的效率。Jamba在特定推理任务上超越传统模型,尽管在...
阅读原文

Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量

机器之心报道 编辑:小舟Mamba 时代来了? 自 2017 年开创性研究论文《Attention is All You Need》问世以来,transformer 架构就一直主导着生成式人工智能领...
阅读原文

马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文

机器之心报道 编辑:泽南马斯克搞大模型,速度也奇快。 Grok 1 开源才刚有 10 天,Grok 1.5 就来了。本周五早上,马斯克旗下的人工智能公司 xAI 正式推出了 G...
阅读原文

Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文

新智元报道编辑:编辑部 【新智元导读】52B的生产级Mamba大模型来了!这个超强变体Jamba刚刚打破世界纪录,它能正面硬刚Transformer,256K超长上下文窗口,吞...
阅读原文

LLM代理操作系统

点击上方蓝字关注我们“Rutgers University的研究团队提出了AIOS,一种创新的大型语言模型(LLM)代理操作系统,旨在解决智能代理在资源调度、上下文维护和异...
阅读原文

今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练

夕小瑶科技说 原创作者 | 芒果 引言:大语言模型的长上下文理解能力在当今的人工智能领域,大语言模型(Large Language Models,简称LLMs)的长上下文理解能...
阅读原文

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

机器之心报道 机器之心编辑部RAG 还有存在的必要吗?要说最近最郁闷的公司,谷歌肯定算得上一个:自家的 Gemini 1.5 刚刚发布,就被 OpenAI 的 Sora 抢尽了风...
阅读原文

符尧大佬一作发文,仅改训练数据,就让LLaMa-2上下文长度扩展20倍!

夕小瑶科技说 原创作者 | Tscom、Python引言:探索语言模型的长上下文能力近日,谷歌推出了Gemini Pro 1.5,将上下文窗口长度扩展到100万个tokens,目前领先...
阅读原文

港中文联合MIT提出超长上下文LongLoRA大模型微调算法

大数据文摘受权转载自将门创投 现阶段,上下文窗口长度基本上成为了评估LLM能力的硬性指标,上下文的长度越长,代表大模型能够接受的用户要求越复杂,近期Ope...
阅读原文

今日arXiv最热NLP大模型论文:清华提出LongAlign,打破长上下文对齐瓶颈,数据、训练策略、评估基准一网打尽

夕小瑶科技说 原创编辑 | 谢年年随着LLMs的发展,其支持的上下文长度越来越长。仅一年时间,GPT-4就从一开始的4K、8K拓展到了128k。 128k什么概念?相当于一...
阅读原文

面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了

机器之心报道 编辑:rome rome作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。 ChatGPT 的诞生,...
阅读原文

PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍

丰色 发自 凹非寺量子位 | 公众号 QbitAI这两天,FlashAttention团队推出了新作:一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。该方法尤其...
阅读原文

「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练

机器之心报道编辑:Panda W在处理长上下文方面,LLaMA 一直力有不足,而通过持续预训练和其它一些方法改进,Meta 的这项研究成功让 LLM 具备了有效理解上下文...
阅读原文

Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT

新智元报道编辑:LRS【新智元导读】Llama 2-Long计算量需求比重新训练降低40%,还不影响短任务性能!虽然大型语言模型在处理日常问答、总结文本等任务上表现...
阅读原文
123