标签:下文

Jamba 1.5发布,最长上下文,非Transformer架构首次成功领先

昨天,号称当前最强、最高效的长上下文模型——Jamba 1.5 系列发布。 Jamba 是第一个基于 Mamba 架构的生产级模型。Mamba 是由卡内基梅隆大学和普林斯顿大学的...
阅读原文

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

机器之心报道 编辑:杜伟、陈陈现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型...
阅读原文

NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4

夕小瑶科技说 原创作者 | Richard在 Llama-3.1 模型发布之前,开源模型与闭源模型的性能之间一直存在较大的差距,尤其是在长上下文理解能力上。 大模型的上下...
阅读原文

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

作者 | 赵明华 近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。 图 1 所有序列建模层都可以表示...
阅读原文

单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速

机器之心报道 编辑:张倩、陈萍微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。大型语言模型 (LLM) 已进入长上下文处理时代...
阅读原文

强强联合!当RAG遇到长上下文,滑铁卢大学发布LongRAG,效果领先GPT-4 Turbo 50%

夕小瑶科技说 原创作者 | Axe_越过犹不及——《论语·先进》 大学考试时,有些老师允许带备cheet sheet(忘纸条),上面记着关键公式和定义,帮助我们快速作答提高...
阅读原文

谷歌重磅:告别RAG,长上下文的大语言模型无需检索增强

夕小瑶科技说 原创作者 | Richard当今人工智能领域正在经历一场静默的革命。随着大语言模型(LLM)的快速发展,它们不仅能够处理更长的上下文,还展现出惊人的...
阅读原文

速度秒杀GPT-4o!Mistral开源首个22B代码模型破记录,支持80+编程语言

新智元报道编辑:乔杨 好困 【新智元导读】就在刚刚,法国AI初创公司Mistral发布了自家首款代码生成模型Codestral。不仅支持32K长上下文窗口以及80多种编程语...
阅读原文

马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文

机器之心报道 编辑:泽南马斯克搞大模型,速度也奇快。 Grok 1 开源才刚有 10 天,Grok 1.5 就来了。本周五早上,马斯克旗下的人工智能公司 xAI 正式推出了 G...
阅读原文

今日Arxiv最热NLP大模型论文:Llama-2上下文扩大48倍的方法来了,港大发布,无需训练

夕小瑶科技说 原创作者 | 芒果 引言:大语言模型的长上下文理解能力在当今的人工智能领域,大语言模型(Large Language Models,简称LLMs)的长上下文理解能...
阅读原文

谷歌10M上下文窗口正在杀死RAG?被Sora夺走风头的Gemini被低估了?

机器之心报道 机器之心编辑部RAG 还有存在的必要吗?要说最近最郁闷的公司,谷歌肯定算得上一个:自家的 Gemini 1.5 刚刚发布,就被 OpenAI 的 Sora 抢尽了风...
阅读原文

符尧大佬一作发文,仅改训练数据,就让LLaMa-2上下文长度扩展20倍!

夕小瑶科技说 原创作者 | Tscom、Python引言:探索语言模型的长上下文能力近日,谷歌推出了Gemini Pro 1.5,将上下文窗口长度扩展到100万个tokens,目前领先...
阅读原文

面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了

机器之心报道 编辑:rome rome作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。 ChatGPT 的诞生,...
阅读原文

把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star

机器之心报道编辑:杜伟、小舟当前,让大语言模型拥有更强的上下文处理能力是业界非常看重的热点主题之一。本文中,加州大学伯克利分校的研究者将 LLM 与操作...
阅读原文

「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练

机器之心报道编辑:Panda W在处理长上下文方面,LLaMA 一直力有不足,而通过持续预训练和其它一些方法改进,Meta 的这项研究成功让 LLM 具备了有效理解上下文...
阅读原文
12