标签:长上

Jamba 1.5发布,最长上下文,非Transformer架构首次成功领先

昨天,号称当前最强、最高效的长上下文模型——Jamba 1.5 系列发布。 Jamba 是第一个基于 Mamba 架构的生产级模型。Mamba 是由卡内基梅隆大学和普林斯顿大学的...
阅读原文

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

机器之心报道 编辑:杜伟、陈陈现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。现阶段,将模型...
阅读原文

无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成

LooGLE团队 投稿自 凹非寺量子位 | 公众号 QbitAI在长文本理解能力这块,竟然没有一个大模型及格! 北大联合北京通用人工智能研究院提出了一个新基准数据集:...
阅读原文

NVIDIA把Llama-3的上下文长度扩展16倍,长上下文理解能力超越GPT-4

夕小瑶科技说 原创作者 | Richard在 Llama-3.1 模型发布之前,开源模型与闭源模型的性能之间一直存在较大的差距,尤其是在长上下文理解能力上。 大模型的上下...
阅读原文

7B最强长视频模型! LongVA视频理解超千帧,霸榜多个榜单

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路

机器之心报道 编辑:张倩长上下文大模型帮助机器人理解世界。最近,谷歌 DeepMind 突然开始炫起了机器人。这个机器人可以轻松听从人类指令、进行视觉导览,用...
阅读原文

超越 Transformer 与 Mamba,Meta 联合斯坦福等高校推出最强架构 TTT

作者 | 赵明华 近日,斯坦福、UCSD、UC 伯克利和 Meta 的研究人员提出了一种全新架构,用机器学习模型取代 RNN 的隐藏状态。 图 1 所有序列建模层都可以表示...
阅读原文

单卡A100实现百万token推理,速度快10倍,这是微软官方的大模型推理加速

机器之心报道 编辑:张倩、陈萍微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。大型语言模型 (LLM) 已进入长上下文处理时代...
阅读原文

强强联合!当RAG遇到长上下文,滑铁卢大学发布LongRAG,效果领先GPT-4 Turbo 50%

夕小瑶科技说 原创作者 | Axe_越过犹不及——《论语·先进》 大学考试时,有些老师允许带备cheet sheet(忘纸条),上面记着关键公式和定义,帮助我们快速作答提高...
阅读原文

谷歌重磅:告别RAG,长上下文的大语言模型无需检索增强

夕小瑶科技说 原创作者 | Richard当今人工智能领域正在经历一场静默的革命。随着大语言模型(LLM)的快速发展,它们不仅能够处理更长的上下文,还展现出惊人的...
阅读原文

一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实

刘子煜 投稿量子位 | 公众号 QbitAI大模型对话能更接近现实了! 不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。 这就是最...
阅读原文

英伟达新研究:上下文长度虚标严重,32K性能合格的都不多

西风 发自 凹非寺量子位 | 公众号 QbitAI无情戳穿“长上下文”大模型的虚标现象—— 英伟达新研究发现,包括GPT-4在内的10个大模型,生成达到128k甚至1M上下文长...
阅读原文

速度秒杀GPT-4o!Mistral开源首个22B代码模型破记录,支持80+编程语言

新智元报道编辑:乔杨 好困 【新智元导读】就在刚刚,法国AI初创公司Mistral发布了自家首款代码生成模型Codestral。不仅支持32K长上下文窗口以及80多种编程语...
阅读原文

拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」

新智元报道编辑:alan 【新智元导读】近日,西交微软北大联合提出信息密集型训练大法,使用纯数据驱动的方式,矫正LLM训练过程产生的偏见,在一定程度上治疗...
阅读原文

谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍

机器之心报道 编辑:泽南谷歌表示,Gemini 1.5 相比 Claude 3.0和 GPT-4 Turbo 实现了代际提升。 今年 2 月,谷歌上线了多模态大模型 Gemini1.5,通过工程和...
阅读原文
123