标签:上下文

面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了

机器之心报道 编辑:rome rome作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力的进展。 ChatGPT 的诞生,...
阅读原文

Mamba可以替代Transformer,但它们也能组合起来使用

机器之心报道 编辑:Panda W1+1>2。Transformer 很厉害,但并不完美,尤其是在处理长序列方面。而状态空间模型(SSM)则在长序列上的表现相当不俗。早在去年...
阅读原文

人大高瓴提出“注意力波”方法,70 亿参数 Llama 比肩 GPT-4

夕小瑶科技说 原创作者 | 智商掉了一地、python最近,随着大型语言模型(LLM)在人机交互、多模态任务和语言应用等领域的广泛应用,研究者们纷纷致力于提升这...
阅读原文

夸张!EMNLP投稿近5000篇,奖项出炉:北大、腾讯摘最佳长论文

机器之心报道机器之心编辑部本届 EMNLP 大会在投稿人数上创了新高,整体接收率也较上届略有提升。EMNLP 是自然语言处理领域的顶级会议之一,EMNLP 2023 于 12...
阅读原文

中国团队再获EMNLP最佳长论文!北大微信AI联合揭秘大模型上下文学习机制

白交 发自 凹非寺量子位 | 公众号 QbitAIEMNLP顶会落下帷幕,各种奖项悉数颁出。最佳长论文奖被北大微信AI团队收入囊中,由北大孙栩老师和微信周杰、孟凡东合...
阅读原文

一句话解锁100k+上下文大模型真实力,27分涨到98,GPT-4、Claude2.1适用

梦晨 发自 凹非寺量子位 | 公众号 QbitAI各家大模型纷纷卷起上下文窗口,Llama-1时标配还是2k,现在不超过100k的已经不好意思出门了。然鹅一项极限测试却发现...
阅读原文

AI变鉴片大师,星际穿越都能看懂!贾佳亚团队新作,多模态大模型挑战超长3小时视频

丰色 明敏 发自 凹非寺量子位 | 公众号 QbitAI啥?AI都能自己看电影大片了?贾佳亚团队最新研究成果,让大模型直接学会了处理超长视频。丢给它一部科幻大片《...
阅读原文

RAG+GPT-4 Turbo让模型性能飙升!更长上下文不是终局,「大海捞针」实验成本仅4%

新智元报道编辑:桃子【新智元导读】RAG或许就是大模型能力飙升下一个未来。RAG+GPT-4,4%的成本,便可拥有卓越的性能。这是最新的「大海捞针」实验得出的结...
阅读原文

任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2

机器之心报道编辑:杜伟、大盘鸡研究者表示,CoDi-2 标志着在开发全面的多模态基础模型领域取得了重大突破。今年 5 月,北卡罗来纳大学教堂山分校、微软提出...
阅读原文

一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉

新智元报道编辑:alan【新智元导读】大语言模型「拍马屁」的问题到底要怎么解决?最近,LeCun转发了Meta发布的一篇论文,研究人员提出了新的方法,有效提升了...
阅读原文

小模型如何进行上下文学习?字节跳动 & 华东师大联合提出自进化文本识别器

机器之心专栏机器之心编辑部我们都知道,大语言模型(LLM)能够以一种无需模型微调的方式从少量示例中学习,这种方式被称为「上下文学习」(In-context Learn...
阅读原文

最新Claude 200K严重「虚标」?大神壕掷1016美元实测,90K后性能急剧下降

新智元报道编辑:润 好困【新智元导读】月初刚测了GPT-4 Turbo上下文真实实力的大神Greg Kamradt又盯上了Anthropic刚更新的Claude 2.1。他自己花了1016刀测完...
阅读原文

Meta对Transformer架构下手了:新注意力机制更懂推理

机器之心报道编辑:杜伟、陈萍作者表示,这种全新注意力机制(Sytem 2 Attention)或许你也需要呢。大型语言模型(LLM)很强已经是一个不争的事实,但它们有...
阅读原文

新王加冕,GPT-4V 屠榜视觉问答

夕小瑶科技说 原创作者 | 智商掉了一地、Python当前,多模态大型模型(Multi-modal Large Language Model, MLLM)在视觉问答(VQA)领域展现了卓越的能力。然...
阅读原文

ChatGPT最强竞对更新!上下文长度翻倍,API降价近30%

克雷西 发自 凹非寺量子位 | 公众号 QbitAIOpenAI开发者大会后不久,它的最强竞对Claude也宣布推出了重磅更新。更新后的Claude 2.1,上下文长度直接翻番到20...
阅读原文
191011121315