标签:上下文

谷歌Gemini时代来了!加固搜索护城河、赋能全家桶,Gemini 1.5 Pro升级至200万token

作者:李宝珠 & 十九 编辑:三羊 谷歌的对手可能并非 OpenAI,而是 OpenAI 背后的微软。3 月中旬,谷歌宣布 Google I/O 定档北京时间 5 月 15 日凌晨 1 ...
阅读原文

牛皮吹破?大模型长输入能力不能拿来做上下文学习

夕小瑶科技说 原创作者 | 谢年年LLMs已经进入了长序列时代。众多的LLMs已经发布支持从32K到2M tokens的长序列窗口。 不过,面对如此庞大的输入,我们不禁要问...
阅读原文

30%参数达到92%的表现,大模型稀疏化方法显神通

夕小瑶科技说 原创作者 | Axe_越当我还是一位懵懂少年的时候,总认为“任务难度”,“参数规模”和“准确率”是一个不可兼顾的三角,比如当我想要挑战更难的任务,...
阅读原文

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

梦晨 发自 凹非寺量子位 | 公众号 QbitAI堂堂开源之王Llama 3,原版上下文窗口居然只有……8k,让到嘴边的一句“真香”又咽回去了。‍ 在32k起步,100k寻常的今天...
阅读原文

LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍

新智元报道编辑:LRS 【新智元导读】LongRoPE方法首次将LLM的窗口扩展到了2048k个token,只是简单微调的情况下,就能实现与短上下文窗口相近的性能!大型语言...
阅读原文

北大发现了一种特殊类型的注意力头!

夕小瑶科技说 原创作者 | 任同学检索头的发现或许将有力地帮助大模型领域在提高长上下文推理能力、减少幻觉和压缩KV缓存方面的研究。 从 Claude100K 到 Gemin...
阅读原文

我处理了 5 亿 GPT tokens 后:langchain、RAG 等都没什么用

作者 | KEN KANTZER 译者 | 平川 策划 | 褚杏娟 本文最初发布于 KEN KANTZER 的个人博客。 在过去的六个月里,我的创业公司 Truss(gettruss.io)发布了多项...
阅读原文

5亿个token之后,我们得出关于GPT的七条宝贵经验

机器之心报道 机器之心编辑部ChatGPT 正确的使用姿势。 自 ChatGPT 问世以来,OpenAI 一直被认为是全球生成式大模型的领导者。2023 年 3 月,OpenAI 官方宣布...
阅读原文

LongRoPE:超越极限,将大模型上下文窗口扩展超过200万tokens

大数据文摘受权转载自微软亚洲研究院 编者按:大模型的飞速发展给人们的生活带来了前所未有的便利。我们是否能够设想利用大模型的潜力,快速扫描整部百科全书...
阅读原文

Meta无限长文本大模型来了:参数仅7B,已开源

机器之心报道 编辑:泽南、陈萍谷歌之后,Meta 也来卷无限长上下文。Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意...
阅读原文

革命新架构掀翻Transformer!无限上下文处理,2万亿token碾压Llama 2

新智元报道编辑:桃子 好困 【新智元导读】Transformer王座即将被取而代之!Meta、USC、CMU和UCSD联合提出了革命性新架构Megalodon,能够处理无限上下文,在2...
阅读原文

iPhone上最强官方模型出现!性能超越GPT-4,苹果Siri有救啦?

4月18-19日,由智猩猩与智东西共同主办的2024中国生成式AI大会将在北京JW万豪酒店举行。大会完整议程出炉,55位嘉宾出席!免费票申请通道即将关闭,大会通票...
阅读原文

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

机器之心报道 编辑:小舟、陈萍不知 Gemini 1.5 Pro 是否用到了这项技术。 谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。 Infini-Trans...
阅读原文

刚刚,Mistral AI最新磁力链放出!8x22B MoE模型,281GB解禁

新智元报道编辑:编辑部 【新智元导读】初创团队Mistral AI再次放出一条磁力链,281GB文件解禁了最新的8x22B MoE模型。一条磁力链,Mistral AI又来闷声不响搞...
阅读原文

全面突围,谷歌昨晚更新了一大波大模型产品

机器之心报道 机器之心编辑部这次,谷歌要凭「量」打败其他竞争对手。 当地时间本周二,谷歌在 Google’s Cloud Next 2024 上发布了一系列 AI 相关的模型更新...
阅读原文
14567815