标签:上下文
把LLM视作操作系统,它就拥有了无限「虚拟」上下文,伯克利新作已揽1.7k star
机器之心报道编辑:杜伟、小舟当前,让大语言模型拥有更强的上下文处理能力是业界非常看重的热点主题之一。本文中,加州大学伯克利分校的研究者将 LLM 与操作...
「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练
机器之心报道编辑:Panda W在处理长上下文方面,LLaMA 一直力有不足,而通过持续预训练和其它一些方法改进,Meta 的这项研究成功让 LLM 具备了有效理解上下文...
别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升
机器之心报道机器之心编辑部处理小说、法律文件等长文本是大模型的一个重要应用方向,但也面临速度上的挑战。FlashAttention 作者 Tri Dao 等人提出的「Flash...
AI天才杨植麟交卷大模型产品,特点:长长长长长
衡宇 发自 凹非寺量子位 | 公众号 QbitAI千亿参数大模型,支持输入的长文本首次达20万字!在任何规模的大模型产品化队伍中,这个长度堪称目前的全球最长。用...
支持20万字输入,月之暗面杨植麟:千亿大模型进入“长文本”时代 | 甲子光年
一口气读完一本《三体》。作者|赵健在百模大战当下,谁会是中国的OpenAI?今年6月,科技媒体The Information盘点了中国AI初创企业Top5,分别为MiniMax、澜舟...
大模型开启「长」时代,杨植麟的新公司把对话框容量做到了世界第一
机器之心原创作者:张倩虽然我们不知道谁是下一个 OpenAI,但是似乎找到了另一个 Anthropic。最近,大模型创投领域又发生了一件大事:大模型初创公司 Anthrop...
全球首个支持输入20万字的大模型来了!一口气读几十个文档、一本20万字的小说
作者丨李扬霞编辑丨陈彩娴10月9日,由杨植麟创立的⽉之暗⾯,发布大模型产品——Moonshot AI,以及搭载该模型的智能助⼿Kimi Chat,是全球首个支持20万字输⼊⻓...
融资超2亿美元,月之暗面发布超长文本模型产品,目标C端Super-App
国内大模型最神秘的创业公司之一,月之暗面 Moonshot AI 终于发布了第一款模型和产品。这是一家有着很多光环的大模型创业公司,创始人杨植麟曾就职于 FAIR 和...
Hugging Face 大语言模型优化技术
作者 | Sergio De Simone 译者 | 明知山 策划 | 丁晓昀 大语言模型的生产部署存在两个主要的挑战,一个是需要大量的参数,一个是需要处理非常长的用于表示上...
将LLaMA2上下文扩展至100k,MIT、港中文有了LongLoRA方法
机器之心报道机器之心编辑部无需过多计算资源即可扩展大模型上下文长度。一般来说,大模型预训练时文本长度是固定的,如果想要支持更长文本,就需要对模型进...
西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」
新智元报道编辑:LRS【新智元导读】DALL·E 3让我们看到了生成+理解的大语言模型的魔力。就在其发布的同一天,国内的一个新工作引起了社区的关注:DreamLLM。D...
最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2
明敏 丰色 发自 凹非寺量子位 | 公众号 QbitAI悄无声息,羊驼家族“最强版”来了!与GPT-4持平,上下文长度达3.2万token的LLaMA 2 Long,正式登场。在性能上全...
大模型长上下文运行的关键问题
上下文长度的增加是 LLM 的一个显著发展趋势。过去一年,几种长上下文语言模型陆续问世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic...
Transformer的上下文学习能力是哪来的?
机器之心报道机器之心编辑部有理论基础,我们就可以进行深度优化了。为什么 transformer 性能这么好?它给众多大语言模型带来的上下文学习 (In-Context Learn...
突破大型语言模型输入字符限制的方法有了!
夕小瑶科技说 分享来源 | 机器之心我们知道在使用 GPT 和 LLaMA 等大型语言模型时,输入的 prompt 存在字符数限制,比如 ChatGPT 目前的输入字符限制是 4096 ...