标签:注意力
PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍
丰色 发自 凹非寺量子位 | 公众号 QbitAI这两天,FlashAttention团队推出了新作:一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。该方法尤其...
别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升
机器之心报道机器之心编辑部处理小说、法律文件等长文本是大模型的一个重要应用方向,但也面临速度上的挑战。FlashAttention 作者 Tri Dao 等人提出的「Flash...
“最强7B模型”论文发布,揭秘如何超越13B版Llama 2
克雷西 发自 凹非寺量子位 | 公众号 QbitAI来自“欧洲OpenAI”的“最强7B开源模型”Mistral最近可谓是圈粉无数。它各方面的测试指标全面超越了13B的Llama2,甚至...
最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星
机器之心报道编辑:蛋酱如果你体验过与任何一款对话式 AI 机器人的交流,你一定能想起某些极具「挫败感」的时刻。比如,你在前一天的对话中讲述过的要点,被 ...
400万token,大模型推理飙升22倍!清华校友爆火一作,GitHub狂揽1.8k星
新智元报道编辑:润【新智元导读】大模型上下文限制不是事儿?大语言模型的上下文长度限制从此不存在了?!Meta、MIT、CMU的研究者最近刚刚发表了一篇论文,...
以3D视角洞悉矩阵乘法,这就是AI思考的样子
选自PyTorch机器之心编译如果能以 3D 方式展示矩阵乘法的执行过程,当年学习矩阵乘法时也就不会那么吃力了。现如今,矩阵乘法已经成为机器学习模型的构建模块...
贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜
克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要两行代码+11个小时微调,就能把大模型4k的窗口长度提高到32k。规模上,最长可以扩展到10万token,一口气就能读...
一文捋清大模型可解释性,中美多家研究机构联合发布综述
夕小瑶科技说 分享来源 | 机器之心大规模语言模型在自然语言处理方面展现出令人惊讶的推理能力,但其内在机理尚不清晰。随着大规模语言模型的广泛应用,阐明...
大模型可解释性你能理得清吗?综述已来,一文解你疑惑
机器之心专栏机器之心编辑部大规模语言模型在自然语言处理方面展现出令人惊讶的推理能力,但其内在机理尚不清晰。随着大规模语言模型的广泛应用,阐明模型的...
6.7k Star量的vLLM出论文了,让每个人都能轻松快速低成本地部署LLM服务
机器之心专栏编辑:Panda利用操作系统的虚拟内存管理方法来提升LLM推理吞吐量。今年六月,来自加州大学伯克利分校等机构的一个研究团队开源了(目前已有 6700...
大模型长上下文运行的关键问题
上下文长度的增加是 LLM 的一个显著发展趋势。过去一年,几种长上下文语言模型陆续问世,包括 GPT-4(32k上下文)、MosaicML 的 MPT(65k上下文)、Anthropic...
视觉Transformer中ReLU替代softmax,DeepMind新招让成本速降
机器之心报道编辑:PandaDeepmind 出新招,ReLU 尽展优势。Transformer 架构已经在现代机器学习领域得到了广泛的应用。注意力是 transformer 的一大核心组件...