标签:注意力
吞吐量提升近30倍!田渊栋团队最新论文解决大模型部署难题
新智元报道编辑:alan【新智元导读】大语言模型在实际部署中,存在内存和输入长度限制的问题。最近,田渊栋团队一举解决这两大难题,将推理系统的吞吐量提高...
新架构超越Transformer?由CMU和普林斯顿联合推出,实现五倍推理速度提升并全面优化性能
大数据文摘受权转载自头部科技作者丨CongerryTransformer被挑战了!2017年6月,8位谷歌研究人员共同发表了一篇神作《Attention is All You Need》。之所以称...
矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见
新智元报道编辑:桃子 好困【新智元导读】Transformer大模型工作原理究竟是什么样的?一位软件工程师打开了大模型的矩阵世界。黑客帝国中,「矩阵模拟」的世...
历时8年终发Science,他证明老鼠有类人的想象力
来源:量子位关于大模型注意力机制,Meta又有了一项新研究。通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率进一步提升。而且这种机制不需...
更像人脑的新型注意力机制,Meta让大模型自动屏蔽任务无关信息,准确率提高27%
克雷西 发自 凹非寺量子位 | 公众号 QbitAI关于大模型注意力机制,Meta又有了一项新研究。通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率...
OpenAI调查ChatGPT错误率升高问题;零一万物上线Yi微调模型;Adobe收购印度AI视频创企丨AIGC大事日报
11/24全球AIGC产业要闻1、零一万物上线Yi-34B-Chat微调模型及量化版2、中科闻歌雅意大模型2.0将于12月15日发布3、优刻得智算平台“孔明”上线4、OpenAI就ChatGP...
Meta对Transformer架构下手了:新注意力机制更懂推理
机器之心报道编辑:杜伟、陈萍作者表示,这种全新注意力机制(Sytem 2 Attention)或许你也需要呢。大型语言模型(LLM)很强已经是一个不争的事实,但它们有...
全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%
机器之心报道编辑:大盘鸡本文介绍了一项近似注意力机制新研究,耶鲁大学、谷歌研究院等机构提出了 HyperAttention,使 ChatGLM2 在 32k 上下文长度上的推理...
破解自注意力推理缺陷的奥秘,蚂蚁自研新一代Transformer或实现无损外推
机器之心专栏作者:蚂蚁人工智能团队随着大语言模型的快速发展,其长度外推能力(length extrapolating)正日益受到研究者的关注。尽管这在 Transformer 诞生...
GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录
机器之心报道机器之心编辑部想用大模型赚钱?这个实力强劲的新面孔决定先把推理成本打下来。大模型业务到底多烧钱?前段时间,华尔街日报的一则报道给出了参...
开源语言大模型演进史:高质量基础模型竞赛
本文是开源 LLM 发展史系列文章的第二部分。第一部分《》回顾了创建开源 LLM 的最初尝试。本文将研究目前可用的最受欢迎的开源基础模型(即已进行预训练但尚...
上下文学习=对比学习?人大揭示ICL推理背后的隐式更新机理:梯度更新了吗?「如更」
新智元报道编辑:LRS【新智元导读】人民大学最新研究,首次从「对比学习」的角度来理解上下文学习,或可提供自注意力机制的改进思路。近些年来,基于Transfor...
PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍
丰色 发自 凹非寺量子位 | 公众号 QbitAI这两天,FlashAttention团队推出了新作:一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。该方法尤其...
别再「浪费」GPU了,FlashAttention重磅升级,实现长文本推理速度8倍提升
机器之心报道机器之心编辑部处理小说、法律文件等长文本是大模型的一个重要应用方向,但也面临速度上的挑战。FlashAttention 作者 Tri Dao 等人提出的「Flash...
“最强7B模型”论文发布,揭秘如何超越13B版Llama 2
克雷西 发自 凹非寺量子位 | 公众号 QbitAI来自“欧洲OpenAI”的“最强7B开源模型”Mistral最近可谓是圈粉无数。它各方面的测试指标全面超越了13B的Llama2,甚至...