标签:注意力

一文剖析GPT推断中的批处理(Batching)效应

来源:PaperWeekly作者:陈乐群学校:华盛顿大学博士生研究方向 :机器学习系统及分布式系统机器学习模型依赖于批处理(Batching)来提高推断吞吐量,尤其是...
阅读原文

将Transformer用于扩散模型,AI 生成视频达到照片级真实感

机器之心报道编辑:Panda在视频生成场景中,用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域...
阅读原文

​丢掉注意力的扩散模型:Mamba带火的SSM被苹果、康奈尔盯上了

机器之心报道机器之心编辑部替代注意力机制,SSM 真的大有可为?为了用更少的算力让扩散模型生成高分辨率图像,注意力机制可以不要,这是康奈尔大学和苹果的...
阅读原文

吞吐量提升近30倍!田渊栋团队最新论文解决大模型部署难题

新智元报道编辑:alan【新智元导读】大语言模型在实际部署中,存在内存和输入长度限制的问题。最近,田渊栋团队一举解决这两大难题,将推理系统的吞吐量提高...
阅读原文

新架构超越Transformer?由CMU和普林斯顿联合推出,实现五倍推理速度提升并全面优化性能

大数据文摘受权转载自头部科技作者丨CongerryTransformer被挑战了!2017年6月,8位谷歌研究人员共同发表了一篇神作《Attention is All You Need》。之所以称...
阅读原文

矩阵模拟!Transformer大模型3D可视化,GPT-3、Nano-GPT每一层清晰可见

新智元报道编辑:桃子 好困【新智元导读】Transformer大模型工作原理究竟是什么样的?一位软件工程师打开了大模型的矩阵世界。黑客帝国中,「矩阵模拟」的世...
阅读原文

历时8年终发Science,他证明老鼠有类人的想象力

来源:量子位关于大模型注意力机制,Meta又有了一项新研究。通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率进一步提升。而且这种机制不需...
阅读原文

更像人脑的新型注意力机制,Meta让大模型自动屏蔽任务无关信息,准确率提高27%

克雷西 发自 凹非寺量子位 | 公众号 QbitAI关于大模型注意力机制,Meta又有了一项新研究。通过调整模型注意力,屏蔽无关信息的干扰,新的机制让大模型准确率...
阅读原文

OpenAI调查ChatGPT错误率升高问题;零一万物上线Yi微调模型;Adobe收购AI视频创企丨AIGC大事日报

11/24全球AIGC产业要闻1、零一万物上线Yi-34B-Chat微调模型及量化版2、中科闻歌雅意大模型2.0将于12月15日发布3、优刻得智算平台“孔明”上线4、OpenAI就ChatGP...
阅读原文

Meta对Transformer架构下手了:新注意力机制更懂推理

机器之心报道编辑:杜伟、陈萍作者表示,这种全新注意力机制(Sytem 2 Attention)或许你也需要呢。大型语言模型(LLM)很强已经是一个不争的事实,但它们有...
阅读原文

全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

机器之心报道编辑:大盘鸡本文介绍了一项近似注意力机制新研究,耶鲁大学、谷歌研究院等机构提出了 HyperAttention,使 ChatGLM2 在 32k 上下文长度上的推理...
阅读原文

自注意力推理缺陷的奥秘,蚂蚁自研新一代Transformer或实现无损外推

机器之心专栏作者:蚂蚁人工智能团队随着大语言模型的快速发展,其长度外推能力(length extrapolating)正日益受到研究者的关注。尽管这在 Transformer 诞生...
阅读原文

GPU推理提速4倍,256K上下文全球最长:无问芯穹刷新大模型优化记录

机器之心报道机器之心编辑部想用大模型赚钱?这个实力强劲的新面孔决定先把推理成本打下来。大模型业务到底多烧钱?前段时间,华尔街日报的一则报道给出了参...
阅读原文

开源语言大模型演进史:高质量基础模型竞赛

本文是开源 LLM 发展史系列文章的第二部分。第一部分《》回顾了创建开源 LLM 的最初尝试。本文将研究目前可用的最受欢迎的开源基础模型(即已进行预训练但尚...
阅读原文

上下文学习=对比学习?人大揭示ICL推理背后的隐式更新机理:梯度更新了吗?「如更」

新智元报道编辑:LRS【新智元导读】人民大学最新研究,首次从「对比学习」的角度来理解上下文学习,或可提供自注意力机制的改进思路。近些年来,基于Transfor...
阅读原文
15678