标签：注意力

一文剖析GPT推断中的批处理（Batching）效应

来源：PaperWeekly作者：陈乐群学校：华盛顿大学博士生研究方向：机器学习系统及分布式系统机器学习模型依赖于批处理（Batching）来提高推断吞吐量，尤其是...

阅读原文

AIGC动态

2年前 (2023)

将Transformer用于扩散模型，AI 生成视频达到照片级真实感

机器之心报道编辑：Panda在视频生成场景中，用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域...

阅读原文

AIGC动态

2年前 (2023)

丢掉注意力的扩散模型：Mamba带火的SSM被苹果、康奈尔盯上了

机器之心报道机器之心编辑部替代注意力机制，SSM 真的大有可为？为了用更少的算力让扩散模型生成高分辨率图像，注意力机制可以不要，这是康奈尔大学和苹果的...

阅读原文

AIGC动态

2年前 (2023)

吞吐量提升近30倍！田渊栋团队最新论文解决大模型部署难题

新智元报道编辑：alan【新智元导读】大语言模型在实际部署中，存在内存和输入长度限制的问题。最近，田渊栋团队一举解决这两大难题，将推理系统的吞吐量提高...

阅读原文

AIGC动态

2年前 (2023)

新架构超越Transformer？由CMU和普林斯顿联合推出，实现五倍推理速度提升并全面优化性能

大数据文摘受权转载自头部科技作者丨CongerryTransformer被挑战了！2017年6月，8位谷歌研究人员共同发表了一篇神作《Attention is All You Need》。之所以称...

阅读原文

AIGC动态

2年前 (2023)

矩阵模拟！Transformer大模型3D可视化，GPT-3、Nano-GPT每一层清晰可见

新智元报道编辑：桃子好困【新智元导读】Transformer大模型工作原理究竟是什么样的？一位软件工程师打开了大模型的矩阵世界。黑客帝国中，「矩阵模拟」的世...

阅读原文

AIGC动态

2年前 (2023)

历时8年终发Science，他证明老鼠有类人的想象力

来源：量子位关于大模型注意力机制，Meta又有了一项新研究。通过调整模型注意力，屏蔽无关信息的干扰，新的机制让大模型准确率进一步提升。而且这种机制不需...

阅读原文

AIGC动态

2年前 (2023)

更像人脑的新型注意力机制，Meta让大模型自动屏蔽任务无关信息，准确率提高27%

克雷西发自凹非寺量子位 | 公众号 QbitAI关于大模型注意力机制，Meta又有了一项新研究。通过调整模型注意力，屏蔽无关信息的干扰，新的机制让大模型准确率...

阅读原文

AIGC动态

2年前 (2023)

OpenAI调查ChatGPT错误率升高问题；零一万物上线Yi微调模型；Adobe收购印度AI视频创企丨AIGC大事日报

11/24全球AIGC产业要闻1、零一万物上线Yi-34B-Chat微调模型及量化版2、中科闻歌雅意大模型2.0将于12月15日发布3、优刻得智算平台“孔明”上线4、OpenAI就ChatGP...

阅读原文

AIGC动态

2年前 (2023)

Meta对Transformer架构下手了：新注意力机制更懂推理

机器之心报道编辑：杜伟、陈萍作者表示，这种全新注意力机制（Sytem 2 Attention）或许你也需要呢。大型语言模型（LLM）很强已经是一个不争的事实，但它们有...

阅读原文

AIGC动态

2年前 (2023)

全新近似注意力机制HyperAttention：对长上下文友好、LLM推理提速50%

机器之心报道编辑：大盘鸡本文介绍了一项近似注意力机制新研究，耶鲁大学、谷歌研究院等机构提出了 HyperAttention，使 ChatGLM2 在 32k 上下文长度上的推理...

阅读原文

AIGC动态

2年前 (2023)

自注意力推理缺陷的奥秘，蚂蚁自研新一代Transformer或实现无损外推

机器之心专栏作者：蚂蚁人工智能团队随着大语言模型的快速发展，其长度外推能力（length extrapolating）正日益受到研究者的关注。尽管这在 Transformer 诞生...

阅读原文

AIGC动态

2年前 (2023)

GPU推理提速4倍，256K上下文全球最长：无问芯穹刷新大模型优化记录

机器之心报道机器之心编辑部想用大模型赚钱？这个实力强劲的新面孔决定先把推理成本打下来。大模型业务到底多烧钱？前段时间，华尔街日报的一则报道给出了参...

阅读原文

AIGC动态

2年前 (2023)

开源语言大模型演进史：高质量基础模型竞赛

本文是开源 LLM 发展史系列文章的第二部分。第一部分《》回顾了创建开源 LLM 的最初尝试。本文将研究目前可用的最受欢迎的开源基础模型（即已进行预训练但尚...

阅读原文

AIGC动态

2年前 (2023)

上下文学习=对比学习？人大揭示ICL推理背后的隐式更新机理：梯度更新了吗？「如更」

新智元报道编辑：LRS【新智元导读】人民大学最新研究，首次从「对比学习」的角度来理解上下文学习，或可提供自注意力机制的改进思路。近些年来，基于Transfor...

阅读原文

AIGC动态

2年前 (2023)

1…5 678