标签:梯度

30行代码,500万长文本推理提速8倍!「树注意力」让GPU越多省的越多

梦晨 发自 凹非寺量子位 | 公众号 QbitAI跨GPU的注意力并行,最高提速8倍,支持512万序列长度推理。 环注意力(Ring Attention)后继者——树注意力(Tree Atte...
阅读原文

清华光学AI登Nature!物理神经网络,反向传播不需要了

一水 发自 凹非寺量子位 | 公众号 QbitAI用光训练神经网络,清华成果最新登上了Nature! 无法应用反向传播算法怎么办? 他们提出了一种全前向模式(Fully For...
阅读原文

清华研究登Nature,首创全前向智能光计算训练架构,戴琼海、方璐领衔

机器之心报道 机器之心编辑部在刚刚过去的一天,来自清华的光电智能技术交叉创新团队突破智能光计算训练难题,相关论文登上 Nature。 论文共同一作是来自清华...
阅读原文

可「自主进化」的Agent?首个端到端智能体符号化训练框架开源了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

克雷西 发自 凹非寺量子位 | 公众号 QbitAI只需激活60%的参数,就能实现与全激活稠密模型相当的性能。 微软亚洲研究院的一项新研究,实现了模型的完全稀疏激...
阅读原文

斯坦福提出大模型最强架构TTT,超越Transformers

夕小瑶科技说 原创作者 | 谢年年在Transformer被提出以前,以LSTMs为代表的RNNs网络结构由于计算简单、擅长处理序列数据常被用作NLP领域的基础架构。但受其结...
阅读原文

新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型

梦晨 发自 凹非寺量子位 | 公众号 QbitAI新架构,再次向Transformer发起挑战! 核心思想:将RNN中的隐藏状态换成可学习的模型。 甚至在测试时都可以学习,所...
阅读原文

全新TextGrad框架:用GPT-4o作引擎,自动优化端到端任务

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

机器之心报道 编辑:杜伟这是Karpathy「Neural Networks:zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达...
阅读原文

ICLR 2024 Oral|用巧妙的「传送」技巧,让神经网络的训练更加高效

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎

新智元报道编辑:LRS 【新智元导读】PhysDreamer利用材质点法(MPM)对物体的各个物理属性进行估计,实现了逼真的交互式响应结果,在视频生成领域向更真实的...
阅读原文

Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式

丰色 发自 凹非寺量子位 | 公众号 QbitAI纵观生成式AI领域中的两个主导者:自回归和扩散模型。 一个专攻文本等离散数据,一个长于图像等连续数据。 如果,我...
阅读原文

从啥也不会到DeepSpeed————一篇大模型分布式训练的学习过程总结

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,爱诗科技创始人王长虎,启明创投合伙人周志峰,Open-Sora开发团队潞晨科技创始人尤洋,「...
阅读原文

今日arXiv最热大模型论文:超越LoRA,北京大学提出预训练模型非梯度优化法

夕小瑶科技说 原创编辑 | 松果 引言:探索大型语言模型中低秩适应的新方法在自然语言处理领域,大语言模型(LLMs)的迅猛发展带来了前所未有的性能提升。然而...
阅读原文
123