标签:梯度

AI赚钱副业~AI生成影视解说,半个月涨粉变现3.5W+!

这两年大家都在感叹生活不易,然而我想说的是,机会还是有的,但问题不在于有没有,而在于你是否能够认准机会,然后抓住它。 接触过很多咨询项目的人,发现...

专家模型不要专家并行!微软开源MoE新路径

新智元报道编辑:alan 【新智元导读】近日,来自微软的研究人员开源了使用全新方法训练的MoE大模型,不走寻常路,且编码和数学表现出色。继Phi家族之后,微软...
阅读原文

深入浅出Batch Size,对模型训练的影响分析

开讲预告11月7日晚7点,上海 AI Lab OpenGVLab 博士后研究员罗根,将以《Mono-InternVL: 突破原生多模态大模型性能瓶颈》为主题进行直播讲解,欢迎扫码报名~...
阅读原文

低内存占用也能实现满血训练?!北理北大港中文MMLab推出Fira训练框架

Fira团队 投稿量子位 | 公众号 QbitAI内存占用小,训练表现也要好……大模型训练成功实现二者兼得。 来自北理、北大和港中文MMLab的研究团队提出了一种满足低秩...
阅读原文

图解大模型训练之:数据并行上篇(DP, DDP与ZeRO)

GTIC 2024中国AI PC创新峰会将于10月11日,在2024上海国际消费电子展TechG同期举办。联想集团首席研究员颜毅强、荣耀终端有限公司PC产品研发系统部部长席迎军...
阅读原文

希望这篇是最清晰好懂的 Layernorm 原理解析

Hello,大家好,我是 JioNLP。 这一篇文章主要讲讲 Layer Normalization。在本文里,Layer Normalization 统一都被称为 layernorm。字面意思就是层归一化,也...
阅读原文

大模型千卡训练总结

开讲预约导读文章转载自知乎,作者为你的真实姓名,本文只作者对知乎问题“如何判断候选人有没有千卡GPU集群的训练经验?”的回答和总结。 原文地址:https://w...
阅读原文

30行代码,500万长文本推理提速8倍!「树注意力」让GPU越多省的越多

梦晨 发自 凹非寺量子位 | 公众号 QbitAI跨GPU的注意力并行,最高提速8倍,支持512万序列长度推理。 环注意力(Ring Attention)后继者——树注意力(Tree Atte...
阅读原文

清华光学AI登Nature!物理神经网络,反向传播不需要了

一水 发自 凹非寺量子位 | 公众号 QbitAI用光训练神经网络,清华成果最新登上了Nature! 无法应用反向传播算法怎么办? 他们提出了一种全前向模式(Fully For...
阅读原文

清华研究登Nature,首创全前向智能光计算训练架构,戴琼海、方璐领衔

机器之心报道 机器之心编辑部在刚刚过去的一天,来自清华的光电智能技术交叉创新团队突破智能光计算训练难题,相关论文登上 Nature。 论文共同一作是来自清华...
阅读原文

可「自主进化」的Agent?首个端到端智能体符号化训练框架开源了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

只激活3.8B参数,性能比肩同款7B模型!训练微调都能用,来自微软

克雷西 发自 凹非寺量子位 | 公众号 QbitAI只需激活60%的参数,就能实现与全激活稠密模型相当的性能。 微软亚洲研究院的一项新研究,实现了模型的完全稀疏激...
阅读原文

斯坦福提出大模型最强架构TTT,超越Transformers

夕小瑶科技说 原创作者 | 谢年年在Transformer被提出以前,以LSTMs为代表的RNNs网络结构由于计算简单、擅长处理序列数据常被用作NLP领域的基础架构。但受其结...
阅读原文

新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型

梦晨 发自 凹非寺量子位 | 公众号 QbitAI新架构,再次向Transformer发起挑战! 核心思想:将RNN中的隐藏状态换成可学习的模型。 甚至在测试时都可以学习,所...
阅读原文

全新TextGrad框架:用GPT-4o作引擎,自动优化端到端任务

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

ICML 2024高分论文 | 零阶优化器微调大模型,大幅降低内存

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文
123