梯度 - OpenI

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

阅读原文

AI教程

9个月前

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

使用教程

1年前 (2024)

专家模型不要专家并行！微软开源MoE新路径

新智元报道编辑：alan 【新智元导读】近日，来自微软的研究人员开源了使用全新方法训练的MoE大模型，不走寻常路，且编码和数学表现出色。继Phi家族之后，微软...

阅读原文

AIGC动态

1年前 (2024)

深入浅出Batch Size，对模型训练的影响分析

开讲预告11月7日晚7点，上海 AI Lab OpenGVLab 博士后研究员罗根，将以《Mono-InternVL: 突破原生多模态大模型性能瓶颈》为主题进行直播讲解，欢迎扫码报名~...

阅读原文

AIGC动态

1年前 (2024)

低内存占用也能实现满血训练？！北理北大港中文MMLab推出Fira训练框架

Fira团队投稿量子位 | 公众号 QbitAI内存占用小，训练表现也要好……大模型训练成功实现二者兼得。来自北理、北大和港中文MMLab的研究团队提出了一种满足低秩...

阅读原文

AIGC动态

1年前 (2024)

图解大模型训练之：数据并行上篇(DP, DDP与ZeRO)

GTIC 2024中国AI PC创新峰会将于10月11日，在2024上海国际消费电子展TechG同期举办。联想集团首席研究员颜毅强、荣耀终端有限公司PC产品研发系统部部长席迎军...

阅读原文

AIGC动态

1年前 (2024)

希望这篇是最清晰好懂的 Layernorm 原理解析

Hello，大家好，我是 JioNLP。这一篇文章主要讲讲 Layer Normalization。在本文里，Layer Normalization 统一都被称为 layernorm。字面意思就是层归一化，也...

阅读原文

AIGC动态

1年前 (2024)

大模型千卡训练总结

开讲预约导读文章转载自知乎，作者为你的真实姓名，本文只作者对知乎问题“如何判断候选人有没有千卡GPU集群的训练经验？”的回答和总结。原文地址：https://w...

阅读原文

AIGC动态

1年前 (2024)

30行代码，500万长文本推理提速8倍！「树注意力」让GPU越多省的越多

梦晨发自凹非寺量子位 | 公众号 QbitAI跨GPU的注意力并行，最高提速8倍，支持512万序列长度推理。环注意力（Ring Attention）后继者——树注意力（Tree Atte...

阅读原文

AIGC动态

1年前 (2024)

清华光学AI登Nature！物理神经网络，反向传播不需要了

一水发自凹非寺量子位 | 公众号 QbitAI用光训练神经网络，清华成果最新登上了Nature！无法应用反向传播算法怎么办？他们提出了一种全前向模式（Fully For...

阅读原文

AIGC动态

1年前 (2024)

清华研究登Nature，首创全前向智能光计算训练架构，戴琼海、方璐领衔

机器之心报道机器之心编辑部在刚刚过去的一天，来自清华的光电智能技术交叉创新团队突破智能光计算训练难题，相关论文登上 Nature。论文共同一作是来自清华...

阅读原文

AIGC动态

1年前 (2024)

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

只激活3.8B参数，性能比肩同款7B模型！训练微调都能用，来自微软

克雷西发自凹非寺量子位 | 公众号 QbitAI只需激活60%的参数，就能实现与全激活稠密模型相当的性能。微软亚洲研究院的一项新研究，实现了模型的完全稀疏激...

阅读原文

AIGC动态

1年前 (2024)

斯坦福提出大模型最强架构TTT，超越Transformers

夕小瑶科技说原创作者 | 谢年年在Transformer被提出以前，以LSTMs为代表的RNNs网络结构由于计算简单、擅长处理序列数据常被用作NLP领域的基础架构。但受其结...

阅读原文

AIGC动态

1年前 (2024)

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

梦晨发自凹非寺量子位 | 公众号 QbitAI新架构，再次向Transformer发起挑战！核心思想：将RNN中的隐藏状态换成可学习的模型。甚至在测试时都可以学习，所...

阅读原文

AIGC动态

1年前 (2024)

全新TextGrad框架：用GPT-4o作引擎，自动优化端到端任务

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

ICML 2024高分论文 | 零阶优化器微调大模型，大幅降低内存

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

1年前 (2024)

标签：梯度