标签:梯度
Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定
机器之心报道 编辑:杜伟这是Karpathy「Neural Networks:zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达...
ICLR 2024 Oral|用巧妙的「传送」技巧,让神经网络的训练更加高效
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
硬核解决Sora的物理bug!美国四所顶尖高校联合发布:给视频生成器装个物理引擎
新智元报道编辑:LRS 【新智元导读】PhysDreamer利用材质点法(MPM)对物体的各个物理属性进行估计,实现了逼真的交互式响应结果,在视频生成领域向更真实的...
Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式
丰色 发自 凹非寺量子位 | 公众号 QbitAI纵观生成式AI领域中的两个主导者:自回归和扩散模型。 一个专攻文本等离散数据,一个长于图像等连续数据。 如果,我...
从啥也不会到DeepSpeed————一篇大模型分布式训练的学习过程总结
智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,爱诗科技创始人王长虎,启明创投合伙人周志峰,Open-Sora开发团队潞晨科技创始人尤洋,「...
今日arXiv最热大模型论文:超越LoRA,北京大学提出预训练模型非梯度优化法
夕小瑶科技说 原创编辑 | 松果 引言:探索大型语言模型中低秩适应的新方法在自然语言处理领域,大语言模型(LLMs)的迅猛发展带来了前所未有的性能提升。然而...
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
机器之心报道 编辑:陈萍、大盘鸡只用 24G 显存,消费级 GPU 就能搞定大模型了。 上个月,Meta FAIR 田渊栋参与的一项研究广受好评,他们在论文《 MobileLLM:...
几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling
新智元报道编辑:LRS 好困 【新智元导读】本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析,目前已被NeurIPS 202...
AI x 机器人爆发年!英伟达Jim Fan领衔登月任务,谷歌DeepMind新技术曝光
新智元报道编辑:alan 【新智元导读】AI x 机器人正逐渐走上时代的风口,近日,谷歌DeepMind以及英伟达两家AI大厂都在机器人领域有所动作。AI x 机器人必然是...
YOLOv9来了:实时目标检测新SOTA,完胜各种轻量或大型模型!出自v7作者
丰色 发自 凹非寺量子位 | 公众号 QbitAI距离YOLOv8发布仅1年的时间,v9诞生了! 这个新版本主打用“可编程梯度信息来学习你想学的任何内容”。 无论是轻量级还...
目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机
机器之心报道 机器之心编辑部在目标检测领域,YOLOv9 实现了一代更比一代强,利用新架构和方法让传统卷积在参数利用率方面胜过了深度卷积。 继 2023 年 1 月 ...
ICLR 2024 Oral | 三行代码,即插即用!NUS尤洋团队新作—InfoBatch,无损数据集动态剪枝加速
大数据文摘受权转载自将门创投 本文介绍来自NUS尤洋团队的最新科研成果 - InfoBatch。这是首篇关于无损数据剪枝加速的工作,覆盖分类、分割、检测、图片生成...
大模型训练loss突刺原因和解决办法
直播预告 | 今晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到端自动...
三行代码无损加速40%,尤洋团队AI训练加速器入选ICLR Oral论文
克雷西 发自 凹非寺量子位 | 公众号 QbitAI用剪枝的方式加速AI训练,也能实现无损操作了,只要三行代码就能完成! 今年的深度学习顶会ICLR上,新加坡国立大学...
Pika 1.0首测秒杀Gen-2!网友抢先体验电影级炸裂效果,背后技术细节首公开
新智元报道编辑:桃子【新智元导读】Pika 1.0首测开启了!网友抢先体验,每个视频都是经典。Pika 1.0正式上线后,拿到内测资格的网友们已经玩疯了!有人用它...