标签：梯度

Karpathy最新四小时视频教程：从零复现GPT-2，通宵运行即搞定

机器之心报道编辑：杜伟这是Karpathy「Neural Networks：zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了，这次一口气放出了长达...

阅读原文

AIGC动态

2年前 (2024)

ICLR 2024 Oral｜用巧妙的「传送」技巧，让神经网络的训练更加高效

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术...

阅读原文

AIGC动态

2年前 (2024)

硬核解决Sora的物理bug！美国四所顶尖高校联合发布：给视频生成器装个物理引擎

新智元报道编辑：LRS 【新智元导读】PhysDreamer利用材质点法（MPM）对物体的各个物理属性进行估计，实现了逼真的交互式响应结果，在视频生成领域向更真实的...

阅读原文

AIGC动态

2年前 (2024)

Pika联创参与新研究：Diffusion能抢GPT的活了！成功挑战自回归文本范式

丰色发自凹非寺量子位 | 公众号 QbitAI纵观生成式AI领域中的两个主导者：自回归和扩散模型。一个专攻文本等离散数据，一个长于图像等连续数据。如果，我...

阅读原文

AIGC动态

2年前 (2024)

从啥也不会到DeepSpeed————一篇大模型分布式训练的学习过程总结

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会，爱诗科技创始人王长虎，启明创投合伙人周志峰，Open-Sora开发团队潞晨科技创始人尤洋，「...

阅读原文

AIGC动态

2年前 (2024)

今日arXiv最热大模型论文：超越LoRA，北京大学提出预训练模型非梯度优化法

夕小瑶科技说原创编辑 | 松果引言：探索大型语言模型中低秩适应的新方法在自然语言处理领域，大语言模型（LLMs）的迅猛发展带来了前所未有的性能提升。然而...

阅读原文

AIGC动态

2年前 (2024)

田渊栋等人新作：突破内存瓶颈，让一块4090预训练7B大模型

机器之心报道编辑：陈萍、大盘鸡只用 24G 显存，消费级 GPU 就能搞定大模型了。上个月，Meta FAIR 田渊栋参与的一项研究广受好评，他们在论文《 MobileLLM:...

阅读原文

AIGC动态

2年前 (2024)

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling

新智元报道编辑：LRS 好困【新智元导读】本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析，目前已被NeurIPS 202...

阅读原文

AIGC动态

2年前 (2024)

AI x 机器人爆发年！英伟达Jim Fan领衔登月任务，谷歌DeepMind新技术曝光

新智元报道编辑：alan 【新智元导读】AI x 机器人正逐渐走上时代的风口，近日，谷歌DeepMind以及英伟达两家AI大厂都在机器人领域有所动作。AI x 机器人必然是...

阅读原文

AIGC动态

2年前 (2024)

YOLOv9来了：实时目标检测新SOTA，完胜各种轻量或大型模型！出自v7作者

丰色发自凹非寺量子位 | 公众号 QbitAI距离YOLOv8发布仅1年的时间，v9诞生了！这个新版本主打用“可编程梯度信息来学习你想学的任何内容”。无论是轻量级还...

阅读原文

AIGC动态

2年前 (2024)

目标检测新SOTA：YOLOv9问世，新架构让传统卷积重焕生机

机器之心报道机器之心编辑部在目标检测领域，YOLOv9 实现了一代更比一代强，利用新架构和方法让传统卷积在参数利用率方面胜过了深度卷积。继 2023 年 1 月 ...

阅读原文

AIGC动态

2年前 (2024)

ICLR 2024 Oral | 三行代码，即插即用！NUS尤洋团队新作—InfoBatch，无损数据集动态剪枝加速

大数据文摘受权转载自将门创投本文介绍来自NUS尤洋团队的最新科研成果 - InfoBatch。这是首篇关于无损数据剪枝加速的工作，覆盖分类、分割、检测、图片生成...

阅读原文

AIGC动态

2年前 (2024)

大模型训练loss突刺原因和解决办法

直播预告 | 今晚7点，「自动驾驶新青年讲座」第35讲正式开讲，LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive：大语言模型加持的闭环端到端自动...

阅读原文

AIGC动态

2年前 (2024)

三行代码无损加速40%，尤洋团队AI训练加速器入选ICLR Oral论文

克雷西发自凹非寺量子位 | 公众号 QbitAI用剪枝的方式加速AI训练，也能实现无损操作了，只要三行代码就能完成！今年的深度学习顶会ICLR上，新加坡国立大学...

阅读原文

AIGC动态

2年前 (2024)

Pika 1.0首测秒杀Gen-2！网友抢先体验电影级炸裂效果，背后技术细节首公开

新智元报道编辑：桃子【新智元导读】Pika 1.0首测开启了！网友抢先体验，每个视频都是经典。Pika 1.0正式上线后，拿到内测资格的网友们已经玩疯了！有人用它...

阅读原文

AIGC动态

3年前 (2023)

123