标签:梯度

田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型

机器之心报道 编辑:陈萍、大盘鸡只用 24G 显存,消费级 GPU 就能搞定大模型了。 上个月,Meta FAIR 田渊栋参与的一项研究广受好评,他们在论文《 MobileLLM:...
阅读原文

几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling

新智元报道编辑:LRS 好困 【新智元导读】本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析,目前已被NeurIPS 202...
阅读原文

AI x 机器人爆发年!英伟达Jim Fan领衔登月任务,谷歌DeepMind新技术曝光

新智元报道编辑:alan 【新智元导读】AI x 机器人正逐渐走上时代的风口,近日,谷歌DeepMind以及英伟达两家AI大厂都在机器人领域有所动作。AI x 机器人必然是...
阅读原文

YOLOv9来了:实时目标检测新SOTA,完胜各种轻量或大型模型!出自v7作者

丰色 发自 凹非寺量子位 | 公众号 QbitAI距离YOLOv8发布仅1年的时间,v9诞生了! 这个新版本主打用“可编程梯度信息来学习你想学的任何内容”。 无论是轻量级还...
阅读原文

目标检测新SOTA:YOLOv9问世,新架构让传统卷积重焕生机

机器之心报道 机器之心编辑部在目标检测领域,YOLOv9 实现了一代更比一代强,利用新架构和方法让传统卷积在参数利用率方面胜过了深度卷积。 继 2023 年 1 月 ...
阅读原文

ICLR 2024 Oral | 三行代码,即插即用!NUS尤洋团队新作—InfoBatch,无损数据集动态剪枝加速

大数据文摘受权转载自将门创投 本文介绍来自NUS尤洋团队的最新科研成果 - InfoBatch。这是首篇关于无损数据剪枝加速的工作,覆盖分类、分割、检测、图片生成...
阅读原文

大模型训练loss突刺原因和解决办法

直播预告 | 今晚7点,「自动驾驶新青年讲座」第35讲正式开讲,LMDrive一作、香港中文大学MMLab在读博士邵昊将主讲《LMDrive:大语言模型加持的闭环端到端自动...
阅读原文

三行代码无损加速40%,尤洋团队AI训练加速器入选ICLR Oral论文

克雷西 发自 凹非寺量子位 | 公众号 QbitAI用剪枝的方式加速AI训练,也能实现无损操作了,只要三行代码就能完成! 今年的深度学习顶会ICLR上,新加坡国立大学...
阅读原文

Pika 1.0首测秒杀Gen-2!网友抢先体验电影级炸裂效果,背后技术细节首公开

新智元报道编辑:桃子【新智元导读】Pika 1.0首测开启了!网友抢先体验,每个视频都是经典。Pika 1.0正式上线后,拿到内测资格的网友们已经玩疯了!有人用它...
阅读原文

清华提出 SoRA,参数量只有 LoRA 的 70%,表现更好!

夕小瑶科技说 原创作者 | 智商掉了一地、Python现在有很多关于大型语言模型(LLM)的研究,都围绕着如何高效微调展开。微调是利用模型在大规模通用数据上学到...
阅读原文

OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御

选自Lil’Log作者:Lilian Weng机器之心编译编辑:PandaLLM 能力强大,倘若别有用心之人用其来干坏事,可能会造成难以预料的严重后果。虽然大多数商用和开源 L...
阅读原文

北大全新「机械手」算法:辅助花式抓杯子,GTX 1650实现150fps推断|NeurIPS 2023

新智元报道编辑:LRS 好困【新智元导读】新方法结合扩散模型和强化学习,将抓取问题分解为「如何抓」以及「何时抓」,平价显卡即可实现实时交互。手是人类与...
阅读原文

后门准确率降至3%,主任务性能几乎不变!华工JHU提出全新「联邦学习后门攻击识别」解决方案|ICCV2023

新智元报道编辑:LRS【新智元导读】无惧联邦学习中的后门攻击!全新解决方案利用多指标和动态加权来自适应地识别后门,在难度最高的Edge-case PGD中,后门准...
阅读原文

上下文学习=对比学习?人大揭示ICL推理背后的隐式更新机理:梯度更新了吗?「如更」

新智元报道编辑:LRS【新智元导读】人民大学最新研究,首次从「对比学习」的角度来理解上下文学习,或可提供自注意力机制的改进思路。近些年来,基于Transfor...
阅读原文

英伟达开源新Agent!用了GPT-4后,机器人把转笔、盘核桃都玩明白了

夕小瑶科技说 分享来源 | 量子位作者 | 白交训练机器人,AI比人类更拿手!英伟达最新AI AgentEureka,用GPT-4生成奖励函数,结果教会机器人完成了三十多个复...
阅读原文
123