标签:权重
LoRA数学编程任务不敌全量微调 | 哥大&Databricks新研究
克雷西 发自 凹非寺量子位 | 公众号 QbitAI大数据巨头Databricks与哥伦比亚大学最新研究发现,在数学和编程任务上,LoRA干不过全量微调。 具体来说,在这两种...
Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star
机器之心报道 编辑:杜伟、陈萍项目中代码很多很全,值得细读。一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并...
大模型国产化适配2-基于昇腾910使用ChatGLM-6B进行模型推理
直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展...
Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动
机器之心报道 机器之心编辑部Meta FAIR 联合哈佛优化大规模机器学习时产生的数据偏差,提供了新的研究框架。众所周知,大语言模型的训练常常需要数月的时间,...
30篇论文,就能掌握当今科技90%的知识!ILYA公布神级论文清单(上)
点击上方蓝字关注我们“Ilya Sutskever向John Carmack推荐了一份精选的阅读清单,内含约30篇尖端的研究论文。这份清单不仅仅是学术文献的简单罗列,它被赋予了...
大模型MoE的前世今生,10个模型一文搞懂!
2024年3、4月这段时间,很多MoE模型扎堆发布,包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。 下面这个表格列出了部分近期发布的MoE工作MoE模型目前风头正劲,就...
「非常接近GPT-4」的WizardLM-2被微软紧急撤回,有什么内幕?
机器之心报道 机器之心编辑部前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。 据现在可以查到的 WizardLM-2 发布信息,这是...
单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源
克雷西 发自 凹非寺量子位 | 公众号 QbitAIFP8和更低的浮点数量化精度,不再是H100的“专利”了! 老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官...
Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航Ð
QHT 投稿量子位 | 公众号 QbitAI大模型力大砖飞,让LLaMA3演绎出了新高度: 超15T Token数据上的超大规模预训练,既实现了令人印象深刻的性能提升,也因远超C...
发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试
新智元报道编辑:编辑部 【新智元导读】前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。不过,还未上线一天,模型权重和公告全被...
生成式AI如何告别色情、版权困扰?基于权重显著性的机器遗忘算法有奇效
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
无向图最小割问题取得新突破,谷歌研究获SODA 2024最佳论文奖
机器之心报道 机器之心编辑部谷歌博客放出新研究,求解无向图的最小割问题。1996 年, 美国计算机科学家 David R Karger 连同其他研究者在论文《 A new appro...
DeepMind升级Transformer,前向通过FLOPs最多可降一半
机器之心报道 编辑:Panda W引入混合深度,DeepMind 新设计可大幅提升 Transformer 效率。Transformer 的重要性无需多言,目前也有很多研究团队致力于改进这...
前OpenAI大神Karpathy再整活,1000行C代码搞定GPT-2训练,网友:C语言复兴了!
智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,爱诗科技创始人兼CEO王长虎,Open-Sora开发团队潞晨科技创始人尤洋,英伟达解决方案架构...
1000行C语言搓出GPT-2!AI大神Karpathy新项目刚上线就狂揽2.5k星
新智元报道编辑:桃子 好困 【新智元导读】训大模型的方法可能要被革新了!AI大神Karpathy发布的新项目仅用1000行的C语言训完GPT-2,而不再依赖庞大的GPT-2库...