标签:权重

不想炸薯条的Ilya和不送GPU的英伟达,Hinton最新专访:道路千万条,安全第一条

新智元报道编辑:alan 【新智元导读】从谷歌离职一年之际,「人工智能教父」Hinton接受了采访。半退休的Hinton向我们讲述了时光积累下来的智慧,以及那些年和...
阅读原文

大模型国产化适配3-基于昇腾910使用ChatGLM-6B进行模型训练

直播预告 | 5月28日10点,「智猩猩AI新青年讲座」第236讲正式开讲,密歇根大学安娜堡分校在读博士生张挥杰将直播讲解《利用多级框架和多解码器架构提高扩散模...
阅读原文

Altman被曝七宗罪,OpenAI竟欲加密GPU合作军方?员工大批离职团队濒临崩溃

新智元报道编辑:Aeneas 好困 【新智元导读】刚刚,有网友仔细总结了OpenAI的七宗罪,对Altman发出愤怒的诘问:为何计划跟踪GPU?为何合作军方?员工滚雪球式...
阅读原文

250行代码从头搭建Llama 3,GitHub一天4.6k星!Karpathy大赞

新智元报道编辑:乔杨 好困 【新智元导读】Llama 3发布一个月后,一位开发者在GitHub上创建了名为「从头开始实现Llama 3」的项目,引起了开源社区的广泛关注...
阅读原文

从零复现Llama3代码库爆火,大神Kapathy一键三连,GitHub狂揽2k+

西风 发自 凹非寺量子位 | 公众号 QbitAI让大神Andrej Karpathy一键三连❤️(点赞+转发+评论),一个教你从头开始实现Llama3的代码库爆火。 X上转赞收藏量超6....
阅读原文

LoRA数学编程任务不敌全量微调 | 哥大&Databricks新研究

克雷西 发自 凹非寺量子位 | 公众号 QbitAI大数据巨头Databricks与哥伦比亚大学最新研究发现,在数学和编程任务上,LoRA干不过全量微调。 具体来说,在这两种...
阅读原文

Karpathy称赞,从零实现LLaMa3项目爆火,半天1.5k star

机器之心报道 编辑:杜伟、陈萍项目中代码很多很全,值得细读。一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并...
阅读原文

大模型国产化适配2-基于昇腾910使用ChatGLM-6B进行模型推理

直播预告 | 5月23日晚7点,「智猩猩机器人新青年讲座」第6讲正式开讲,论文一作、清华大学在读博士郭旭东将直播讲解《大模型在具身多智能体合作中的研究进展...
阅读原文

Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动

机器之心报道 机器之心编辑部Meta FAIR 联合哈佛优化大规模机器学习时产生的数据偏差,提供了新的研究框架。众所周知,大语言模型的训练常常需要数月的时间,...
阅读原文

30篇论文,就能掌握当今科技90%的知识!ILYA公布神级论文清单(上)

点击上方蓝字关注我们“Ilya Sutskever向John Carmack推荐了一份精选的阅读清单,内含约30篇尖端的研究论文。这份清单不仅仅是学术文献的简单罗列,它被赋予了...
阅读原文

大模型MoE的前世今生,10个模型一文搞懂!

2024年3、4月这段时间,很多MoE模型扎堆发布,包括Qwen1.5-MoE、DBRX、Jamba和Mistral等。 下面这个表格列出了部分近期发布的MoE工作MoE模型目前风头正劲,就...
阅读原文

「非常接近GPT-4」的WizardLM-2被微软紧急撤回,有什么内幕?

机器之心报道 机器之心编辑部前段时间,微软搞了个乌龙:隆重地开源了 WizardLM-2,又在不久后撤回得干干净净。 据现在可以查到的 WizardLM-2 发布信息,这是...
阅读原文

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

克雷西 发自 凹非寺量子位 | 公众号 QbitAIFP8和更低的浮点数量化精度,不再是H100的“专利”了! 老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官...
阅读原文

Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航&ETH

QHT 投稿量子位 | 公众号 QbitAI大模型力大砖飞,让LLaMA3演绎出了新高度: 超15T Token数据上的超大规模预训练,既实现了令人印象深刻的性能提升,也因远超C...
阅读原文

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

新智元报道编辑:编辑部 【新智元导读】前段时间,微软公布并开源了最新一代大模型WizardLM-2,号称性能堪比GPT-4。不过,还未上线一天,模型权重和公告全被...
阅读原文
123457