标签:参数

马斯克xAI首个研究成果发布!创始成员杨格&姚班校友共同一作

西风 鱼羊 发自 凹非寺量子位 | 公众号 QbitAI马斯克的xAI,首项公开研究成果来了!共同一作之一,正是xAI创始成员、丘成桐弟子杨格(Greg Yang)。此前,杨...
阅读原文

用暂停token重新训练大模型,AI学会三思而后行

梦晨 发自 凹非寺量子位 | 公众号 QbitAI让ChatGPT给出答案之前多想想步骤,就能提高准确率。那么能不能省去提示词,直接把这种能力内化在大模型里呢?CMU与...
阅读原文

轻量级持续学习: 0.6%额外参数把旧模型重编程到新任务

机器之心专栏机器之心编辑部持续学习的目的是模仿人类在连续任务中持续积累知识的能力,其主要挑战是在持续学习新任务后如何保持对以前所学任务的表现,即避...
阅读原文

OpenAI科学家最新演讲:GPT-4即将超越拐点,1000倍性能必定涌现!

新智元报道编辑:桃子【新智元导读】GPT-4参数规模扩大1000倍,如何实现?OpenAI科学家最新演讲,从第一性原理出发,探讨了2023年大模型发展现状。「GPT-4即...
阅读原文

只需1%参数,效果超越ControlNet,新AI绘画控制大师来袭

西风 发自 凹非寺量子位 | 公众号 QbitAI“新·AI绘画细节控制大师”ControlNet-XS来啦!敲重点的是参数只要原始ControlNet的1%。就能做到蛋糕口味随意切换:△左...
阅读原文

将混合专家推向极限:只需更新0.32%的参数就能完成模型微调

机器之心报道编辑:Panda W微调无需更新全部模型参数,这种方法只需更新不到 1% 的参数。众所周知,大模型的训练成本很高,但其实对预训练后的模型进行微调也...
阅读原文

大模型生成提速2倍!单GPU几小时搞定微调,北大数院校友共同一作丨开源

萧箫 发自 凹非寺量子位 | 公众号 QbitAI只需给大模型“加点小零件”,推理速度立刻提升2倍!不需要额外训练一个模型,也不需要对计算硬件做优化,单张A100最快...
阅读原文

1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?

克雷西 发自 凹非寺量子位 | 公众号 QbitAI一个参数量只有1.3B的大模型,为何引发了全网热议?原来虽然参数量不大,但效果已经超过了拥有7B参数的Llama2。这...
阅读原文

MLPerf放榜,中国AI芯片公司再获世界第一!大模型推理三项冠军,性能超越H100

新智元报道编辑:好困 桃子【新智元导读】MLPerf最新GPT大模型推理测试放榜了!这家国产算力公司再拿世界第一,性能最高可达1.8倍英伟达H100。随着ChatGPT等A...
阅读原文

10人俩月搞出大模型!一年16篇顶会论文加持:市面上做得好的都没有开源

衡宇 发自 凹非寺量子位 | 公众号 QbitAI一家今年5月份成立在深圳的公司,团队至今不到10人。他们要做的却不是小事:挑战AGI。底气在哪?一看过往履历,二看...
阅读原文

智源:70万预算从头开发千亿参数大模型,挑战成功

克雷西 发自 凹非寺量子位 | 公众号 QbitAI预算10万美元(约73万人民币),从头训练一个全新的千亿参数大模型。智源研究院与国内多所高校及南洋理工联合团队...
阅读原文

32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了

机器之心发布机器之心编辑部9 月 12 日,淘天集团联合爱橙科技正式对外开源大模型训练框架 ——Megatron-LLaMA,旨在让技术开发者们能够更方便的提升大语言模型...
阅读原文

10万美元+26天,一个低成本千亿参数LLM就诞生了

机器之心报道编辑:Panda W训练一个 GPT 那样的千亿参数规模的大型语言模型需要多少钱和时间?北京智源人工智能研究院和中国科学院计算技术研究所等多所机构...
阅读原文

百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT

衡宇 发自 凹非寺量子位 | 公众号 QbitAI我们现在可以获得比LLaMA更友好,且能力更强的开源模型。这次在发布会现场表达出“遥遥领先”之意的,是百川智能CEO王...
阅读原文
1141516