标签:参数

只需1%参数,效果超越ControlNet,新AI绘画控制大师来袭

西风 发自 凹非寺量子位 | 公众号 QbitAI“新·AI绘画细节控制大师”ControlNet-XS来啦!敲重点的是参数只要原始ControlNet的1%。就能做到蛋糕口味随意切换:△左...
阅读原文

将混合专家推向极限:只需更新0.32%的参数就能完成模型微调

机器之心报道编辑:Panda W微调无需更新全部模型参数,这种方法只需更新不到 1% 的参数。众所周知,大模型的训练成本很高,但其实对预训练后的模型进行微调也...
阅读原文

大模型生成提速2倍!单GPU几小时搞定微调,北大数院校友共同一作丨开源

萧箫 发自 凹非寺量子位 | 公众号 QbitAI只需给大模型“加点小零件”,推理速度立刻提升2倍!不需要额外训练一个模型,也不需要对计算硬件做优化,单张A100最快...
阅读原文

1.3>7?微软新模型“以小博大”战胜Llama2,网友:用Benchmark训练的吧?

克雷西 发自 凹非寺量子位 | 公众号 QbitAI一个参数量只有1.3B的大模型,为何引发了全网热议?原来虽然参数量不大,但效果已经超过了拥有7B参数的Llama2。这...
阅读原文

MLPerf放榜,中国AI芯片公司再获世界第一!大模型推理三项冠军,性能超越H100

新智元报道编辑:好困 桃子【新智元导读】MLPerf最新GPT大模型推理测试放榜了!这家国产算力公司再拿世界第一,性能最高可达1.8倍英伟达H100。随着ChatGPT等A...
阅读原文

10人俩月搞出大模型!一年16篇顶会论文加持:市面上做得好的都没有开源

衡宇 发自 凹非寺量子位 | 公众号 QbitAI一家今年5月份成立在深圳的公司,团队至今不到10人。他们要做的却不是小事:挑战AGI。底气在哪?一看过往履历,二看...
阅读原文

智源:70万预算从头开发千亿参数大模型,挑战成功

克雷西 发自 凹非寺量子位 | 公众号 QbitAI预算10万美元(约73万人民币),从头训练一个全新的千亿参数大模型。智源研究院与国内多所高校及南洋理工联合团队...
阅读原文

32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了

机器之心发布机器之心编辑部9 月 12 日,淘天集团联合爱橙科技正式对外开源大模型训练框架 ——Megatron-LLaMA,旨在让技术开发者们能够更方便的提升大语言模型...
阅读原文

10万美元+26天,一个低成本千亿参数LLM就诞生了

机器之心报道编辑:Panda W训练一个 GPT 那样的千亿参数规模的大型语言模型需要多少钱和时间?北京智源人工智能研究院和中国科学院计算技术研究所等多所机构...
阅读原文

百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT

衡宇 发自 凹非寺量子位 | 公众号 QbitAI我们现在可以获得比LLaMA更友好,且能力更强的开源模型。这次在发布会现场表达出“遥遥领先”之意的,是百川智能CEO王...
阅读原文
1141516