标签:参数

MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限

新智元报道编辑:编辑部 【新智元导读】MoE已然成为AI界的主流架构,不论是开源Grok,还是闭源GPT-4,皆是其拥趸。然而,这些模型的专家,最大数量仅有32个。...
阅读原文

快速迁移大模型到昇腾910B保姆级教程(Pytorch版)

7月11日19点,「智猩猩自动驾驶新青年讲座」第36讲将开讲,主讲理想汽车最新成果:基于MLLM的闭环规划智能体PlanAgent,由理想汽车实习研究员、中国科学院自...
阅读原文

Meta AI推出适用于移动设备的紧凑型语言模型

点击上方蓝字关注我们“Meta AI 推出 MobileLLM,一种为移动设备设计的高效语言模型。该模型通过优化参数,实现了与更大模型相当的性能,推动了 AI 模型小型化...
阅读原文

院士领衔推出大模型的第3种记忆:比参数存储和RAG都便宜,2.4B模型越级打13B

梦晨 发自 凹非寺量子位 | 公众号 QbitAI给大模型加上第三种记忆格式,把宝贵的参数从死记硬背知识中解放出来! 中科院院士鄂维南领衔,上海算法创新研究院等...
阅读原文

又一家技术+产品双杀的大模型创业公司!一款测试,让其WAIC大会展位火爆

夕小瑶科技说 原创作者 | 夕小瑶编辑部最近上海世界人工智能大会(WAIC)现场,一个国风展位前排起了长长的队伍,笔者忍不住好奇,究竟是什么新奇的东西吸引...
阅读原文

参数更新量仅为LoRA的5%,性能不减反升!南加大提出高效精调法LaMDA

夕小瑶科技说 原创作者 | Axe_越万物负阴而抱阳,冲气以为和 ——《道德经·第四十二章》 从Bert时代一路过来的朋友们应该还记得,对于仅仅只有1亿参数的Bert,...
阅读原文

Adam有了mini版:内存占用少一半,吞吐量提升50%

机器之心报道 编辑:panda在训练大型语言模型(LLM)时,Adam(W) 基本上已经成为了人们默认使用的优化器。 Adam 尽管性能优异,但使用成本很高。具体来说,Ad...
阅读原文

今天,阶跃星辰正式发布万亿MoE大模型|甲子光年

国产大模型跑出了“阶跃速度”。作者|赵健 今年的世界人工智能大会(WAIC),“大模型”含量极高,既有已发布模型的集中展示,也有大模型的首发亮相。 其中,阶...
阅读原文

阶跃星辰首发「万亿」和「多模」大模型,还与《大闹天宫》跨界联动 | WAIC 2024

阶跃星辰 再出王炸仅仅过去 100 天左右,站在 AGI 风口上的阶跃星辰再次亮出王炸成果。 在今天揭幕的世界人工智能大会,阶跃星辰宣布对 Step 系列通用大模型...
阅读原文

如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC

微软前高管创业AGI,大模型创企“五虎”变“六杰”。 作者|香草 编辑|漠影 随着大模型的智能水平迅速增长,科技圈对AGI(通用人工智能)将于几年内降临的预测声音...
阅读原文

上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强

衡宇 发自 凹非寺量子位 | 公众号 QbitAI今年上海世界人工智能大会,谁最受关注? 展区现场,有个挤得水泄不通的互动—— 像孙猴子一样在全世界大闹天宫的AI大...
阅读原文

揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相

机器之心原创 作者:张倩在 2024 年世界人工智能大会的现场,很多人在一个展台前排队,只为让 AI 大模型给自己在天庭「安排」一个差事。具体流程是这样的:首...
阅读原文

全员i人?《大闹天宫》MBTI测试让全公司炸锅!最神秘国产大模型团队出手了

新智元报道编辑:编辑部 【新智元导读】最近,公司全体同事都在疯狂沉迷这款《大闹天宫MBTI》测试!各种直击打工人的灵魂拷问,让所有i人和e人在职场极限场景...
阅读原文

100天后,阶跃星辰交出了第二份答卷

从「走路入场」到「跑步前进」,阶跃星辰要加速奔向AGI了。作者|房晓楠 编辑|陈彩娴 今年 3 月,「借着」 2024 全球开发者先锋大会的场子,「国内最后一家...
阅读原文

参数少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微调框架FLoRA

Huiser 投稿量子位 | 公众号 QbitAI为了让大模型在特定任务、场景下发挥更大作用,LoRA这样能够平衡性能和算力资源的方法正在受到研究者们的青睐。 然而,以L...
阅读原文
12345616