标签:参数
MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限
新智元报道编辑:编辑部 【新智元导读】MoE已然成为AI界的主流架构,不论是开源Grok,还是闭源GPT-4,皆是其拥趸。然而,这些模型的专家,最大数量仅有32个。...
快速迁移大模型到昇腾910B保姆级教程(Pytorch版)
7月11日19点,「智猩猩自动驾驶新青年讲座」第36讲将开讲,主讲理想汽车最新成果:基于MLLM的闭环规划智能体PlanAgent,由理想汽车实习研究员、中国科学院自...
Meta AI推出适用于移动设备的紧凑型语言模型
点击上方蓝字关注我们“Meta AI 推出 MobileLLM,一种为移动设备设计的高效语言模型。该模型通过优化参数,实现了与更大模型相当的性能,推动了 AI 模型小型化...
院士领衔推出大模型的第3种记忆:比参数存储和RAG都便宜,2.4B模型越级打13B
梦晨 发自 凹非寺量子位 | 公众号 QbitAI给大模型加上第三种记忆格式,把宝贵的参数从死记硬背知识中解放出来! 中科院院士鄂维南领衔,上海算法创新研究院等...
又一家技术+产品双杀的大模型创业公司!一款测试,让其WAIC大会展位火爆
夕小瑶科技说 原创作者 | 夕小瑶编辑部最近上海世界人工智能大会(WAIC)现场,一个国风展位前排起了长长的队伍,笔者忍不住好奇,究竟是什么新奇的东西吸引...
参数更新量仅为LoRA的5%,性能不减反升!南加大提出高效精调法LaMDA
夕小瑶科技说 原创作者 | Axe_越万物负阴而抱阳,冲气以为和 ——《道德经·第四十二章》 从Bert时代一路过来的朋友们应该还记得,对于仅仅只有1亿参数的Bert,...
Adam有了mini版:内存占用少一半,吞吐量提升50%
机器之心报道 编辑:panda在训练大型语言模型(LLM)时,Adam(W) 基本上已经成为了人们默认使用的优化器。 Adam 尽管性能优异,但使用成本很高。具体来说,Ad...
今天,阶跃星辰正式发布万亿MoE大模型|甲子光年
国产大模型跑出了“阶跃速度”。作者|赵健 今年的世界人工智能大会(WAIC),“大模型”含量极高,既有已发布模型的集中展示,也有大模型的首发亮相。 其中,阶...
阶跃星辰首发「万亿」和「多模」大模型,还与《大闹天宫》跨界联动 | WAIC 2024
阶跃星辰 再出王炸仅仅过去 100 天左右,站在 AGI 风口上的阶跃星辰再次亮出王炸成果。 在今天揭幕的世界人工智能大会,阶跃星辰宣布对 Step 系列通用大模型...
如何通往AGI?阶跃星辰用万亿+多模交卷,三大模型亮相WAIC
微软前高管创业AGI,大模型创企“五虎”变“六杰”。 作者|香草 编辑|漠影 随着大模型的智能水平迅速增长,科技圈对AGI(通用人工智能)将于几年内降临的预测声音...
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
衡宇 发自 凹非寺量子位 | 公众号 QbitAI今年上海世界人工智能大会,谁最受关注? 展区现场,有个挤得水泄不通的互动—— 像孙猴子一样在全世界大闹天宫的AI大...
揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相
机器之心原创 作者:张倩在 2024 年世界人工智能大会的现场,很多人在一个展台前排队,只为让 AI 大模型给自己在天庭「安排」一个差事。具体流程是这样的:首...
全员i人?《大闹天宫》MBTI测试让全公司炸锅!最神秘国产大模型团队出手了
新智元报道编辑:编辑部 【新智元导读】最近,公司全体同事都在疯狂沉迷这款《大闹天宫MBTI》测试!各种直击打工人的灵魂拷问,让所有i人和e人在职场极限场景...
100天后,阶跃星辰交出了第二份答卷
从「走路入场」到「跑步前进」,阶跃星辰要加速奔向AGI了。作者|房晓楠 编辑|陈彩娴 今年 3 月,「借着」 2024 全球开发者先锋大会的场子,「国内最后一家...
参数少80%,效果仍超LoRA!上交大&上海AI Lab推出高效微调框架FLoRA
Huiser 投稿量子位 | 公众号 QbitAI为了让大模型在特定任务、场景下发挥更大作用,LoRA这样能够平衡性能和算力资源的方法正在受到研究者们的青睐。 然而,以L...