标签:参数
想跑千亿大模型?算力厂商放大招!CPU通用服务器成为新选择
克雷西 发自 凹非寺量子位 | 公众号 QbitAI千亿参数规模的大模型推理,服务器仅用4颗CPU就能实现! 在一台CPU通用服务器上,浪潮信息成功跑通了102B大模型推...
贾扬清:大模型尺寸正在重走CNN的老路;马斯克:在特斯拉也是这样
衡宇 发自 凹非寺量子位 | 公众号 QbitAITransformer大模型尺寸变化,正在重走CNN的老路! 看到大家都被LLaMA 3.1吸引了注意力,贾扬清发出如此感慨。 拿大模...
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?
新智元报道编辑:编辑部 【新智元导读】是时候用CPU通用服务器跑千亿参数大模型了!马斯克19天建成由10万块H100串联的世界最大超算,已全力投入Grok 3的训练...
小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退…
夕小瑶科技说 原创作者 | 21#过去一周,可谓是小模型战场最疯狂的一周,商业巨头改变赛道,向大模型say byebye~。 OpenAI、Apple、Mistral等“百花齐放”,纷纷...
Llama 3.1 会助推这波「小模型」热潮吗?
机器之心PRO · 会员通讯 Week 30---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. Llama 3.1 会助推这波「小模型」热潮吗? Llama 3.1 405...
FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
反转了?在一场新较量中,号称替代MLP的KAN只赢一局
机器之心报道 机器之心编辑部KAN 在符号表示中领先,但 MLP 仍是多面手。 多层感知器 (Multi-Layer Perceptrons,MLP) ,也被称为全连接前馈神经网络,是当今...
Mistral新旗舰决战Llama 3.1!最强开源Large 2 123B,扛鼎多语言编程全能王
新智元报道编辑: 【新智元导读】紧跟着Meta的重磅发布,Mistral Large 2也带着权重一起上新了,而且参数量仅为Llama 3.1 405B的三分之一。不仅在编码、数学...
TPAMI 2024 | ProCo: 无限contrastive pairs的长尾对比学习
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
中科院张家俊团队最新综述,谈大模型研究的新领域:多模型协作
夕小瑶科技说 原创作者 | Richard“没有什么是一个大模型不能解决的。如果不能,那就两个!”这并不是一句玩笑话,而是人工智能领域的一个热门趋势。最近,中科...
大模型风向变了,OpenAI苹果掉头布阵
大模型迈入“小而强”时代。 作者|ZeR0 编辑|漠影 生成式AI似乎有个隐形规律:每隔一段时间,就会上演一场令人瞠目的大型“撞车”事件。 仅是今年,就有谷歌Gemin...
挑战Scaling Law,Meta发布移动端350M小模型MobileLLM,性能比肩7B LLaMA-v2
新智元报道编辑:乔杨 【新智元导读】Scaling Law还没走到尽头,「小模型」逐渐成为科技巨头们的追赶趋势。Meta最近发布的MobileLLM系列,规模甚至降低到了1B...
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
OpenAI 的入局,更加验证了“小”模型的未来价值。作者 | 朱可轩、西西 编辑 | 陈彩娴 美国时间 7 月18 日,OpenAI 正式发布了多模态小模型 GPT-4o mini,在海...
基于华为昇腾推理引擎MindIE部署Qwen-72B实战
在华为昇腾LLM落地可选解决方案中,我们曾介绍过MindIE,并且前段时间MindIE 1.0.RC1已经发布,本文主要将对其进行实战演练。 01MindIE 简介MindIE(Mind Inf...
30B!每秒100tokens!这是AMD对AI PC的“幻想时间”
夕小瑶科技说 原创作者 | 谷雨龙泽随着AI的高速发展,从去年开始,挂在服务器的云端AI模型已经不能满足技术发烧友的胃口了,AI PC应运而生。 AI PC就是内嵌个...