标签:规模

2030年,Scaling Law会到达极限吗?GPT-6能出来吗?

9 月 2 日,马斯克发文称,其人工智能公司 xAI 的团队上线了一台被称为「Colossus」的训练集群,总共有 100000 个英伟达的 H100 GPU。 他还表示,接下来的几...
阅读原文

要想赚钱,AI模型该大该小?贾扬清:论AI模型经济学的技巧

卖模型就像感恩节卖火鸡,快才能赚钱。作者丨刘洁 编辑丨岑峰 最近的AI社区,关于模型规模的讨论有些活跃。 一方面,此前在大模型开发奉为“圣经”的Scaling La...
阅读原文

贾扬清:大模型尺寸正在重走CNN的老路;马斯克:在特斯拉也是这样

衡宇 发自 凹非寺量子位 | 公众号 QbitAITransformer大模型尺寸变化,正在重走CNN的老路! 看到大家都被LLaMA 3.1吸引了注意力,贾扬清发出如此感慨。 拿大模...
阅读原文

Llama 3.1 会助推这波「小模型」热潮吗?

机器之心PRO · 会员通讯 Week 30---- 本周为您解读 ③个值得细品的AI & Robotics业内要事 ---- 1. Llama 3.1 会助推这波「小模型」热潮吗? Llama 3.1 405...
阅读原文

FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术...
阅读原文

斯坦福/苹果等23所机构发布DCLM基准测试,高质量数据集能否撼动Scaling Laws?基础模型与Llama3 8B表现相当

作者:李姝 编辑:李宝珠,三羊 华盛顿大学、斯坦福大学、苹果等 23 所机构最新研究成果发布:DCLM 基准测试可生成高质量数据集,实现了从 412M 到 7B 不同参...
阅读原文

这一次,国产光计算芯片走到了商业化的临界点|甲子光年

光计算芯片行业的水温,正在发生变化。作者|八度‍‍ 编辑|王博 “集成光路将是半导体领域60年一遇的‘换道超车’。” 去年底,在2023全球硬科技创新大会上发布的...
阅读原文

大模型一定就比小模型好?谷歌的这项研究说不一定

机器之心报道 编辑:Panda在这个大模型不断创造新成就的时代,我们通常对机器学习模型有一个直观认知:越大越好。但事实果真如此吗? 近日,Google Research ...
阅读原文

Llama 3突然来袭!开源社区再次沸腾:GPT-4级别模型可以自由访问的时代到来

克雷西 鱼羊 发自 凹非寺量子位 | 公众号 QbitAILlama 3来了! 就在刚刚,Meta官网上新,官宣了Llama 3 80亿和700亿参数版本。 并且推出即为开源SOTA: Meta...
阅读原文

我的领导马斯克:痛恨开会,不要非技术中层,推崇裁员

鱼羊 发自 凹非寺量子位 | 公众号 QbitAI马斯克称得上是个“魔鬼老板”这事儿,已经出了名了。 现在,他的老部下卡帕西(Andrej Karpathy)又在最新访谈中“锤”...
阅读原文

张宏江:大模型技术发展的八点观察

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,「清华系Sora」生数科技CEO唐家渝,云天励飞“云...
阅读原文

拥抱AI裁员8000!百年巨头IBM的“广进计划”开始了

白交 发自 凹非寺量子位 | 公众号 QbitAIIBM突然宣布,启动新一轮裁员! 在最新一次7分钟员工会议上,IBM首席通讯官宣了这一消息。 此次将主要集中在营销和通...
阅读原文

万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本

来源 | 授权转载自飞哥说AI(公众号ID:FeigeandAI)导语 OpenAI 越来越不“Open”了,尽管发布多个轰动世界的闭源大模型——从 ChatGPT 到 Sora——伴随的技术报告...
阅读原文

端侧最强,Meta田渊栋等人卷10亿以下参数小模型,LeCun:小技巧启动

机器之心报道 机器之心编辑部Meta 推出 MobileLLM 系列,一款适用于移动设备上的「小」模型。「在移动设备上运行 LLM?可能需要 Meta 的一些技巧。」刚刚,图...
阅读原文

谷歌大模型迟到的开源战略|甲子光年

妙手、本手还是俗手?作者|赵健 昨夜,谷歌罕见地改变了去年坚持的“大模型闭源”策略,推出了“开源”大模型 Gemma。 Gemma 采用了与 Gemini 相同的技术,由谷...
阅读原文
12