标签:参数
Mistral AI 引领AI新纪元:发布1760亿参数巨模型Mixtral 8x22B
点击上方蓝字关注我们“Mistral AI 公司宣布推出其最新的大型语言模型 Mixtral 8x22B,拥有1760亿参数和65,000个token的上下文长度,通过开源和宽松的Apache 2...
微软前全球副总裁入局AGI:左手效率神器、右手AI开放世界,实测好用!
微软大牛下场创业,“铁人四项”进击AGI。 作者|三北 编辑|漠影 大模型进入创业爆发期,来自全球大厂的离职AI大牛成为一大主力军,近期圈内热门的阶跃星辰是一...
超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k
机器之心报道 机器之心编辑部在大模型落地应用的过程中,端侧 AI 是非常重要的一个方向。 近日,斯坦福大学研究人员推出的 Octopus v2 火了,受到了开发者社...
从啥也不会到DeepSpeed————一篇大模型分布式训练的学习过程总结
智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,爱诗科技创始人王长虎,启明创投合伙人周志峰,Open-Sora开发团队潞晨科技创始人尤洋,「...
国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑
APUS-xDAN-4.0(MoE)参数规模1360亿,可在消费级显卡4090上运行。 作者|程茜 编辑|心缘 智东西4月2日报道,今天,全球移动互联网公司APUS与大模型创企新旦智...
每个问题的答案都是贝叶斯模型比较,假设竞争
来源:CreateAMind Bayesian model reduction https://arxiv.org/pdf/1805.07092.pdf 具身智能系列文章 事实上,人们常说,每个问题的答案都是贝叶斯模型比较...
告别微软,姜大昕带领这支精英团队攀登Scaling Law,万亿参数模型已有预览版
机器之心原创 作者:张倩攀登 Scaling Law,打造万亿参数大模型,前微软 NLP 大牛姜大昕披露创业路线图。前段时间,OpenAI 科学家 Jason Wei 的一份作息时间...
开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有
机器之心报道 编辑:泽南、陈萍「太狂野了」。这是迄今为止最强大的开源大语言模型,超越了 Llama 2、Mistral 和马斯克刚刚开源的 Grok-1。本周三,大数据人...
全球最强开源模型一夜易主,1320亿参数推理飙升2倍!
新智元报道编辑:编辑部 【新智元导读】就在刚刚,全球最强开源大模型王座易主,创业公司Databricks发布的DBRX,超越了Llama 2、Mixtral和Grok-1。MoE又立大...
3140参数Grok-1推理加速3.8倍,PyTorch+HuggingFace版来了
明敏 发自 凹非寺量子位 | 公众号 QbitAI马斯克说到做到开源Grok-1,开源社区一片狂喜。 但基于Grok-1做改动or商用,都还有点难题: Grok-1使用Rust+JAX构建...
模型合并就进化,直接拿下SOTA!Transformer作者创业新成果火了
丰色 发自 凹非寺量子位 | 公众号 QbitAI把Huggingface上的现成模型拿来“攒一攒”—— 直接就能组合出新的强大模型?! 日本大模型公司sakana.ai脑洞大开(正是“...
哈工深提出基于联邦学习的大模型指令微调
夕小瑶科技说 原创作者 | 松果引言:面对数据匮乏与隐私挑战的联邦指令调整在当今大语言模型(LLMs)发展中,指令调整被证明对于生成与人类对齐的响应至关重...
阶跃星辰发布 Step 通用大模型:多模态、MoE、万亿模型参数
3 月 23 日,国内通用大模型创业公司阶跃星辰在 2024 全球开发者先锋大会上发布了公司的通用大模型产品。 阶跃星辰创始人、CEO 姜大昕博士在大会开幕式上对外...
如何从头开始编写LoRA代码,这有一份教程
选自 lightning.ai 作者:Sebastian Raschka 机器之心编译 编辑:陈萍作者表示:在各种有效的 LLM 微调方法中,LoRA 仍然是他的首选。LoRA(Low-Rank Adaptat...
能炼10万亿参数模型!黄仁勋发布全新架构GPU,性能提升30倍,H100已成过去时
GTC 2024 来了。 在今天凌晨的发布会上,英伟达 CEO 黄仁勋发布了新的 AI 芯片,继 Ampere A100、Hopper H100 芯片之后新产品——Blackwell B200,专为超大参数...