标签：参数

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

领先 Mistral，对标 Mistral，超越 Mistral。作者丨王悦编辑丨陈彩娴大约 1 个月前，马斯克所创办的 xAI 团队宣布开源 Grok-1——一个参数量为 3140 亿的 MoE...

阅读原文

AIGC动态

2年前 (2024)

Mistral AI 引领AI新纪元：发布1760亿参数巨模型Mixtral 8x22B

点击上方蓝字关注我们“Mistral AI 公司宣布推出其最新的大型语言模型 Mixtral 8x22B，拥有1760亿参数和65,000个token的上下文长度，通过开源和宽松的Apache 2...

阅读原文

AIGC动态

2年前 (2024)

微软前全球副总裁入局AGI：左手效率神器、右手AI开放世界，实测好用！

微软大牛下场创业，“铁人四项”进击AGI。作者|三北编辑|漠影大模型进入创业爆发期，来自全球大厂的离职AI大牛成为一大主力军，近期圈内热门的阶跃星辰是一...

阅读原文

AIGC动态

2年前 (2024)

超越GPT-4，斯坦福团队手机可跑的大模型火了，一夜下载量超2k

机器之心报道机器之心编辑部在大模型落地应用的过程中，端侧 AI 是非常重要的一个方向。近日，斯坦福大学研究人员推出的 Octopus v2 火了，受到了开发者社...

阅读原文

AIGC动态

2年前 (2024)

从啥也不会到DeepSpeed————一篇大模型分布式训练的学习过程总结

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会，爱诗科技创始人王长虎，启明创投合伙人周志峰，Open-Sora开发团队潞晨科技创始人尤洋，「...

阅读原文

AIGC动态

2年前 (2024)

国内首个开源千亿参数MoE大模型来了！性能超Grok-1，单张GPU可跑

APUS-xDAN-4.0（MoE）参数规模1360亿，可在消费级显卡4090上运行。作者|程茜编辑|心缘智东西4月2日报道，今天，全球移动互联网公司APUS与大模型创企新旦智...

阅读原文

AIGC动态

2年前 (2024)

每个问题的答案都是贝叶斯模型比较，假设竞争

来源：CreateAMind Bayesian model reduction https://arxiv.org/pdf/1805.07092.pdf 具身智能系列文章事实上，人们常说，每个问题的答案都是贝叶斯模型比较...

阅读原文

AIGC动态

2年前 (2024)

告别微软，姜大昕带领这支精英团队攀登Scaling Law，万亿参数模型已有预览版

机器之心原创作者：张倩攀登 Scaling Law，打造万亿参数大模型，前微软 NLP 大牛姜大昕披露创业路线图。前段时间，OpenAI 科学家 Jason Wei 的一份作息时间...

阅读原文

AIGC动态

2年前 (2024)

开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有

机器之心报道编辑：泽南、陈萍「太狂野了」。这是迄今为止最强大的开源大语言模型，超越了 Llama 2、Mistral 和马斯克刚刚开源的 Grok-1。本周三，大数据人...

阅读原文

AIGC动态

2年前 (2024)

全球最强开源模型一夜易主，1320亿参数推理飙升2倍！

新智元报道编辑：编辑部【新智元导读】就在刚刚，全球最强开源大模型王座易主，创业公司Databricks发布的DBRX，超越了Llama 2、Mixtral和Grok-1。MoE又立大...

阅读原文

AIGC动态

2年前 (2024)

3140参数Grok-1推理加速3.8倍，PyTorch+HuggingFace版来了

明敏发自凹非寺量子位 | 公众号 QbitAI马斯克说到做到开源Grok-1，开源社区一片狂喜。但基于Grok-1做改动or商用，都还有点难题： Grok-1使用Rust+JAX构建...

阅读原文

AIGC动态

2年前 (2024)

模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

丰色发自凹非寺量子位 | 公众号 QbitAI把Huggingface上的现成模型拿来“攒一攒”—— 直接就能组合出新的强大模型？！日本大模型公司sakana.ai脑洞大开（正是“...

阅读原文

AIGC动态

2年前 (2024)

哈工深提出基于联邦学习的大模型指令微调

夕小瑶科技说原创作者 | 松果引言：面对数据匮乏与隐私挑战的联邦指令调整在当今大语言模型（LLMs）发展中，指令调整被证明对于生成与人类对齐的响应至关重...

阅读原文

AIGC动态

2年前 (2024)

阶跃星辰发布 Step 通用大模型：多模态、MoE、万亿模型参数

3 月 23 日，国内通用大模型创业公司阶跃星辰在 2024 全球开发者先锋大会上发布了公司的通用大模型产品。阶跃星辰创始人、CEO 姜大昕博士在大会开幕式上对外...

阅读原文

AIGC动态

2年前 (2024)

如何从头开始编写LoRA代码，这有一份教程

选自 lightning.ai 作者：Sebastian Raschka 机器之心编译编辑：陈萍作者表示：在各种有效的 LLM 微调方法中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptat...

阅读原文

AIGC动态

2年前 (2024)

1…7 8910 11…16