知名AI研究者深挖谷歌Gemma：参数不止70亿，设计原则很独特

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：知名AI研究者深挖谷歌Gemma：参数不止70亿，设计原则很独特
关键字：报告,模型,权重,线性,参数
文章来源：机器之心
内容字数：4547字

内容摘要：

机器之心报道
编辑：陈萍、杜伟想要了解谷歌 Gemma 与 Llama 2、Mistral 有哪些异同吗？这篇文章值得一读。就在几天前，开源大模型领域迎来了重磅新玩家：谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini，Gemma 更加轻量，同时保持免费可用，模型权重也一并开源了，且允许商用。谷歌发布了包含两种权重规模的模型：Gemma 2B 和 Gemma 7B。尽管体量较小，但 Gemma 已经「在关键基准测试中明显超越了更大的模型」，包括 Llama-2 7B 和 13B，以及风头正劲的 Mistral 7B。与此同时，关于 Gemma 的技术报告也一并放出。相信大家已经对 Gemma 的相关内容进行了系统研究，本文知名机器学习与 AI 研究者 Sebastian Raschka 向我们介绍了 Gemma 相比于其他 LLM 的一些独特设计原则。
Raschka 首先从模型性能展开，他表示看过技术报告的小伙伴可能都有一个疑问，是什么让 Gemma 表现如此出色？论文中没有明确说明原因，Sebastian Raschka 认为可以从下面两点得出结论：
首先是词汇量大，G

原文链接：知名AI研究者深挖谷歌Gemma：参数不止70亿，设计原则很独特