论文作者都没想到会这么受关注
原标题:惊呆网友!微软论文意外“泄密”OpenAI模型参数引热议,GPT-4o mini仅8B?
文章来源:大数据文摘
内容字数:5477字
微软论文“泄露”OpenAI大模型参数?与解读
近日,一篇微软发表的预印版论文引发热议,原因是该论文中意外出现了ChatGPT、GPT-4等OpenAI旗下多个大模型的参数估算值。虽然论文主要关注的是一个名为MEDEC的医疗错误检测与纠正基准,但文中提及的参数信息,例如GPT-4o mini仅有8B参数,迅速引发了网友热烈讨论。
1. 论文内容及参数“泄露”
这篇论文并非专门研究OpenAI模型,而是旨在评估大型语言模型在医疗领域应用的性能。研究人员利用MEDEC基准测试了多个LLM,包括OpenAI的ChatGPT、GPT-4系列、以及谷歌、Anthropic等公司的模型。论文中列出了这些模型的参数估算值,其中OpenAI模型的参数如下:ChatGPT约175B,GPT-4约1.76T,GPT-4o约200B,GPT-4o mini约8B,o1-mini约100B,o1-preview约300B。论文强调这些参数大多为估算值。
2. 网友热议:GPT-4o mini 8B参数的可信度
GPT-4o mini仅有8B参数的结论尤其引发关注。许多网友质疑其可信度,认为如果属实,OpenAI应该会公开宣传这一突破性成果。有人推测8B可能是激活参数而非总参数,也有人认为可能是使用了MoE(混合专家)架构,只有部分参数处于活跃状态。 一些网友则结合API定价和模型性能进行分析,认为8B参数的推测并非完全没有道理。
3. 模型参数与性能:大小并非唯一标准
此次也引发了对模型参数与性能关系的讨论。论文中,微软Phi-3(7B参数)和GPT-4o mini(据称8B参数)在特定任务上的表现,都展现了小模型也能取得优秀性能的可能性。这表明,模型参数大小并非衡量性能的唯一标准,模型架构、训练方法等因素同样重要。 Meta AI的Llama-3.1、Mistral AI的Ministral 8B等小模型也印证了这一趋势。
4. 大模型与小模型的互补发展
目前,大模型和小模型的发展呈现互补趋势。大模型在海量数据上预训练,提供强大的基础能力;小模型则针对特定任务进行微调,在效率和成本上更具优势。未来,大模型和小模型将协同发展,推动人工智能应用的广泛落地。
5. 结论:参数估算值需谨慎看待
虽然微软论文中提供了部分大模型的参数估算值,但这些数值的准确性仍需进一步验证。 模型参数并非决定性能的唯一因素, 未来需要更多研究来探索模型参数、架构和性能之间的复杂关系,以推动人工智能技术持续进步。
联系作者
文章来源:大数据文摘
作者微信:
作者简介:普及数据思维,传播数据文化