小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退…

小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退...

AIGC动态欢迎阅读

原标题:小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退…
关键字:模型,数据,参数,函数,性能
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 | 21#过去一周,可谓是小模型战场最疯狂的一周,商业巨头改变赛道,向大模型say byebye~。
OpenAI、Apple、Mistral等“百花齐放”,纷纷带着自家性能优越的轻量化小模型入场。
小模型(SLM),是相对于大语言模型(LLM)而言的,它们一般来说具有较少的参数和较低的计算资源需求。
前OpenAI和特斯拉AI研究员Andrej Karpathy更是直言LLM大小竞争会出现逆转的趋势,预测模型将向着更小更智能的方向发展。
为了快速理解,中文翻译如下:
大语言模型的尺寸竞争正在倒退…
我打赌我们会看到非常非常小的模型“思考”得非常好且可靠。很可能存在一个GPT-2参数的设置,大多数人会认为GPT-2是“聪明的”。当前模型如此大的原因是因为我们在训练期间仍然非常浪费——我们要求它们记住互联网,令人惊讶的是,它们确实做到了,并且可以例如背诵常见数字的SHA哈希值,或回忆非常深奥的事实。(实际上,大语言模型在记忆方面非常出色,质量上远胜于人类,有时只需要一次更新就能记住大量细节,并且长时间记住)。但想象一下,如果你要在闭卷考试中背诵互联网的任意段落


原文链接:小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退…

联系作者

文章来源:夕小瑶科技说
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...