Hugging Face：2023开源LLM大爆发，数据竞赛已开启！

AIGC动态2年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：Hugging Face：2023开源LLM大爆发，数据竞赛已开启！
关键字：模型,数据,指令,参数,精度
文章来源：新智元
内容字数：10272字

内容摘要：

新智元报道编辑：alan
【新智元导读】2023年的LLM开源社区都发生了什么？来自Hugging Face的研究员带你回顾并重新认识开源LLM2023年的大语言模型（LLM），让几乎所有人都燃起了热情。
现在大多数人都知道LLM是什么，以及可以做什么。
人们讨论着它的优缺点，畅想着它的未来，
向往着真正的AGI，又有点担忧自己的命运。
围绕开源与闭源的公开辩论也吸引了广泛的受众。
2023年的LLM开源社区都发生了什么？
下面，让我们跟随Hugging Face的研究员Clémentine Fourrier一起，
回顾一下开源LLM这跌宕起伏的一年。
如何训练大语言模型？LLM的模型架构描述了具体实现和数学形状。模型是所有参数的列表，以及参数如何与输入交互。
目前，大多数高性能的LLM都是Transformer架构的变体。
LLM的训练数据集，包含训练模型所需的所有示例和文档。
大多数情况下是文本数据（自然语言、编程语言、或者其他可表达为文本的结构化数据）。
分词器（tokenizer）定义如何将训练数据集中的文本转换为数字（因为模型本质上是一个数学函数）。
文本被切分成称为tok

原文链接：Hugging Face：2023开源LLM大爆发，数据竞赛已开启！