字节跳动李航 | 对大语言模型的若干思考…

AIGC动态2年前 (2023)发布人工智能学家

字节跳动李航 | 对大语言模型的若干思考...

AIGC动态欢迎阅读

原标题：字节跳动李航 | 对大语言模型的若干思考…
关键字：模型,语言,序列,字节跳动,心智
文章来源：人工智能学家
内容字数：15693字

内容摘要：

来源：机器之心专栏
作者：ByteDance Research负责人李航本文阐述笔者对 LLM 的一些看法，主要观点如下：
ChatGPT 的突破主要在于规模带来的质变和模型方式的发明。
LLM 融合了实现人工智能的三条路径。
LLM 的开发需要结合第三者体验和第一者体验。
LLM 能近似生成心智语言。
LLM 需要与多模态大模型结合，以产生对世界的认识。
LLM 本身不具备逻辑推理能力，需要在其基础上增加推理能力。
1. LLM 强大之所在
1.1 LLM 的主要突破
ChatGPT 和 GPT4 为代表的 LLM 有以下主要手段 [1][2]。
模型：Transformer 拥有强大的表示能力，能对具有组合性（compositinality）的语言进行很好的表示和学习。
预训练（pre-training）：使用大规模文本数据进行语言建模（language modeling），学习进行的是数据压缩，也就是单词序列的生成概率最大化或预测误差最小化。
监督微调 SFT（supervised fine tunning）：学习的是输入到输出的映射，X→Y, 或者是输入到输出的映射及产出过

原文链接：字节跳动李航 | 对大语言模型的若干思考…