字节跳动李航 | 对大语言模型的若干思考…

字节跳动李航 | 对大语言模型的若干思考...

AIGC动态欢迎阅读

原标题:字节跳动李航 | 对大语言模型的若干思考…
关键字:模型,语言,序列,字节跳动,心智
文章来源:人工智能学家
内容字数:15693字

内容摘要:


来源:机器之心专栏
作者:ByteDance Research负责人李航本文阐述笔者对 LLM 的一些看法,主要观点如下:
ChatGPT 的突破主要在于规模带来的质变和模型调教方式的发明。
LLM 融合了实现人工智能的三条路径。
LLM 的开发需要结合第三者体验和第一者体验。
LLM 能近似生成心智语言。
LLM 需要与多模态大模型结合,以产生对世界的认识。
LLM 本身不具备逻辑推理能力,需要在其基础上增加推理能力。
1. LLM 强大之所在
1.1 LLM 的主要突破
ChatGPT 和 GPT4 为代表的 LLM 有以下主要手段 [1][2]。
模型:Transformer 拥有强大的表示能力,能对具有组合性(compositinality)的语言进行很好的表示和学习。
预训练(pre-training):使用大规模文本数据进行语言建模(language modeling),学习进行的是数据压缩,也就是单词序列的生成概率最大化或预测误差最小化。
监督微调 SFT(supervised fine tunning):学习的是输入到输出的映射,X→Y, 或者是输入到输出的映射及产出过


原文链接:字节跳动李航 | 对大语言模型的若干思考…

联系作者

文章来源:人工智能学家
作者微信:AItists
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...