用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

文章来源：机器之心

内容字数：5422字

内容摘要：机器之心专栏机器之心编辑部如何让LLM “忘记” 学到的有害内容？随着大型语言模型（LLM）的发展，从业者面临更多挑战。如何避免 LLM 产生有害回复？如何快速删除训练数据中的版权保护内容？如何减少 LLM 幻觉（hallucinations，即错误事实）? 如何在数据政策更改后快速迭代 LLM？这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下，对于 LLM 的安全可信部署至关重要。目前业界的主流解决方案为 LLM 对齐 (alignment)，即通过建立对比数据（正样本和负样本）用强化学习的方式来对 LLM 进行微调 (Finetuning)，也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ，从而保证 LLM 输出符合人类预期和价值观。但对齐过程往往受到 (1) 数据收集；(2) 计算资源的限制。字节跳动提出让 L…

原文链接：点此阅读原文：用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习