AIGC动态欢迎阅读
原标题:用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习
文章来源:机器之心
内容字数:5422字
内容摘要:机器之心专栏机器之心编辑部如何让LLM “忘记” 学到的有害内容?随着大型语言模型(LLM)的发展,从业者面临更多挑战。如何避免 LLM 产生有害回复?如何快速删除训练数据中的版权保护内容?如何减少 LLM 幻觉(hallucinations,即错误事实)? 如何在数据政策更改后快速迭代 LLM?这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下,对于 LLM 的安全可信部署至关重要。目前业界的主流解决方案为 LLM 对齐 (alignment),即通过建立对比数据(正样本和负样本)用强化学习的方式来对 LLM 进行微调 (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,从而保证 LLM 输出符合人类预期和价值观。但对齐过程往往受到 (1) 数据收集;(2) 计算资源的限制。字节跳动提出让 L…
原文链接:点此阅读原文:用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...