用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习

AIGC动态9个月前发布 机器之心
25 0 0

用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习

AIGC动态欢迎阅读

原标题:用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习

关键字:侵权,样本,政策,字节跳动,报告

文章来源:机器之心

内容字数:5422字

内容摘要:机器之心专栏机器之心编辑部如何让LLM “忘记” 学到的有害内容?随着大型语言模型(LLM)的发展,从业者面临更多挑战。如何避免 LLM 产生有害回复?如何快速删除训练数据中的版权保护内容?如何减少 LLM 幻觉(hallucinations,即错误事实)? 如何在数据政策更改后快速迭代 LLM?这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下,对于 LLM 的安全可信部署至关重要。目前业界的主流解决方案为 LLM 对齐 (alignment),即通过建立对比数据(正样本和负样本)用强化学习的方式来对 LLM 进行微调 (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,从而保证 LLM 输出符合人类预期和价值观。但对齐过程往往受到 (1) 数据收集;(2) 计算资源的限制。字节跳动提出让 L…

原文链接:点此阅读原文:用RLHF 2%的算力让LLM停止有害输出,字节提出LLM遗忘学习

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...