0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性

AIGC动态2年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性

文章来源：新智元

内容字数：6546字

内容摘要：新智元报道编辑：LRS【新智元导读】微调LLM需谨慎，用良性数据、微调后角色扮演等都会破坏LLM对齐性能！学习调大了还会继续提高风险！虽说预训练语言模型可以在零样本（zero-shot）设置下，对新任务实现非常好的泛化性能，但在现实应用时，往往还需要针对特定用例对模型进行微调。不过，微调后的模型安全性如何？是否会遗忘之前接受的对齐训练吗？面向用户时是否会输出有害内容？提供LLM服务的厂商也需要考虑…

原文链接：点此阅读原文：0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性