为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了

文章来源：量子位

内容字数：4904字

内容摘要：西风发自凹非寺量子位 | 公众号 QbitAI防止大模型作恶的新法子来了！这下即使模型开源了，想恶意使用模型的人也很难让大模型“作恶”。不信就来看这项研究。斯坦福研究人员最近提出了一种新方法对大模型使用附加机制进行训练后，可以阻止它对有害任务的适应。他们把通过此方法训练出的模型称为“自毁模型”。自毁模型仍然能够高性能地处理有益任务，但在面对有害任务的时候会神奇地“变差”。目前该论文已被AAAI…

原文链接：点此阅读原文：为防大模型作恶，斯坦福新方法让模型「遗忘」有害任务信息，模型学会「自毁」了