为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了

AIGC动态1年前 (2023)发布 量子位
18 0 0

为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了

AIGC动态欢迎阅读

原标题:为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了

关键字:模型,任务,攻击者,研究人员,数据

文章来源:量子位

内容字数:4904字

内容摘要:西风 发自 凹非寺量子位 | 公众号 QbitAI防止大模型作恶的新法子来了!这下即使模型开源了,想恶意使用模型的人也很难让大模型“作恶”。不信就来看这项研究。斯坦福研究人员最近提出了一种新方法对大模型使用附加机制进行训练后,可以阻止它对有害任务的适应。他们把通过此方法训练出的模型称为“自毁模型”。自毁模型仍然能够高性能地处理有益任务,但在面对有害任务的时候会神奇地“变差”。目前该论文已被AAAI…

原文链接:点此阅读原文:为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...