什么会影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准与评估体系

AIGC动态2个月前发布 量子位
11 0 0

什么会影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准与评估体系

AIGC动态欢迎阅读

原标题:什么会影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准与评估体系
关键字:模型,攻击者,成功率,提示,团队
文章来源:量子位
内容字数:0字

内容摘要:


USAIL团队 投稿量子位 | 公众号 QbitAI全新大语言模型越狱攻击基准与评估体系来了。
来自香港科技大学(Guangzhou)USAIL研究团队,从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。
提出攻击分析系统性框架JailTrackBench。
JailTrackBench研究重点分析了不同攻击配置对LLMs性能的影响,包括攻击者的能力、预算、对抗性后缀长度,以及模型的大小、安全对齐情况、系统提示和模板类型。
其研究成果《Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs》现已被NeurIPS D&B 2024接收。
此外,为了全面解决大语言模型的越狱问题,USAIL团队不仅专注于攻击,还深入探讨了越狱评估这一核心问题。
越狱分析JailTrackBench近年来,随着人工智能的迅速发展,尤其是大语言模型(LLMs)的广泛应用,保障模型的安全性并防止其被恶意利用,已成为一个重要的议题。越狱攻击通过恶意指令诱导模型生成有害或不道德的内容,对模型的安全性和可靠性构成了严峻挑战。
这种攻击与防御的博弈,极大地推


原文链接:什么会影响大模型安全?NeurIPS'24新研究提出大模型越狱攻击新基准与评估体系

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...