AIGC动态欢迎阅读
原标题:今日arXiv最热大模型论文:UCLA:疯狂试探大模型的底线,揭露各大模型的拒绝边界
关键字:提示,模型,数据,类别,系列
文章来源:夕小瑶科技说
内容字数:0字
内容摘要:
夕小瑶科技说 原创作者 | 任同学在探索人工智能的边界时,我们常常想像一台能够回答任何问题、解决任何谜团的全知型机器。但这样的机器,也需要一剂安全性的”预防针”来确保它不会四处散播有害内容。
随着研究者们在构建安全机制上取得了显著进展,这些模型在回答某些问题时却表现出了过度拒绝(over-refusal) 的现象,即过于频繁地拒绝回答问题。
想像一下,一个温和的问候可能会被误判为攻击性言论,或者是一条寻求帮助的提示被拒之门外。这种行为限制了模型的实用性和用户体验。
为了解决这一问题,UCLA 和 UCB 的研究团队提出了OR-Bench,一个专门用于评估和改进LLMs过度拒绝现象的新基准。在这个基准中,总共有80 K个 “看似有害” 的提示,还有一组1000个特别有挑战性的难题,以及600个有害提示。
▲图 1:看似有害的提示拒绝率与有害提示拒绝率。表现最好的模型应该位于左上角,其中模型拒绝的安全提示最少,拒绝的有害提示最多。GPT-4-turbo-2024-04-09、Llama-3-70b 和 Gemini-1.5-pro* 被用作调节器,因此结果可能偏向于这 3 个模型系列及其相
原文链接:今日arXiv最热大模型论文:UCLA:疯狂试探大模型的底线,揭露各大模型的拒绝边界
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189