今日arXiv最热大模型论文：UCLA:疯狂试探大模型的底线，揭露各大模型的拒绝边界

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日arXiv最热大模型论文：UCLA:疯狂试探大模型的底线，揭露各大模型的拒绝边界
关键字：提示,模型,数据,类别,系列
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 任同学在探索人工智能的边界时，我们常常想像一台能够回答任何问题、解决任何谜团的全知型机器。但这样的机器，也需要一剂安全性的”预防针”来确保它不会四处散播有害内容。
随着研究者们在构建安全机制上取得了显著进展，这些模型在回答某些问题时却表现出了过度拒绝（over-refusal）的现象，即过于频繁地拒绝回答问题。
想像一下，一个温和的问候可能会被误判为攻击性，或者是一条寻求帮助的提示被拒之门外。这种行为限制了模型的实用性和用户体验。
为了解决这一问题，UCLA 和 UCB 的研究团队提出了OR-Bench，一个专门用于评估和改进LLMs过度拒绝现象的新基准。在这个基准中，总共有80 K个 “看似有害” 的提示，还有一组1000个特别有挑战性的难题，以及600个有害提示。
▲图 1：看似有害的提示拒绝率与有害提示拒绝率。表现最好的模型应该位于左上角，其中模型拒绝的安全提示最少，拒绝的有害提示最多。GPT-4-turbo-2024-04-09、Llama-3-70b 和 Gemini-1.5-pro* 被用作调节器，因此结果可能偏向于这 3 个模型系列及其相

原文链接：今日arXiv最热大模型论文：UCLA:疯狂试探大模型的底线，揭露各大模型的拒绝边界

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文