OpenAI o1强推理能提升安全性？长对话诱导干翻o1

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：OpenAI o1强推理能提升安全性？长对话诱导干翻o1
关键字：政策,研究人员,节点,模型,线索
文章来源：机器之心
内容字数：0字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com
本文作者来自于上海交大，上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰，导师为马利庄教授，其他作者包括北航研究生李昊，上海 AI Lab 研究员刘东瑞，上海 AI Lab 青年科学家邵婧等。
最近，以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升，在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称，推理可以让模型更好的遵守安全政策，是提升模型安全的新路径。
然而，推理能力的提升真的能解决安全问题吗？推理能力越强，模型的安全性会越好吗？近日，上海交大和上海人工智能实验室的一篇论文提出了质疑。
这篇题为《Derail Yourself: Multi-turn LLM Attack through Self-discov

原文链接：OpenAI o1强推理能提升安全性？长对话诱导干翻o1