AI会「说谎」，RLHF竟是帮凶

AIGC动态1年前 (2024)发布机器之心

AI会「说谎」，RLHF竟是帮凶

AIGC动态欢迎阅读

原标题：AI会「说谎」，RLHF竟是帮凶
关键字：人类,政策,错误,可能会,发现
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
机器之心编辑部虽然 RLHF 的初衷是用来控制人工智能（AI），但实际上它可能会帮助 AI 人类。语言模型 (LM) 可能会产生人类难以察觉的错误，尤其是在任务复杂的情况下。作为最近流行的后训练方法 RLHF ，可能会加剧这个问题：为了获得更高的奖励，LM 可能会更好地说服人类认为它们是正确的，即使它们是错误的。
这对人类评估者来说是一个巨大的挑战，因为人类想要发现 LM 输出中那些似乎正确的细微错误非常困难。在正确的答案和看起来正确的答案之间出现了差距（gap）。
这种差距可能会导致 RLHF 奖励：为了获得更高的奖励，LM 可以学会说服人类即使他们错了，他们也是正确的。研究者将这种行为命名为 U-SOPHISTRY（诡辩），因为这种结果不是开发人员想要的。
当将 LM 用于复杂且关键的任务时，U-SOPHISTRY 会带来重大风险。例如，RLHF 可能会让 AI 更好地说服人类接受不准确的科学发现或偏见政策。
这种情况颇具讽刺意味：虽然 RLHF 的初衷是用来控制人工智能（AI），但它实际上可能会人类，让人类误以为他们掌控了一切。
虽然模型的 U-SO

原文链接：AI会「说谎」，RLHF竟是帮凶