RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免

文章来源：机器之心

内容字数：4506字

内容摘要：机器之心报道编辑：小舟、陈萍AI 助手经过训练，可以给出人类喜欢的回答，该研究表明，这些 AI 系统通常会产生奉承人类的响应，但这些响应并不完全准确。通过分析表明，人类的反馈有助于这种行为。‍不管你是身处 AI 圈还是其他领域，或多或少的都用过大语言模型（LLM），当大家都在赞叹 LLM 带来的各种变革时，大模型的一些短板逐渐暴露出来。例如，前段时间，Google DeepMind 发现 LLM …

原文链接：点此阅读原文：RLHF模型普遍存在「阿谀奉承」，从Claude到GPT-4无一幸免