RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免

AIGC动态11个月前发布 机器之心
22 0 0

RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免

AIGC动态欢迎阅读

原标题:RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免

关键字:模型,人类,用户,行为,反馈

文章来源:机器之心

内容字数:4506字

内容摘要:机器之心报道编辑:小舟、陈萍AI 助手经过训练,可以给出人类喜欢的回答,该研究表明,这些 AI 系统通常会产生奉承人类的响应,但这些响应并不完全准确。通过分析表明,人类的反馈有助于这种行为。‍不管你是身处 AI 圈还是其他领域,或多或少的都用过大语言模型(LLM),当大家都在赞叹 LLM 带来的各种变革时,大模型的一些短板逐渐暴露出来。例如,前段时间,Google DeepMind 发现 LLM …

原文链接:点此阅读原文:RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...