LLM 比之前预想的更像人类，竟也能「三省吾身」

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：LLM 比之前预想的更像人类，竟也能「三省吾身」
关键字：报告,模型,行为,自我,数据
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：Panda子曾经曰过：「见贤思齐焉，见不贤而内自省也。」自省可以帮助我们更好地认识自身和反思世界，对 AI 来说也同样如此吗？
近日，一个多机构联合团队证实了这一点。他们的研究表明，语言模型可以通过内省来了解自身。论文标题：Looking Inward: Language Models Can Learn About Themselves by Introspection
论文地址：https://arxiv.org/pdf/2410.13787
让 LLM 学会自省（introspection）其实是一件利害皆有的事情。
好的方面讲，自省式模型可以根据其内部状态的属性回答有关自身的问题 —— 即使这些答案无法从其训练数据中推断出来。这种能力可用于创造诚实的模型，让它们能准确地报告其信念、世界模型、性格和目标。此外，这还能帮助人类了解模型的道德状态。
坏的方面呢，具备自省能力的模型能更好地感知其所处的情形，于是它可能利用这一点来避开人类的监督。举个例子，自省式模型可通过检视自身的知识范围来了解其被评估和部署的方式。
为了测试 AI 模型的自省能力，该团队做了一些实验

原文链接：LLM 比之前预想的更像人类，竟也能「三省吾身」