学术前沿 | 进步对齐：让AI跟上人类道德的脚步

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：学术前沿 | 进步对齐：让AI跟上人类道德的脚步
关键字：价值观,人类,道德,模型,方法
文章来源：人工智能学家
内容字数：0字

内容摘要：

来源：北京大学人工智能研究院
供稿：邱天异
排版：梁文凯玥AI引发的价值锁定与进步对齐的定义随着AI技术的发展，AI系统已经开始在多个领域对人类的观念和价值观产生影响。例如，大型语言模型（LLM）被用于个人助理、教育、内容创作等，它们所体现的价值观可能会在社会层面上传递给用户。
价值锁定（Value Lock-in）是指由于AI系统的影响，社会的道德价值观长期停滞不前，停留在某个特定的历史阶段。例如，如果AI系统固化了21世纪初的价值观，未来的社会可能无法超越这些价值观，导致不道德实践的延续和新道德概念的缺失。
为防止这种现象，本文提出进步对齐的概念。进步对齐旨在确保AI系统所体现的道德价值观能够持续改进，跟随甚至引领人类道德的演变，就像人类价值观在过去千年中经历的进步一样。AI引发的价值锁定是关键生存性风险价值锁定可能导致社会丧失大量的道德潜力，延续当前的苦难和不公正。如果AI系统固化了当代的偏见和道德盲点，未来的人类社会可能会长期停滞在不道德的状态中。这种风险与AI引发的灭绝风险一样，都是关键的生存性风险，需要引起足够的重视和研究。
目前，对价值锁定的研究和关注相对较少，大多数对齐

原文链接：学术前沿 | 进步对齐：让AI跟上人类道德的脚步