用「图灵测试」检验AI尤其是大语言模型，真的科学吗？

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：用「图灵测试」检验AI尤其是大语言模型，真的科学吗？
关键字：人类,测试,智能,模型,计算机
文章来源：机器之心
内容字数：0字

内容摘要：

选自Communications of the ACM
作者：Neil Savage
机器之心编译
机器之心编辑部当前的大型语言模型似乎能够通过一些公开的图灵测试。我们该如何衡量它们是否像人一样聪明呢？在发布后的近两年时间里，ChatGPT 表现出了一些非常类似人类的行为，比如通过律师资格考试。这让一些人怀疑，计算机的智力水平是否正在接近人类。大多数计算机科学家认为，机器的智力水平还不能与人类相提并论，但他们还没有就如何衡量智力或具体衡量什么达成。
检验机器智能的经典实验是图灵测试，由艾伦・图灵在其 1950 年发表的论文《Computing Machinery and Intelligence》中提出。图灵认为，如果计算机能让与之进行打字对话的人相信它是人类，这可能就是智能的标志。大型语言模型（LLM），如 GPT，擅长像人一样说话，但尚未令人信服地通过图灵测试。2023 年，加州大学圣迭戈分校（UCSD）的研究人员公开进行了一次图灵测试，目的是比较最新的 LLM 与 20 世纪 60 年代开发的机器人 Eliza 的表现。在律师资格考试中获得高分的 GPT-4 表现相当出色

原文链接：用「图灵测试」检验AI尤其是大语言模型，真的科学吗？