00后国人论文登Nature，大模型对人类可靠性降低

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：00后国人论文登Nature，大模型对人类可靠性降低
关键字：模型,人类,任务,难度,论文
文章来源：量子位
内容字数：0字

内容摘要：

一水发自凹非寺量子位 | 公众号 QbitAI00后国人一作登上Nature，这篇大模型论文引起热议。
简单来说，论文发现：更大且更遵循指令的大模型也变得更不可靠了，某些情况下GPT-4在回答可靠性上还不如GPT-3。
与早期模型相比，有更多算力和人类反馈加持的最新模型，在回答可靠性上实际愈加恶化了。
结论一出，立即引来20多万网友围观：
在Reddit论坛也引发围观议论。
这让人不禁想起，一大堆专家/博士级别的模型还不会“9.9和9.11”哪个大这样的简单问题。
关于这个现象，论文提到这也反映出，模型的表现与人类对难度的预期不符。
换句话说，“LLMs在用户预料不到的地方既成功又（更危险地）失败”。
Ilya Sutskever2022年曾预测：
也许随着时间的推移，这种差异会减少。
然而这篇论文发现情况并非如此。不止GPT，LLaMA和BLOOM系列，甚至OpenAI新的o1模型和Claude-3.5-Sonnet也在可靠性方面令人担忧。
更重要的是，论文还发现依靠人类监督来纠正错误的做法也不管用。
有网友认为，虽然较大的模型可能会带来可靠性问题，但它们也提供了前所未有的功能。

原文链接：00后国人论文登Nature，大模型对人类可靠性降低