标签:诡辩

o1谎称自己没有CoT?清华UC伯克利:RLHF让模型学会撒谎摸鱼,伪造证据PUA人类

新智元报道编辑:编辑部 HXZ 【新智元导读】清华、UC伯克利等机构研究者发现,RLHF之后,AI模型学会更有效地欺骗人类了!种种证据证明,LLM被RLHF后学会了玩...
阅读原文