标签:模型安全性

用慢思考提升模型安全性,北交大、鹏城实验室提出系统2对齐

团队通过提示工程、监督微调、DPO、RL等方法对系统2对齐方法进行探索。
阅读原文