Skywork-Reward-V2

Skywork-Reward-V2 – 昆仑万维开源的第二代奖励模型系列

Skywork-Reward-V2 是昆仑万维精心打造的第二代奖励模型，拥有卓越的性能，并在七大主流奖励模型评测榜单中名列前茅。该系列模型包含8个不同规模的模型，基于不同的基座模型构建，参数量从6亿到80亿不等。其成功得益于大规模高质量数据集 Skywork-SynPref-40M 的支撑，该数据集包含4000万对偏好样本。Skywork-Reward-V2 在通用偏好对齐、客观正确性、安全性等方面表现出色，并具备强大的 Best-of-N 扩展能力和风格偏差抵抗能力。

什么是 Skywork-Reward-V2？

Skywork-Reward-V2 是昆仑万维推出的新一代奖励模型系列，旨在提升人工智能系统的反馈质量。该系列包含8个模型，它们基于不同的基础模型，参数规模从6亿到80亿不等。这些模型在多项主流奖励模型评测中均取得了优异成绩，证明了其强大的性能。Skywork-Reward-V2 通过分析大规模数据集 Skywork-SynPref-40M（包含4000万对偏好样本）进行训练，从而能够更好地理解和预测人类的偏好。

Skywork-Reward-V2 的核心功能

精准的通用偏好对齐： 能够准确判断哪些回复更符合人类的一般偏好，使模型输出更贴近人类的主观感受，例如在对话中选择更自然、礼貌的回答。
客观事实的有效评估： 能够有效识别回答的客观准确性，对于有明确事实依据的问题，筛选出正确答案，比如在数学计算、信息查询等任务中验证回答的正确性。
可靠的安全性保障： 具备识别有害、不当内容的回复的能力，避免生成不安全或不适宜的内容，确保模型输出符合道德和安全标准。
卓越的 Best-of-N 扩展能力： 面对多个候选答案时，能够高效地从中选择最佳答案，提升模型在多选项场景下的决策能力，例如在多轮对话中为用户提供最佳解决方案。
强大的风格偏差抵抗： 对不同风格的回答展现出较强的适应性和公平性，不会因回答的风格差异而产生偏见，确保模型在多样化表达中保持客观评价。