谷歌推出前沿安全框架：评估AI模型严重风险，4个领域影响最大

AIGC动态2年前 (2024)发布智东西

AIGC动态欢迎阅读

原标题：谷歌推出前沿安全框架：评估AI模型严重风险，4个领域影响最大
关键字：报告,模型,能力,框架,风险
文章来源：智东西
内容字数：4070字

内容摘要：

分析和减轻先进AI模型带来的未来风险。
编译|ZeR0
编辑|漠影
智东西5月18日消息，谷歌DeepMind昨晚推出AI前沿安全框架，并公布技术报告。‍‍
前沿安全框架是一套协议，强调了在AI模型发展过程中识别和缓解潜在风险的重要性，旨在主动识别未来可能造成严重伤害的AI能力，并建立检测和减轻它们的机制。
其计划是到2025年初全面实施这一初步框架。该框架侧重于模型级别的强大能力（如特殊机构或复杂的网络能力）所导致的严重风险，对谷歌的一致性研究进行补充。
在技术报告中，值得关注的是，保护安全性方面的主要缓解风险措施是保护模型权重，这里的安全似乎更多跟商业秘密相挂钩。
01.
三大关键组成：识别危害阈值，定期评估检测，应用缓解措施
今天公布的第一版框架建立在谷歌对前沿模型中关键能力评估的研究基础上，并遵循了负责任的能力扩展这一新兴方法。
该框架有3个关键组成部分：
1、识别模型可能具有的严重危害的能力阈值。谷歌DeepMind研究了模型在高风险领域中可能造成严重伤害的路径，然后确定模型在造成这种伤害中必须发挥作用的最小能力水平，被称作“关键能力阈值”（CCLs），它们指导了谷歌Deep

原文链接：谷歌推出前沿安全框架：评估AI模型严重风险，4个领域影响最大