AI 首次在网络安全方面被评为中等风险。
原标题:今天,OpenAI Deep Research已向所有付费用户开放,系统卡发布
文章来源:机器之心
内容字数:6550字
OpenAI Deep Research:更强大、更安全的互联网信息研究工具
OpenAI 近期正式向所有 ChatGPT Plus、Team、Edu 和 Enterprise 用户推出 Deep Research,这款强大的智能体能够利用推理能力综合大量在线信息,完成多步骤研究任务,帮助用户进行深入复杂的信息查询与分析。此前,Deep Research 仅限于 Pro 用户使用。
Deep Research 的核心能力
Deep Research 基于 OpenAI o3 正式版模型,而非 o3-mini。它能够搜索、解读和分析互联网上的文本、图像和 PDF,并根据信息进行调整。它还能读取用户提供的文件,并通过编写和执行 Python 代码来分析数据。其训练数据包含一系列任务,从客观自动评分任务到更开放的任务,并使用思维链模型进行评分。
严格的安全测试和风险缓解
在发布前,OpenAI 对 Deep Research 进行了严格的安全测试,包括外部红队测试、风险评估和治理审查。测试重点关注个人信息和隐私保护,以及模型对恶意指令的抵抗能力。OpenAI 还开发了新的评估方法,以更好地衡量 Deep Research 的能力和风险,并采取了相应的缓解措施。
风险识别、评估和缓解措施
外部红队测试重点关注个人信息和隐私、不允许的内容、危险建议等风险领域。红队成员尝试通过各种对抗策略规避模型的安全措施,OpenAI 根据测试结果对模型进行改进。报告中详细列出了每个风险的评估和缓解措施。
准备度框架评估
OpenAI 使用准备度框架对 Deep Research 进行了评估,该框架涵盖网络安全、CBRN、说服和模型自主性四个风险类别。Deep Research 在评估中被评为总体中等风险,其中网络安全方面首次被评为中等风险。该评估涵盖了模型的多个阶段,包括缓解前和缓解后的版本。
性能评估和结果
Deep Research 在 SWE-Lancer Diamond 测试中表现出色,缓解后的模型在解决 IC SWE 和 SWE Manager 任务方面表现最佳。报告中提供了更详细的评估结果和置信区间,并讨论了评估方法的局限性。
总而言之,Deep Research 是一个功能强大且经过严格安全测试的互联网信息研究工具。OpenAI 持续改进其安全性和性能,致力于为用户提供更可靠、更有效的工具。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台