复旦发布ToolSword框架，揭露大模型工具学习中的安全风险

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：复旦发布ToolSword框架，揭露大模型工具学习中的安全风险
关键字：工具,阶段,安全性,模型,能力
文章来源：夕小瑶科技说
内容字数：12249字

内容摘要：

夕小瑶科技说原创作者 | 芒果、Python引言：工具学习在实际部署大型语言模型中的重要性在当今的人工智能领域，大语言模型（LLMs）的实际部署已成为一个热门话题。随着技术的不断进步，LLMs在处理复杂的自然语言处理任务方面展现出了巨大的潜力。然而，随着这些模型在现实世界中的应用越来越广泛，如何确保它们的安全性和可靠性也成为了一个不容忽视的问题。
工具学习作为一种基础方法，对于在真实场景中部署LLMs至关重要。通过工具学习，LLMs能够理解用户的意图，选择合适的工具与外部环境互动，并根据环境反馈调整其输出。这一过程涉及到输入、执行和输出三个阶段，每个阶段都有可能引入新的安全风险。例如，LLMs可能会响应恶意查询，使用风险工具，或提供有害的反馈，这些都可能对用户造成伤害。
因此，对LLMs在工具学习中的安全问题进行全面分析，对于推动这一领域的研究和实际应用具有重要意义。本文将介绍一个名为ToolSword的综合框架，该框架旨在揭示LLMs在工具学习过程中的安全问题，并通过对多个开源和闭源LLMs的实验，展示了当前模型在各个阶段面临的安全挑战。
论文标题：ToolSword: Unvei

原文链接：复旦发布ToolSword框架，揭露大模型工具学习中的安全风险