根据模型输出反转LLM输入提示，让恶意攻击无处可藏

AIGC动态1年前 (2024)发布大数据文摘

AIGC动态欢迎阅读

原标题：根据模型输出反转LLM输入提示，让恶意攻击无处可藏
关键字：模型,提示,本文,概率,作者
文章来源：大数据文摘
内容字数：6870字

内容摘要：

大数据文摘授权转载自将门创投
作者：seven_
近一段时间以来，工业界和学术界都对大型语言模型（LLM）的内部运行机理进行了深入的研究和探索。这种基础理论研究对于大模型更安全更广泛的应用落地具有重要意义。目前较为流行的LLM架构仍然基于自回归式的Transformer架构，即模型根据上一步输出的token来预测下一个token的概率分布。那我们能否根据LLM的输出反推出用户输入给模型的提示（prompt）呢，这种情景在舆情监控等安全领域会经常出现。用恶意用户通过伪装手段对LLM发出攻击时，如果能够对输出进行反推分析得到攻击者的伪装手段，就可以更具针对性的进行拦截。
本文介绍一篇来自康奈尔大学计算机系的研究论文，本文的研究团队首次提出了反转语言模型（Language Model Inversion）的概念，并通过实验表明，LLM中的下一个预测token包含了先前文本token的大量先验。同时也提出了一种仅在模型当前分布来恢复用户未知提示的方法，该方法在Llama-27b模型上实现了78%的F1恢复精度。论文题目：
Language Model Inversion论文链接：
https:

原文链接：根据模型输出反转LLM输入提示，让恶意攻击无处可藏