MemPrivacy

AI工具16分钟前更新 AI工具集
0 0 0

MemPrivacy – 记忆张量联合荣耀 AI 开源的隐私保护框架

MemPrivacy:革新Agent记忆隐私保护的端云协同框架

在人工智能Agent日益深入我们生活的方方面面,尤其是其强大的长期记忆能力为用户带来便利的同时,也潜藏着严峻的隐私泄露风险。针对这一痛点,记忆张量(MemTensor)团队携手荣耀AI团队及同济大学,重磅推出了MemPrivacy——一个开创性的端云协同Agent隐私保护框架。该框架的核心在于其独创的“本地可逆伪匿名化”方案,旨在为云端Agent的长期记忆保驾护航。

MemPrivacy的运作机制堪称巧妙:当用户输入包含敏感信息时,Agent的端侧会率先识别并将其替换为带有语义类型的占位符,例如用<Email_1><Health_Info_1>来替代真实的电子邮件地址或健康信息。这些被替换的真实值,则安全地存储在本地的SQLite数据库中,形成一个映射关系。云端Agent接收到的仅是这些占位符,它们能够继续进行推理、记忆的写入和检索,而不会接触到用户的原始敏感数据。当处理结果需要回传时,本地端则会利用之前存储的映射关系,将占位符还原为真实内容,实现用户隐私的完整保护。

MemPrivacy的强大功能远不止于此,它集成了多项创新技术:

  • 本地可逆伪匿名化:这是MemPrivacy的基石。它能在本地端智能识别并替换隐私信息为语义占位符,并将真实值与占位符的对应关系加密保存在本地SQLite数据库。云端仅处理匿名化后的信息,确保明文隐私数据绝不上云。最终,本地端负责将占位符还原为用户可读的真实内容。

  • 四级隐私分类体系(PL1–PL4):MemPrivacy构建了一个精细的隐私分级体系,基于信息的可识别性、潜在危害性及可利用性,将隐私划分为基础画像级(PL1)、身份锚定级(PL2)、高危敏感级(PL3)以及致命核心级(PL4)。用户可以根据自身需求,灵活配置脱敏阈值和保护策略,实现个性化隐私防护。

  • 三种掩码模式:为了满足不同场景下的隐私需求,MemPrivacy提供了三种灵活的掩码模式:type_specific(类型化占位符,最大化保留语义信息,效用最佳)、generic(通用占位符,隐私强度更高但语义信息略弱)以及complete(完全删除敏感片段,隐私强度最高但效用最低)。

  • 端-云-端三段式流程:MemPrivacy采用“上行脱敏(本地)→ 云端处理(推理/记忆写入/工具调用)→ 下行恢复(本地)”的架构设计,实现了对敏感数据的架构级隔离。云端组件永远无法直接接触原始敏感值,从根本上杜绝了云端泄露的风险。

  • 多规格端侧模型:为了适应不同设备的需求,MemPrivacy开源了0.6B、1.7B、4B参数量的模型版本,均基于Qwen3系列底座,并提供SFT(监督微调)和RL(强化学习)训练版本,可轻松部署于从轻量级IoT设备到高性能端侧计算单元的各种场景。

  • 自研评测基准MemPrivacy-Bench:为了科学评估隐私保护效果,MemPrivacy推出了自研的评测基准MemPrivacy-Bench。该基准覆盖了200个合成用户、中英双语的多轮对话,包含超过15.5万个隐私项,能够全面评估隐私提取的准确性以及对记忆系统效用的损失。

  • 开箱即用的评估套件:MemPrivacy内置了对Mem0、LangMem、Memobase三大主流记忆系统的端到端评估脚本,用户可以轻松测试不同隐私保护策略下的隐私-效用权衡效果,无需复杂的配置。

  • 低延迟本地处理:MemPrivacy在端侧的隐私检测与脱敏处理延迟低于1秒,这使得它能够无缝集成到用户交互流程中,完全不会影响实时体验,确保了流畅的用户交互。

  • 持久化映射管理:通过本地SQLite数据库,MemPrivacy能够跨会话持久化存储占位符与真实值的映射关系。这对于Agent需要长期记忆的场景至关重要,确保了持续且可靠的隐私保护。

想要体验MemPrivacy的强大功能,使用流程也非常便捷:

  • 首先,克隆MemPrivacy的GitHub仓库并安装必要的依赖库。您可以直接通过git clone https://github.com/MemTensor/MemPrivacy.git来获取代码,然后创建虚拟环境并执行pip install -r requirements.txt

  • 接着,您需要配置MemPrivacy的隐私框架参数。编辑src/privacy_config.yaml文件,设置您的LLM API凭证,指定本地SQLite数据库的路径,并根据需求选择合适的掩码级别,例如PL3PL4

  • 如果您计划进行评估,还需要配置评估套件的参数。编辑evaluation/eval_config.yaml文件,配置OpenAI API、记忆系统数据库连接(Mem0 / Memobase)以及您使用的各角色LLM。

  • 运行核心脱敏流程,只需调用src/privacy_masking.py中的mask_dialogue()函数,并选择您偏好的掩码模式,如type_specificgenericcomplete

  • 将脱敏后的文本发送至云端LLM或记忆系统进行交互,云端将基于占位符完成推理和记忆操作。

  • 当需要结果回传时,调用unmask_dialogue()函数,利用本地SQLite映射表将云端响应中的占位符还原为真实值。

  • 对于需要进行记忆系统评估的用户,可以执行python evaluation/eval_mem0.pyeval_langmem.pyeval_memobase.py来完成端到端基准测试。

MemPrivacy的详细技术原理和项目资源如下:

  • GitHub仓库:https://github.com/MemTensor/MemPrivacy

  • HuggingFace模型库:https://huggingface.co/collections/IAAR-Shanghai/memprivacy

  • arXiv技术论文:https://arxiv.org/pdf/2605.09530

MemPrivacy的技术核心在于其精巧的本地可逆伪匿名化架构,通过“端-云-端”的流程设计,确保原始敏感信息永不暴露于云端。其细粒度的隐私检测模型基于Qwen3系列底座进行训练,通过SFT和GRPO强化学习,在隐私定位和替换能力上表现卓越。四级隐私分类树(PL1–PL4)为用户提供了高度可定制的隐私保护策略。创新的语义保留占位符替换机制,使得云端Agent在匿名化后仍能理解上下文,避免“失忆”。本地SQLite映射持久化保证了长期记忆场景下的隐私保护能力。三种掩码策略的动态切换,为用户提供了极大的灵活性。

MemPrivacy的核心优势令人瞩目:

  • 隐私提取准确率大幅领先:在MemPrivacy-Bench基准测试中,MemPrivacy-4B-RL版本的F1分数高达85.97%,远超OpenAI privacy-filter的35.50%,甚至在跨分布数据集PersonaMem-v2上仍保持显著优势。

  • 系统效用损失极低:在保护PL2-PL4级别隐私时,记忆系统的准确率仅下降0.71%~1.60%,远低于传统不可逆掩码方法造成的16%~42%的效用损失。

  • 越级碾压通用大模型:即使与GPT-5.2、Gemini-3.1-Pro等通用模型相比,MemPrivacy的微型版本在隐私提取任务上也展现出压倒性优势。

  • 细粒度语义保留:类型化占位符的设计,让云端Agent能够理解语义结构,有效避免了“Agent失忆”或任务逻辑中断的问题。

  • 低延迟端侧部署:单条消息处理延迟低于1秒,确保了无缝的本地部署体验。

  • 两阶段训练策略:通过SFT和GRPO的结合,MemPrivacy在隐私定位和精确率方面取得了优异平衡。

在与同类竞品对比中,MemPrivacy展现出显著优势:

对比维度MemPrivacyOpenAI privacy-filter
发布方记忆张量 MemTensor + 荣耀 + 同济大学OpenAI
发布时间2026 年 5 月 15 日2026 年 4 月 22 日
模型参数0.6B / 1.7B / 4B(基于 Qwen3)1.5B 总参,约 50M 激活参数
隐私标签粒度细粒度类型化占位符(如 <Health_Info_1>8 类基础标签(如 [PRIVATE_PERSON][SECRET]
隐私分类体系四级分层(PL1-PL4),可调控阈值无明确分级,统一处理
核心机制本地可逆伪匿名化(端-云-端)双向 Token 分类,直接掩码/替换
F1 分数(MemPrivacy-Bench)85.97%(4B-RL 版本)35.50%
系统效用损失0.71% ~ 1.60%传统掩码导致 16%~42% 暴跌
上下文长度适配长文本 Agent 记忆场景128K
开源范围模型权重、代码、评测基准全开源模型开源

MemPrivacy的应用场景十分广泛:

  • 端侧智能助手隐私增强:为手机上的AI助手提供本地隐私过滤层,确保用户的健康、财务等敏感数据在上传云端前得到充分保护。

  • 企业级Agent合规部署:在涉及客户个人身份信息(PII)的客服Agent、医疗Agent等场景,MemPrivacy能够帮助企业满足严格的数据合规要求。

  • 长期记忆型个人助理:保护用户日程、偏好、家庭住址等长期记忆数据,同时不影响Agent的个性化服务能力。

  • 跨境云服务隐私隔离:对于中国大陆用户的数据,经本地脱敏后即可上传至云端处理,满足数据出境的合规性要求。

  • 隐私保护研究基准测试:利用MemPrivacy-Bench,可以对Mem0、LangMem、Memobase等不同记忆系统的隐私-效用权衡进行科学评估。

阅读原文
© 版权声明

相关文章

AI聚合视觉工厂

暂无评论

暂无评论...