150万条多语种音频数据！浙大清华发布语音伪造检测框架SafeEar，兼顾隐私保护｜CCS 2024

AIGC动态欢迎阅读

原标题：150万条多语种音频数据！浙大清华发布语音伪造检测框架SafeEar，兼顾隐私保护｜CCS 2024
关键字：语音,声学,特征,音频,模型
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST
【新智元导读】SafeEar是一种内容隐私保护的语音伪造检测方法，其核心是设计基于神经音频编解码器的解耦模型，分离语音声学与语义信息，仅利用声学信息检测，包括前端解耦模型、瓶颈层和混淆层、伪造检测器、真实环境增强四部分。近年来，语音合成和语音转换等技术取得快速发展，基于相关技术能够合成逼真、自然的音频。然而，攻击者可利用该技术进行语音伪造，即「克隆」特定对象语音，为用户隐私安全与社会稳定带来严重威胁。
目前，已有较多基于卷积神经网络、图神经网络等的伪造检测方法取得了优越的检测效果。但现有工作通常需要采用音频波形或频谱特征作为输入，即需要访问语音完整信息，在该过程中存在语音隐私泄露问题。同时，已有研究证实音色、响度等声学特征在语音伪造检测上的重要性[1,2]，这为仅基于声学特征进行深度伪造检测带来潜在可能。
针对此问题，浙江大学智能系统安全实验室(USSLAB)与清华大合提出SafeEar，一种内容隐私保护的语音伪造检测方法。论文地址：https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pd

原文链接：150万条多语种音频数据！浙大清华发布语音伪造检测框架SafeEar，兼顾隐私保护｜CCS 2024