清华团队新算法玩转频域时域,压缩95%计算量实现语音分离新SOTA!

低算力高性能,真实场景大显身手

清华团队新算法玩转频域时域,压缩95%计算量实现语音分离新SOTA!

原标题:清华团队新算法玩转频域时域,压缩95%计算量实现语音分离新SOTA!
文章来源:机器之心
内容字数:7239字

清华大学提出轻量级语音分离模型TIGER及EchoSet数据集

本文介绍了清华大学研究团队提出的轻量级语音分离模型TIGER及其配套数据集EchoSet。该模型旨在解决现有语音分离模型计算复杂度高和数据集与真实场景差距大的问题,从而提升语音分离在实际应用中的性能和泛化能力。

1. 语音分离的挑战与TIGER模型

语音分离旨在从混合音频中分离出不同声源,是语音识别等任务的重要前置步骤。然而,现有许多高性能模型计算复杂度高,且常用数据集与真实场景存在差距,限制了其在实际应用中的表现。TIGER模型应运而生,它通过时频交叉建模策略,结合频带切分和多尺度注意力机制,在显著提升分离效果的同时,大幅降低了计算复杂度。TIGER模型的参数量和计算量分别降低了94.3%和95.3%,性能与当前最先进的模型TF-GridNet相当。

2. TIGER模型的架构与创新点

TIGER模型主要包含五个部分:编码器、频带切分模块、分离器、频带恢复模块和解码器。其核心创新在于分离器模块,它由多个共享参数的时频交叉建模模块(FFI)构成。每个FFI模块包含频率路径和帧路径,并分别使用多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A)提取多尺度特征和捕捉长距离依赖关系。频带切分策略则进一步减少计算量,提升模型对关键频带的关注。

3. EchoSet数据集:更真实的模拟

为了弥补现有数据集与真实场景的差距,研究团队提出了EchoSet数据集。该数据集基于SoundSpaces 2.0平台和Matterport3D场景数据集构建,模拟了真实的混响效果和随机的语音重叠比例,包含20,268条训练语音、4,604条验证语音和2,650条测试语音。实验表明,使用EchoSet训练的模型在真实世界数据上的泛化能力显著优于其他数据集训练的模型。

4. 实验结果与性能比较

实验结果表明,TIGER在Libri2Mix、LRS2-2Mix和EchoSet等数据集上均表现出色,尤其在EchoSet数据集上性能提升显著。即使在参数量大幅压缩的情况下(TIGER tiny),其性能仍优于其他轻量化模型。此外,TIGER在电影音频分离任务中也展现了强大的泛化能力,能够有效分离人声、音乐和音效。

5. 结论

TIGER模型通过巧妙的架构设计和高效的算法,在保证高性能的同时显著降低了计算成本,并结合更贴近真实场景的EchoSet数据集,为语音分离任务提供了一种新的解决方案。其在计算资源受限的场景下具有广泛的应用前景。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...