TIGER – 清华大学推出的轻量级语音分离模型
TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是一款由清华大学研究团队开发的轻量化语音分离模型。其创新的时频交叉建模策略结合频带切分和多尺度注意力机制,不仅显著提升了语音分离的效果,还有效降低了参数数量和计算复杂度。
什么是TIGER
TIGER(Time-frequency Interleaved Gain Extraction and Reconstruction Network)是清华大学研究团队推出的一款轻量级语音分离模型。该模型采用时频交叉建模策略,通过频带切分和多尺度注意力机制,显著提高了语音分离的性能,同时减少了模型所需的参数数量和计算资源。TIGER的创新之处在于其时频交叉建模模块(FFI),能够高效整合时间和频率信息,以更好地提取语音特征。模型还引入了多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A),进一步优化了特征提取能力。
TIGER的主要功能
- 高效语音分离:TIGER利用时频交叉建模模块(FFI)和多尺度注意力机制,能够有效分离混合语音中的不同发言者。
- 低计算和参数需求:该模型在压缩了94.3%的参数量和95.3%的计算量后,依然保持与当前最先进模型相当的性能。
- 适应复杂声学环境:TIGER通过EchoSet数据集模拟真实场景中的噪声和混响,从而提升模型在复杂环境下的鲁棒性。
TIGER的技术原理
- 时频交叉建模策略:TIGER的核心是时频交叉建模模块(FFI),通过交替处理时间和频率信息,有效整合时频特征。该模块由频率路径和帧路径组成,每个路径都包含多尺度选择性注意力模块(MSA)和全频/帧注意力模块(F³A),融合局部和全局信息,增强语音分离效果。
- 频带切分:语音信号的能量在不同频带上分布不均,中低频带包含更多的语音信息,而高频带则包含更多的噪声和细节。TIGER通过频带切分策略,将频带划分为不同宽度的子带,减少计算量的同时,使模型更专注于关键频带。
- 多尺度注意力机制:TIGER引入了多尺度选择性注意力模块(MSA),通过多尺度卷积层和选择性注意力机制,增强模型对多尺度特征的提取能力。
- 整体流程:TIGER的整体流程包括五个部分:
- 编码器:利用短时傅里叶变换(STFT)将混合音频信号转换为时频表示。
- 频带切分模块:将整个频带划分为多个子带,每个子带通过一维卷积转换为统一的特征维度。
- 分离器:由多个时频交叉建模模块(FFI)组成,用于提取每个说话者的声学特征。
- 频带恢复模块:将子带恢复到全频带范围。
- 解码器:通过逆短时傅里叶变换(iSTFT)生成每个说话者的清晰语音信号。
TIGER的项目地址
- 项目官网:https://cslikai.cn/TIGER/
- Github仓库:https://github.com/JusperLee/TIGER
- arXiv技术论文:https://arxiv.org/pdf/2410.01469
TIGER的应用场景
- 会议及演讲记录:在多发言者的会议或演讲中,TIGER能够有效分离不同发言者的声音,提高会议记录的效率及准确性。
- 视频剪辑与制作:在视频内容创作中,TIGER可以精准分离主播与背景音或其他人物的语音,便于后期制作与剪辑。
- 电影音频处理:TIGER在电影音频分离任务中表现优异,能够分离出人声、音乐和音效,从而提升音频处理的灵活性和质量。
- 智能语音助手:在智能语音助手的应用中,TIGER能够帮助分离用户的语音和背景噪声,从而提升语音交互体验。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...