摘要
针对Transformer模型中自注意力机制的二次方计算复杂度限制其在处理长序列音频时的效率和应用问题,文章提出一种分层非对称Mamba网络的语音分离框架。首先,引入Mamba状态空间模型作为核心处理单元,实现对音频序列长程依赖的线性复杂度建模,降低计算成本;然后,设计一种非对称的编解码器结构,采用早点分离策略,在编码器的瓶颈层将混合特征直接分离为多个说话人流,减轻编码和分离的耦合负担;最后,借鉴U-Net的分层思想,构建多尺度的网络结构,并通过跨说话人Mamba模块在解码器中实现分离流之间的信息交互,提升分离的精确度。在WSJ0-2/3mix和Libri2/3Mix数据集上进行试验验证。试验结果表明,与Conv-Tas Net、DPRNN、Sepformer、DPMamba-S模型相比,分层非对称Mamba网络的分离性能更优,且降低了模型参数量和计算复杂度。
关键词
Key words
黄勇, 刘晓璇, 刁儒敏.
基于分层非对称Mamba的单通道语音分离研究[J].
南京工程学院学报(自然科学版), 2026, 24(1): 84-90 DOI:10.13960/j.issn.1672-2558.2026.01.012