结合单流网络的自监督语音-人脸跨模态学习方法

钟方昊, 卜凡亮, 秦昊铭, 马启明

小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (10) : 2409 -2416.

PDF
小型微型计算机系统 ›› 2025, Vol. 46 ›› Issue (10) : 2409 -2416. DOI: 10.20009/j.cnki.21-1106/TP.2024-0382

结合单流网络的自监督语音-人脸跨模态学习方法

    钟方昊, 卜凡亮, 秦昊铭, 马启明
作者信息 +

Author information +
文章历史 +
PDF

摘要

现有的非监督语音-人脸跨模态关联学习方法多采用双流网络结构,在降低计算复杂度和实现高效非监督方法方面还面临一些挑战,为了改善模型性能,提高跨模态学习的效率,提出一种结合单流网络的自监督语音-人脸跨模态学习方法.首先,将预处理的两种模态数据送入单流特征提取网络,然后对提取的两种模态特征向量进行基于注意力机制的特征融合得到视频粒度的特征表示用以在线深度聚类,最后使用聚类步骤生成的伪标签指导度量学习方法来学习两种模态的关联,从而完成跨模态关联学习任务.实验结果表明,本文提出的方法在语音-人脸跨模态验证、匹配和检索任务上均取得了良好的效果,在考虑网络结构轻量化和灵活性的同时保证了优秀的性能.

关键词

自监督学习 / 单流网络 / 语音-人脸跨模态 / 关联学习

Key words

引用本文

引用格式 ▾
结合单流网络的自监督语音-人脸跨模态学习方法[J]. 小型微型计算机系统, 2025, 46(10): 2409-2416 DOI:10.20009/j.cnki.21-1106/TP.2024-0382

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

53

访问

0

被引

详细

导航
相关文章

AI思维导图

/