基于语码转换的低资源语言视觉问答方法研究

刘征, 董俊, 嘉乐东珠, 超木日力格, 刘轩, 翁彧

北京师范大学学报(自然科学版) ›› 2025, Vol. 61 ›› Issue (03) : 277 -284.

PDF
北京师范大学学报(自然科学版) ›› 2025, Vol. 61 ›› Issue (03) : 277 -284.

基于语码转换的低资源语言视觉问答方法研究

    刘征, 董俊, 嘉乐东珠, 超木日力格, 刘轩, 翁彧
作者信息 +

Author information +
文章历史 +
PDF

摘要

为解决视觉语言模型面对低资源场景缺乏大规模标注数据和有效迁移方法的困境,提出了基于语码转换的中国民族语言预训练模型视觉问答(CCMPLM-VQA)方法.通过语码转换跨语言掩码建模方法,降低了模型对标注训练数据的依赖,同时引入全新结构的语言适配器(language adapter,LA),有效提升了CCMPLM-VQA多模态对齐效果;验证了所提方法的有效性.结果表明:相较最佳基准模型,CCMPLM-VQA在现实世界通用视觉推理数据集上的零样本性能提升了约12%;在跨语言现实世界通用视觉推理数据集上的零样本性能优于现有类似方法约1%.

关键词

低资源语言 / 视觉问答 / 语码转换 / 知识蒸馏 / 跨模态语义对齐

Key words

引用本文

引用格式 ▾
基于语码转换的低资源语言视觉问答方法研究[J]. 北京师范大学学报(自然科学版), 2025, 61(03): 277-284 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

54

访问

0

被引

详细

导航
相关文章

AI思维导图

/