基于STM32微控制器的MCUVLM-RWKV视觉-语言模型研究

朱忠诺, 邵星灵, 李秀源, 邓瑞祥, 徐悦梅, 张强

中北大学学报(自然科学版) ›› 2026, Vol. 47 ›› Issue (1) : 71 -79.

PDF
中北大学学报(自然科学版) ›› 2026, Vol. 47 ›› Issue (1) : 71 -79.

基于STM32微控制器的MCUVLM-RWKV视觉-语言模型研究

    朱忠诺, 邵星灵, 李秀源, 邓瑞祥, 徐悦梅, 张强
作者信息 +

Author information +
文章历史 +
PDF

摘要

随着人工智能在安防、工业和农业等领域的广泛应用,边缘设备在视觉推理任务中的需求不断增长。然而,受限于硬件资源,针对STM32的视觉-语言模型部署方案仍相对缺乏。为应对这一问题,本文提出了一种面向STM32的视觉-语言模型MCUVLM-RWKV。该模型融合了轻量化视觉编码器、轻量化视觉特征映射器和具备双模式运行机制的RWKV解码器三大核心模块,可完成图像描述任务。实验结果表明,在STM32的运行内存与存储限制下,MCUVLM-RWKV在BLEU-4、 ROUGE-L和METEOR等评价指标上均优于多种主流模型,其中ROUGE-L指标达到55.7,显著高于其他对比模型,表明该模型在长序列推理任务中具有更强的建模能力。此外,MCUVLM-RWKV在参数规模与推理内存占用方面表现优异,进一步验证了其在微控制器场景下的推理性能与部署可行性。

关键词

STM32 / 视觉-语言模型 / 边缘计算 / 内存优化 / RWKV / 图像描述

Key words

引用本文

引用格式 ▾
基于STM32微控制器的MCUVLM-RWKV视觉-语言模型研究[J]. 中北大学学报(自然科学版), 2026, 47(1): 71-79 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

3

访问

0

被引

详细

导航
相关文章

AI思维导图

/