ViT-Count:面向冠层遮挡的Vision Transformer树木计数定位方法

张乔一, 张瑞, 霍光煜

北京林业大学学报 ›› 2025, Vol. 47 ›› Issue (10) : 128 -138.

PDF
北京林业大学学报 ›› 2025, Vol. 47 ›› Issue (10) : 128 -138.

ViT-Count:面向冠层遮挡的Vision Transformer树木计数定位方法

    张乔一, 张瑞, 霍光煜
作者信息 +

Author information +
文章历史 +
PDF

摘要

【目的】针对复杂场景中树木检测的挑战,如遮挡、背景干扰及密集分布等,本研究提出一种基于Vision Transformer(ViT)的树木检测方法(ViT-Count),提升模型对复杂场景中树木的检测精度与鲁棒性。【方法】采用ViT作为基础模型,其在捕捉图像中全局上下文信息方面具有天然优势,尤其适用于形态多变的复杂环境。设计针对树木的视觉提示调优VPT机制,其通过在特征中注入可学习提示(prompts),优化模型在林地高密度树冠、光照变化及不同树种结构下的特征提取能力,提高对不同林分类型的适应性。设计卷积模块的注意力机制模块,利用其在局部感知基础上的长距离依赖建模能力,有效强化模型对树木遮挡、重叠及形态相似目标的辨别能力,提高整体检测的鲁棒性与准确性。设计一个树木检测解码器,通过多层卷积、归一化、GELU激活与上采样操作逐步还原空间分辨率,以生成的目标密度图实现树木计数与定位。【结果】该方法在提升森林、城市场景下的树木检测鲁棒性的同时,增强了模型在多尺度树木目标上的泛化能力。在Larch Casebearer数据集和Urban Tree数据集上进行的实验显示,与其他主流模型相比,该方法的MAE和RMSE最多分别降低了2.53、3.99,表明其泛化能力更强,具有最优的树木检测性能。可视化实验结果表明,在密集森林场景和复杂城市场景中,所提模型均具有较高的树木检测准确率。消融实验的结果证明了模型主要模块的有效性。【结论】基于Vision Transformer的面向复杂场景的树木计数与定位方法能够充分发挥ViT的全局建模能力及视觉提示调优机制任务适应性,结合卷积模块的注意力机制,有效提升复.杂场景树木计数与定位的精度与鲁棒性。

关键词

目标识别 / 树木计数 / 树木定位 / 复杂场景 / Vision Transformer (ViT) / 视觉提示调优 (VPT) / 注意力机制

Key words

引用本文

引用格式 ▾
ViT-Count:面向冠层遮挡的Vision Transformer树木计数定位方法[J]. 北京林业大学学报, 2025, 47(10): 128-138 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

69

访问

0

被引

详细

导航
相关文章

AI思维导图

/