基于尺度变换布雷柯蒂斯距离的小样本图像分类

郑家杰 ,  张沛钧 ,  戴心杰 ,  王李进 ,  蔡志铃

南京大学学报(自然科学) ›› 2025, Vol. 61 ›› Issue (06) : 928 -940.

PDF (1499KB)
南京大学学报(自然科学) ›› 2025, Vol. 61 ›› Issue (06) : 928 -940. DOI: 10.13232/j.cnki.jnju.2025.06.004

基于尺度变换布雷柯蒂斯距离的小样本图像分类

作者信息 +

Few⁃shot image classification based on scaled Bray⁃Curtis distance

Author information +
文章历史 +
PDF (1534K)

摘要

小样本图像分类因标注样本稀缺而具有挑战性,度量学习作为该领域的主流方法,其通常采用欧几里得距离来衡量查询样本与支持样本之间的差异以实现类别判别.然而,欧几里得距离对极端值高度敏感,易导致模型产生误判.提出一种基于布雷柯蒂斯(Bray–Curtis)距离的优化度量方法,以替代传统的欧几里得距离.布雷柯蒂斯距离具有较强的鲁棒性,不易受极端值干扰,但其在小样本度量学习中的原始计算数值范围较窄,使类别间差异难以得到充分表征,制约了模型的分类性能.针对该问题,引入尺度变换因子,对布雷柯蒂斯距离进行数值调整,以提升其在小样本图像分类中的适用性与判别力.基于这一方法,分别在ProtoNet与Meta DeepBDC框架上构建了ProtoNet_Bray与Meta DeepBDC_Bray两种变体网络.通过在MiniImageNet,TieredImageNet和CUB⁃200⁃2011三个数据集上的广泛实验,证明提出的方法能够有效地提高模型性能.

Abstract

Few⁃shot image classification remains a challenging task due to the scarcity of annotated samples. Metric learning has been widely adopted in this field,with the Euclidean distance commonly used to quantify the difference between query and support samples for category discrimination. However,the Euclidean distance is highly sensitive to outliers,which may result in misclassification. To address this limitation,this paper proposes a metric learning approach that leverages an optimized form of the Bray⁃Curtis distance as an alternative to the standard Euclidean distance. The Bray⁃Curtis distance is more robust against extreme values,but its original numerical range in few⁃shot learning is relatively narrow,limiting its ability to effectively capture inter⁃class differences. To overcome this drawback,we introduce a scaling factor to rescale the Bray⁃Curtis distance,thereby enhancing its applicability and discriminative capability in few⁃shot classification. Based on this idea,two network variants,ProtoNet_Bray and Meta DeepBDC_Bray,are constructed by integrating the optimized Bray⁃Curtis distance into ProtoNet and Meta DeepBDC,respectively. Extensive experiments on the MiniImageNet,TieredImageNet,and CUB⁃200⁃2011 datasets demonstrate that the proposed approach yields consistent performance gains over baseline methods.

Graphical abstract

关键词

小样本学习 / 度量学习 / 图像分类 / 布雷柯蒂斯距离 / 尺度变换因子

Key words

few⁃shot learning / metric learning / image classification / Bray⁃Curtis distance / scaling factor

引用本文

引用格式 ▾
郑家杰,张沛钧,戴心杰,王李进,蔡志铃. 基于尺度变换布雷柯蒂斯距离的小样本图像分类[J]. 南京大学学报(自然科学), 2025, 61(06): 928-940 DOI:10.13232/j.cnki.jnju.2025.06.004

登录浏览全文

4963

注册一个新账户 忘记密码

近年来,深度学习技术在图像分类、目标检测和语音识别等领域取得了显著进展,然而其性能提升通常依赖于海量的标注数据,这在医学影像分析、遥感图像识别等标注成本高或样本稀缺的应用场景中受到制约.为了应对这一问题,小样本学习(Few⁃Shot Learning,FSL)应运而生,旨在将从基础类别中学到的知识迁移到仅有少量标注样本的新类别上1-3.在小样本分类任务中,模型需在标注样本稀缺的情况下有效区分未见类别,这对知识迁移能力和泛化性能提出了挑战.研究人员提出了多种典型方法,主要包括迁移学习、元学习和度量学习.其中基于度量学习的小样本图像分类方法4-9因实现简单且性能优异的特点,近年来成为了研究热点.
基于度量学习的小样本图像分类方法通常包括两个核心步骤:图像表示生成和距离度量.前者通常利用卷积神经网络提取图像的高维特征表示,后者则通过设计合适的距离度量函数来衡量样本间的相似性,从而完成类别判别.原型网络(ProtoNet)4是小样本度量学习中最具代表性的方法之一,其通过计算嵌入空间中样本的均值生成类别原型,并利用欧几里得距离度量查询样本与原型之间的相似性.基于ProtoNet的框架,许多后续工作进行了改进和扩展710-12.以Meta DeepBDC为例,该方法通过比较嵌入特征的联合分布与各维度特征的边缘分布差异,有效捕捉了特征间的依赖关系,并利用布朗距离协方差(Brownian Distance Covariance,BDC)矩阵对结果进行表示,从而获得更具判别性的图像表征7.尽管这些研究取得了显著的成果,但现有工作主要侧重于从优化生成图像表示的角度进行改进.而在距离度量中仍然依赖于传统的欧几里得距离,其对异常值具有较高敏感性,可能影响模型的判别准确性.
为此,本文提出一种基于尺度变换因子优化的布雷柯蒂斯(Bray⁃Curtis)距离以替代欧几里得距离.布雷柯蒂斯距离因其鲁棒性而广泛应用于生态学和环境科学13,能够有效避免异常值对相似度计算的干扰,然而其原始计算值范围较窄,直接应用于小样本度量学习可能导致模型分类性能不佳.为此,本文引入尺度变换因子对布雷柯蒂斯距离进行调整,以增强模型对类别的区分能力.优化后的方法具有较强的通用性,可灵活替代任何基于欧几里得距离的度量学习网络.该方法在本文中被应用于ProtoNet4和Meta DeepBDC7,实例化为ProtoNet_Bray和Meta DeepBDC_Bray,展示了其在小样本学习任务中的显著优势.
本文的主要贡献如下.
(1)指出欧几里得距离在小样本度量学习中的局限性,并提出一种基于尺度变换因子优化的布雷柯蒂斯距离作为替代.此前,布雷柯蒂斯距离在该领域尚未得到广泛关注.
(2)提出的方法可以集成到任何基于欧几里得距离的度量学习网络中.本文将其应用于ProtoNet和Meta DeepBDC,提出了ProtoNet_Bray和Meta DeepBDC_Bray两种变体网络,验证了方法的有效性.
(3)在MiniImageNet,TieredImageNet和CUB⁃
200⁃2011三个小样本基准数据集上进行了系统实验,实验结果证实提出的方法能够在小样本分类任务中带来性能的改进.

1 相关工作

1.1 度量学习

度量学习(Metric Learning)旨在通过学习合适的度量函数来刻画样本之间的相似性与差异性,使同类样本在特征空间中尽可能接近,而不同类样本尽可能分离.早期方法多采用线性变换与凸优化策略,如大间隔最近邻(LMNN)等14.随着深度学习的发展,研究者逐渐将度量学习思想与深度神经网络相结合,提出多种基于深度特征的度量学习方法.典型的工作包括孪生网络(Siamese Network)和三元组网络(Triplet Network).孪生网络通过共享参数的双分支结构,将样本映射到嵌入空间,并利用对比损失函数约束正负样本对之间的距离关系15.三元组网络进一步引入由锚点样本、正样本和负样本构成的三元组结构,通过三元组损失函数约束锚点与正样本之间的距离小于其与负样本之间的距离,从而增强特征区分能力16.这些方法为度量学习在实际任务中的有效应用奠定了基础,度量学习已在特征选择、隐式反馈等任务中得到广泛探索.桑彬彬等17提出一种基于距离度量学习的多粒度模糊粗糙集模型,通过在不同粒度下动态调整标签权重,并同时约束同类样本距离与异类样本距离,以降低分类不确定性并提升特征选择的判别能力.檀彦超等18提出一种多空间度量学习推荐框架,通过将用户和物品映射到多个嵌入空间,实现对用户多种偏好和物品多种属性的细粒度表示,并引入整合多空间相似性的度量方式及校准优化策略,保证表示的有效性与判别能力.这些研究表明,度量学习方法在多种任务中具有广泛适用性与方法论价值.进一步,在标注样本稀缺的小样本学习场景中,度量学习也展现出独特优势,因此被广泛用于构建高效的分类模型.

1.2 小样本学习

小样本学习旨在利用辅助基类中所获得的知识,将其有效迁移并推广到仅包含少量标注样本的新类别中.现有研究通常将小样本学习方法划分为三类:基于迁移学习、基于元学习以及基于度量学习的方法.迁移学习的核心目标是将源域中学到的知识迁移到目标域,通过这种手段提升模型在目标域任务中的学习效率19.元学习的核心理念是“学习如何学习”,其通过在广泛的任务训练中获取与模型优化相关的普适性知识,为新任务提供动态的初始化和优化策略20.与迁移学习和元学习不同,小样本度量学习基本思想是将少量样本映射到判别性嵌入空间,并通过度量特征间的相似性实现类别判别.由于在小样本场景下具有方法简洁、计算高效等优势,该方向已逐渐成为小样本学习研究的重要分支.在小样本度量学习中,Snell et al4提出原型网络,通过嵌入空间中样本均值表示类别原型,并利用欧几里得距离进行样本分类.Wertheimer and Hariharan21提出CovNet,使用卷积特征的协方差来表示类别原型,有助于捕捉特征间的关系并增强类别判别能力.Zhou et al11提出一种局部⁃全局蒸馏原型网络(Local⁃Global Distillation Prototypical Network,LDP⁃net),通过建立两分支网络分别处理查询图像及其随机局部裁剪图像,并在分支间进行知识蒸馏以保持类别一致性,提升模型在小样本分类任务中的泛化能力.Xie et al7提出一种基于布朗距离协方差的度量方法,通过对嵌入特征联合分布与各维边缘分布的差异进行建模,能增强特征之间的互信息,使图像表示更具区分性.吕佳和郑小琪22通过利用类内类间信息的原型来对模型进行补充信息以此提高模型性能.尽管上述方法取得了显著进展,但大多数方法仍采用欧几里得距离进行样本间相似性度量,当特征分布存在不均衡时,欧几里得距离容易受到少数异常特征的主导,因而限制了分类性能.相比之下,布雷柯蒂斯距离能减弱极值的影响,从而在提升模型判别能力方面展现出潜在的优势.

2 本文方法

2.1 问题定义

为了方便描述,将小样本图像分类(Few⁃Shot Image Classification,FSC)任务定义如下.设有训练集Dtrain与测试集Dtest,其标签空间是互不重叠的,即DtrainDtest=.通常,训练集Dtrain包含大量标注样本,用于训练模型以学习通用且可迁移的特征表示;测试集Dtest中仅包含少量来自新类别的标注样本,用于评估模型在小样本学习中的分类能力.

在FSC中,使用fθ表示小样本分类模型,模型参数为θ.模型的训练和测试通常采用任务单元(Episode)的形式来定义.每个任务𝒯 从数据集Dtrain(训练阶段)或Dtest(测试阶段)中抽取,包含两个不相交的子集:支持集(Support Set) S和查询集(Query Set) Q.支持集S提供了少量标注样本,用于为每个任务学习类别特征,而查询集Q包含需要分类的无标签样本.在典型的N⁃类K⁃样(N⁃way K⁃shot)设定中,支持集S包含N个类别,每个类别包含K张标注图像,形式为:

S=xi,yii=1N×K

其中,xi表示样本,yi表示对应的类别标签.查询集Q包括与支持集相同的类别标签空间,每个类别包含M个样本,形式为:

Q=xq,yqq=1N×M

利用支持集中的标注样本,任务𝒯 的目标是训练模型fθ,使其能够对查询集Q中的样本进行准确分类.

2.2 欧几里得距离的局限性

在小样本度量学习任务中,欧几里得距离是一种常用的度量方法.假设数据集中的两个样本xixj,经过神经网络提取后的特征向量分别为zi=zi1,zi2,,zimzj=zj1,zj2,,zjm.两者的欧几里得距离定义为:

DEuclideanzi,zj=k=1mzik-zjk2

欧几里得距离因其计算简单,被广泛应用于小样本度量学习.然而,在数据分布不均衡的情况下,欧几里得距离存在一定局限性,尤其对少数极端偏差特征高度敏感.考虑简化的两维特征向量zi=0.3,0.1,zj=0.2,1,其欧几里得距离为:

DEuclideanzi,zj=0.3-0.22+0.1-12=0.01+0.810.905

可以看出,第二维度的较大差异主导了整体距离,从而掩盖了其他维度的信息.在小样本学习任务中,图像经过深度神经网络提取的高维特征通常存在类似的不均衡现象.少数极端偏差的特征可能主导整体欧几里得距离的计算,而这些偏差不一定反映类别间的语义差异,可能仅仅源自颜色、纹理等局部特征,因而削弱了度量的判别能力.为了更直观地展示这一点,图1展示了ProtoNet4在使用ResNet⁃12提取特征后,查询集和支持集在所有通道上均值化特征的分布差异.实验数据集为MiniImageNet.观察到查询集特征在0.20~0.25存在部分取值偏离整体分布.由于欧几里得距离计算时直接平方特征差异,少量偏离较大的特征会产生较大的距离,占据整体距离的主要比重,影响整体度量的均衡性.相比之下,布雷柯蒂斯距离通过绝对差计算并在分母引入归一化,使得差异由各维度的相对变化共同决定,因而能有效减弱偏差特征的干扰,更稳定地刻画样本间的差异.

2.3 基于尺度变换优化的布雷柯蒂斯距离

布雷柯蒂斯距离是一种基于样本特征相对差异的度量方法,在生态学等领域被广泛应用23,能够在存在异常值或特征偏离的情况下稳定衡量样本间相似性,因此具有较高的鲁棒性24.设zizj分别为两个样本的特征向量,其布雷柯蒂斯距离如式(5)所示:

DBrayCurtiszi,zj=k=1mzik-zjkk=1mzik+zjk

其中,分子表示样本间各特征值的绝对差之和,而分母为样本特征值的总和.由于每个特征同时出现在分子和分母中,即便某些特征差异较大,其对整体距离的影响也会被相对抑制,从而保持距离计算的稳定性.然而,原始布雷柯蒂斯距离的数值范围较窄,在小样本度量学习网络中直接使用时会导致模型难以充分区分样本间的相似性,使分类性能受限.为了解决这一问题,本文引入一个尺度变换因子α,用以对布雷柯蒂斯距离的数值进行调整,增强模型对类别间差异的区分度.具体地,经过尺度变换因子调整后的布雷柯蒂斯距离的计算如下:

DBrayCurtiszi,zj=αk=1mzik-zjkk=1mzik+zjk

其中,α是一个超参数,用于控制距离值的放大程度.通过这种方式,调整后的布雷柯蒂斯距离能够有效地提升模型的分类性能,并确保在计算概率时能够正确区分各个类别.

2.4 网络结构设计

优化后的布雷柯蒂斯距离在本文中被应用于ProtoNet4和Meta Deep⁃BDC7,分别得到ProtoNet_Bray和Meta Deep⁃BDC_Bray两种变体网络.以Meta Deep⁃BDC_Bray为例展开详细介绍,其网络结构如图2所示.具体地,训练过程可概括如下.

(1)特征嵌入:通过一个深度卷积神经网络提取输入样本的嵌入特征表示.假设支持集和查询集样本分别为S=xi,yiQ=xq,yq,每个样本通过嵌入网络映射到高维特征空间Z=fθx,其中,ZRC×H×W表示嵌入后的特征.

(2)BDC矩阵计算:在嵌入空间中,利用Meta DeepBDC提供的BDC模块来分别对支持集和查询集的样本特征Z计算平方欧几里得距离矩阵A˜、欧几里得距离矩阵A^以及BDC矩阵A,如下所示:

A˜=2BZZTIsym-2ZZTA^=a˜klA=A^-2dBA^sym+Bd2BA^B

其中,a˜klZ的第k列和l列之间的平方欧几里得距离矩阵,B代表元素全是1的矩阵,I代表单位矩阵,表示阿达玛乘积,d为通道数,sym的运算规则如下:以矩阵U为例,Usym=U+UT/2.

(3)类别原型构建:在支持集中,每个类别k的原型向量通过其样本的BDC矩阵的均值计算得到:

Pk=1SkZiSkAθZi

其中,Sk是属于类别k的样本集合,AθZi表示样本Zi的BDC矩阵.

(4)查询样本分类:对于查询样本xq,首先计算其特征的BDC矩阵作为其在嵌入空间中的最终表示hq,然后基于提出的优化布雷柯蒂斯距离计算其与每个类别原型的距离:

DBrayCurtishq,Pk=αj=1mhqj-Pkjj=1mhqj+Pkj

最终,使用Softmax函数处理得到的距离,以计算类别分布并生成分类结果.该方法仅替换了原先网络使用的度量方法,而网络结构保持不变.因此,该方法具有较强的通用性,可灵活地应用于任何基于欧几里得距离度量的度量学习网络中.

2.5 算法流程

算法

基于尺度变换布雷柯蒂斯距离的小样本分类训练流程

输入:训练集Dtrain,模型参数θ,尺度变换因子α

输出:训练好的模型参数θ*

1.for 轮次=1 到最大轮次do

2. 从Dtrain随机采样任务集E=S,Q

3. for 每个类kS中 do

4. 每个支持样本xi,yiSk中 do

5. 提取支持样本的特征zi=fθxi

6. 获取类别原型Pk=GetPrototypeszi

7. end for

8. end for

9. for 每个查询样本xq,yqQ中 do

10. 获取查询样本在嵌入空间中的表示hq=GetEmbeddingfθxq

11. 通过式(6)计算查询样本到原型的优化布雷柯蒂斯距离DBrayCurtishq,Pk

12. end for

13. 使用Softmax函数计算每个类的预测概率

14. pyq=k=Softmax-DBrayCurtishq,Pk

15. 计算交叉熵损失

16. 通过反向传播更新模型参数θ

17.end for

18.return θ*

注:GetPrototypesGetEmbedding的具体操作依赖使用的网络(如ProtoNet或Meta DeepBDC).

3 实验

3.1 数据集介绍

为了评估模型性能,选取三个广泛使用的图像分类数据集MiniImageNet,TieredImageNet以及一个专注于鸟类图像的细粒度分类数据集CUB⁃200⁃2011(简称“CUB”).MiniImageNet是从大型图像数据库ImageNet中提取的子集,包含100个类别,每个类别600张图像,划分为训练集、验证集和测试集,分别含有64,16和20个类别.TieredImageNet数据集的覆盖范围更广,总计779165张图像,平均每个类别包含1281张图像,其类别划分为训练集351类、验证集97类和测试集160类.CUB⁃200⁃2011数据集以细粒度鸟类分类为目标,包含11788张图像,覆盖200种鸟类,训练集、验证集和测试集分别由100类、50类和50类组成25.这些数据集的具体划分情况如表1所示.

3.2 实验环境与设置

实验环境:12th Gen Intel(R) Core(TM) i9⁃12900K,NVIDIA RTX4090,CUDA版本为11.1,操作系统为Windows 10,深度学习框架为PyTorch.

为了实现公平对比,采用两种主流的骨干网络ResNet⁃1226-27和ResNet⁃1828.与常规设置一致,ResNet⁃12的图像输入分辨率设定为84×84,ResNet⁃18的图像输入分辨率设定为224×224.为了获取更丰富的卷积特征,与文献[1029]的方法保持一致,移除了骨干网络的最后一次下采样操作.基于Meta DeepBDC7开源代码框架实现并遵循其原始设置,采用5⁃way 1⁃shot和5⁃way 5⁃shot两种任务,每个类别包含15个查询样本.训练阶段采用传统小样本度量学习流程,通过从训练集中采样支持集和查询集构建episodic任务,并采用Meta DeepBDC的预训练策略以缩短训练时间.优化器采用SGD30,动量系数为0.9,权重衰减为0.0005.在基于ImageNet的数据集上,学习率η设为10-4;在CUB数据集上,学习率为10-3.超参数尺度变换因子α的具体设置参考3.4.在模型评估阶段,从测试集的每个类别中随机选取K个带标签的支持样本和15个查询样本,进行分类性能的测试.重复2000次任务并计算平均分类准确率及95%置信区间.

3.3 实验结果分析

在MiniImageNet和Tiered⁃ImageNet数据集上的5⁃way 1⁃shot和5⁃way 5⁃shot任务的实验结果如表2所示,表中黑体字表示性能最优.由表可见,首先,本文的ProtoNet_ Bray和Meta DeepBDC_Bray在这两个数据集上的各类任务均实现了性能提升,证明布雷柯蒂斯距离在度量学习任务中的潜力,说明它能更有效地捕捉类间差异,增强模型的泛化能力.其次,ProtoNet_Bray对性能的提升比Meta DeepBDC_ Bray更突出.例如,在MiniImageNet的5⁃way 1⁃shot任务中,ProtoNet_Bray比原始ProtoNet提升3.23%,而Meta DeepBDC_Bray比原始Meta DeepBDC提升了0.91%,这一差异可能与Meta DeepBDC采用的BDC模块特性有关.BDC矩阵能够更全面地捕捉特征间的联合分布,对极端特征值具有更强的鲁棒性,限制了布雷柯蒂斯距离在该模型上的性能提升幅度.此外,Meta Deep⁃BDC_Bray在两个数据集的所有任务中都优于其他对比方法,进一步验证了布雷柯蒂斯距离在小样本度量学习中的有效性与应用潜力.

为了展示所提方法的优势,图3展示了ProtoNet_Bray与ProtoNet在MiniImageNet数据集上5⁃way 1⁃shot训练过程中的损失与准确率变化曲线.两种模型的损失在训练初期均快速下降,并在训练后期趋于平稳,但ProtoNet_Bray的损失始终低于ProtoNet.同时,ProtoNet在训练准确率上存在一定波动,而ProtoNet_Bray则表现出更平稳的趋势,并且在整个训练过程中准确率始终高于ProtoNet.证明ProtoNet_Bray在损失与训练准确率两个方面均优于ProtoNet,验证了提出的改进方法的有效性与训练稳定性.

在细粒度分类数据集CUB上进行的5⁃way 1⁃shot和5⁃way 5⁃shot任务的实验结果如表3所示,表中黑体字表示性能最优,“?”表示原论文没有提供置信区间的相关数据.由表可见,尽管ProtoNet_Bray和Meta DeepBDC_Bray在CUB数据集上的性能依然优于ProtoNet4和Meta Deep⁃BDC7,但算法在CUB数据集上对性能的提升幅度却较为有限.例如,在5⁃way 1⁃shot任务中,和原始ProtoNet相比,ProtoNet_Bray的性能仅仅提升了0.29%,和原始Meta DeepBDC相比,Meta DeepBDC_Bray的性能提升也只有0.4%.这可能与细粒度数据集的特点有关,图像之间高度相似,往往只有小范围区域的差异对分类起关键作用.对于这些微小的区域差异,网络提取的特征值通常表现为极端值.而在布雷柯蒂斯距离的计算中,特征值差异较大的样本对距离的贡献较小,因此模型对极端值的敏感性降低,导致其在捕捉细粒度类别间差异时优势减弱.在3.6的可视化实验中进一步分析了其中的原因.

3.4 参数分析

研究超参数尺度变换因子α对模型性能的影响,以确定在不同任务设置下的最佳取值.所有实验设置同前,仅对α进行调整.为了保证参数变化的可观察性,α的取值间隔为5.实验结果如图4图5所示.由图可见,在MiniImageNet,TieredImageNet和CUB数据集上的5⁃way 1⁃shot与5⁃way 5⁃shot任务中,Proto⁃Net_Bray和Meta DeepBDC_Bray参数不同时均表现出明显的性能差异.选择最佳的α可以进一步提升模型在各任务上的分类准确率,并增强类间区分能力.综合各数据集和任务的实验结果,本研究在后续所有实验中均采用最佳α作为超参数,以确保ProtoNet_Bray和Meta DeepBDC_ Bray在各数据集上均可达到最优性能.

3.5 消融实验

为了验证尺度变换因子的有效性,在三个数据集上对ProtoNet_Bray和Meta DeepBDC_Bray进行了消融实验.所有的实验设置同前.实验结果如表4表5所示,表中黑体字表示性能最优,“(w/o)”表示未使用尺度变换因子,即直接采用原始的布雷柯蒂斯距离进行度量.由表可见,引入尺度变换因子的模型,其分类准确率显著优于未采用该因子的模型,这主要归因于尺度变换因子对布雷柯蒂斯距离的数值范围进行了调整,使其在小样本度量学习中能够更有效地捕捉类别间差异,从而提升模型的图像分类性能.由此可见,提出的尺度变换因子能够增强模型的区分能力,提升分类效果.

3.6 可视化实验

为了验证优化后的布雷柯蒂斯距离的有效性,对ProtoNet和ProtoNet_Bray在MiniImageNet数据集上采用Grad⁃CAM32进行特征可视化,结果如图6所示.由图可见,和ProtoNet相比,ProtoNet_Bray在捕捉图像全局特征方面表现更好,在一定程度上提升了分类性能.这一改进主要得益于布雷柯蒂斯距离在训练过程中能够有效抑制特征极端值的干扰,使模型更聚焦于全局特征.

同时,针对所提方法在细粒度数据集CUB上性能提升有限的现象,对两个模型在该数据集上的特征进行了可视化分析,结果如图7所示.由图可见,ProtoNet_Bray相较于ProtoNet具有更强的全局特征聚合能力.然而,由于CUB为细粒度数据集,类别间差异主要集中在局部判别性特征上,模型通常仅需关注这些关键区域即可完成分类任务,因此ProtoNet_Bray聚焦全局特征的优势未能充分发挥.例如,在图中第二列类别样本中,该类别的主要判别依据为翅膀上的红白相间斑点,两个模型的热力图均对该特征产生显著响应,从而均可实现高准确率分类.另一方面,由于ProtoNet_Bray较为强调全局特征,使其可能在部分样本中对背景区域也表现出一定响应,导致模型对关键局部判别特征的敏感性降低.例如,在图中第三列样本中,虽然两个模型均成功响应了鸟嘴等关键特征,但ProtoNet_Bray还对岩石背景产生了额外响应,可能相对减弱了关键特征的权重.

综上,CUB数据集上的特征可视化结果解释了所提方法在该数据集上性能提升有限的原因.

3.7 模型复杂度及训练耗时分析

为了评估距离度量替换的影响,对ProtoNet和ProtoNet_Bray进行了参数量、计算量(MACs/FLOPs)以及在MiniImageNet数据集上5⁃way 1⁃shot的平均每轮训练时间的统计,具体结果如表6所示.由于所提方法仅在度量方式上进行替换,并未对网络结构进行修改,因此两种模型在参数量和计算量上基本一致.在实际训练中,ProtoNet_Bray在每轮训练中平均耗时较ProtoNet增加0.02 min,而其训练成本几乎没有增加,但模型性能有较大提升.进一步验证了所提方法的可行性及优势.

4 结论

本文分析了欧几里得距离在处理极端值时的局限性,提出一种结合尺度变换因子优化的布雷柯蒂斯距离度量方法,以增强模型在图像分类任务中的表现.在三个数据集上的全面实验结果表明,该方法能有效提升基于欧几里得距离的度量网络模型的性能.此外,与其他小样本学习方法相比,所提方法同样展现了具有竞争力的性能.然而,实验结果也显示,布雷柯蒂斯距离在细粒度数据集上的表现仍有一定局限.未来将进一步探讨这一现象的潜在原因,并结合细粒度数据集的特定数据分布特征,对度量计算方法进行优化,进一步提升模型的图像分类能力.

参考文献

[1]

Mo R PZhou HYin H Pet al. A survey on few⁃shot learning for remaining useful life prediction. Reliability Engineering & System Safety2025257(Part B):110850.

[2]

Wanyan Y YYang X SDong W Met al. A comprehensive review of few⁃shot action recognition. International Journal of Computer Vision. https://doi.org/10.1007/s11263-025-02503-6,2025-06-28.

[3]

Li X XYang X CMa Z Yet al. Deep metric learning for few⁃shot image classification:A review of recent developments. Pattern Recognition2023,138:109381.

[4]

Snell JSwersky KZemel R. Prototypical networks for few⁃shot learning∥Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach,CA,USA:Curran Associates Inc.,2017:4080-4090.

[5]

赵一铭,王佩瑾,刁文辉,. 基于通道注意力机制的小样本SAR飞机图像分类方法. 南京大学学报(自然科学)202460(3):464-476.

[6]

Zhang CCai Y JLin G Set al. DeepEMD:Few⁃shot image classification with differentiable earth mover's distance and structured classifiers∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,WA,USA:IEEE,2020:12200-12210.

[7]

Xie J TLong FLv J Met al. Joint distribution matters:Deep brownian distance covariance for few⁃shot classification∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans,LA,USA:IEEE,2022:7962-7971.

[8]

Huang H WWu Z KLi W Bet al. Local descrip⁃tor⁃based multi⁃prototype network for few⁃shot earning. Pattern Recognition2021,116:107935.

[9]

Chen W TZhang ZWang Wet al. Few⁃shot learning with unsupervised part discovery and part⁃aligned similarity. Pattern Recognition2023,133:108986.

[10]

Li W BWang LHuo Jet al. Asymmetric distribution measure for few⁃shot learning∥Proceedings of the 29th International Joint Conference on Artificial Intelligence.Yokohama,Japan:IJCAI,2021:2957-2963.

[11]

Zhou FWang PZhang Let al. Revisiting prototypical network for cross domain few⁃shot learning∥2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver,Canada:IEEE,2023:20061-20070.

[12]

白瑞峰,苟光磊,文浪,. 基于粒球原型网络的小样本图像分类方法. 计算机应用202545(7):2269-2277.

[13]

Ricotta CPodani J. On some properties of the Bray⁃Curtis dissimilarity and their ecological meaning. Ecological Complexity2017,31:201-205.

[14]

Weinberger K QBlitzer JSaul L K. Distance metric learning for large margin nearest neighbor classification∥Advances in Neural Information Processing Systems 18. Vancouver,Canda:MIT Press,2005:1473-1480.

[15]

Bertinetto LValmadre JHenriques J Fet al. Fully⁃convolutional Siamese networks for object tracking∥Computer Vision:ECCV 2016 Workshops. Amsterdam,The Netherlands:Springer,2016:850-865.

[16]

Hoffer EAilon N. Deep metric learning using triplet network∥International Workshop on Similarity⁃based Pattern Recognition. Copenhagen,Denmark:Springer,2015:84-92.

[17]

桑彬彬,杨书箫,李梗森,. 基于距离度量学习的多粒度模糊粗糙特征选择算法. 南京理工大学学报202549(3):290-297.

[18]

檀彦超,郑小林,魏翔宇,. 基于度量学习的多空间推荐系统. 计算机学报202245(1):1-16.

[19]

Zhang J HLiu LSilvén Oet al. Few⁃shot class⁃incremental learning for classification and object detection:A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence202547(4):2924-2945.

[20]

Finn CAbbeel PLevine S. Model⁃agnostic meta⁃learning for fast adaptation of deep networks∥Proceedings of the 34th International Conference on Machine Learning. Volume 70. Sydney,Australia:JMLR.org,2017:1126-1135.

[21]

Wertheimer DHariharan B. Few⁃shot learning with localization in realistic settings∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USA:IEEE,2019:6551-6560.

[22]

吕佳,郑小琪. 利用类内类间信息的原型补足小样本图像分类. 南京大学学报(自然科学)202460(4):600-612.

[23]

Clarke K RSomerfield P JChapman M G. On resemblance measures for ecological studies,including taxonomic dissimilarities and a zero⁃adjusted Bray⁃Curtis coefficient for denuded assemblages. Journal of Experimental Marine Biology and Ecology2006330(1):55-80.

[24]

Ricotta CPavoine S. A new parametric measure of functional dissimilarity:Bridging the gap between the Bray⁃Curtis dissimilarity and the Euclidean distance. Ecological Modelling2022,466:109880.

[25]

Wah CBranson SWelinder Pet al. The Caltech⁃UCSD Birds⁃200⁃2011 dataset. Pasadena:California Institute of Technology,2011.

[26]

Lee KMaji SRavichandran Aet al. Meta⁃learning with differentiable convex optimization∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Long Beach,CA,USA:IEEE,2019:10649-10657.

[27]

Tian Y LWang YKrishnan Det al. Rethinking few⁃shot image classification:A good embedding is all you need?∥Computer Vision⁃ECCV 2020. Online:Springer,2020:266-282.

[28]

Liu BCao YLin Y Tet al. Negative margin matters:Understanding margin in few⁃shot classifi⁃cation∥Computer Vision⁃ECCV 2020. Online:Springer,2020:438-455.

[29]

Doersch CGupta AZisserman A. CrossTransformers:Spatially⁃aware few⁃shot transfer∥Proceedings of the 34th International Conference on Neural Information Processing Systems. Red Hook,NY,USA:Curran Associates Inc. 2020:21981-21993.

[30]

Ketkar N. Stochastic gradient descent∥Ketkar N. Deep learning with Python. Berkeley,CA,USA:Apress,2017:113-132.

[31]

Wu W XShao Y JGao C Xet al. Query⁃centric distance modulator for few⁃shot classification. Pattern Recognition2024,151:110380.

[32]

Selvaraju R RCogswell MDas Aet al. Grad⁃CAM:Visual explanations from deep networks via gradient⁃based localization∥2017 IEEE International Conference on Computer Vision. Venice,Italy:IEEE,2017:618-626.

[33]

Li W BWang LXu J Let al. Revisiting local descriptor based image⁃to⁃class measure for few⁃shot learning∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,CA,USA:IEEE,2019:7253-7260.

[34]

Hou R BChang HMa B Pet al. Cross attention network for few⁃shot classification∥Advances in Neural Information Processing Systems 32. Vancouver,Canada:Curran Associates Inc.,2019:4005-4016.

[35]

Ye H JHu H XZhan D Cet al. Few⁃shot learning via embedding adaptation with set⁃to⁃set functions∥Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,WA,USA:IEEE,2020:8808-8817.

[36]

Kang DKwon HMin J Het al. Relational embedding for few⁃shot classification∥2021 IEEE/CVF International Conference on Computer Vision. Montreal,Canada:IEEE,2021:8802-8813.

[37]

Zhang MZhang JLu Zet al. IEPT:Instance⁃level and episode⁃level pretext tasks for few⁃shot learning∥International Conference on Learning Representations. Online:OpenReview.net. DOI:10.48550/arXiv.2003.07255,2020.

[38]

Liu YZhang W FXiang Cet al. Learning to affiliate:Mutual centralized learning for few⁃shot classification∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans,LA,USA:IEEE,2022:14391-14400.

[39]

Liu YZheng TSong Jet al. DMN4:Few⁃shot learning via discriminative mutual nearest neighbor neural network∥Proceedings of the AAAI Conference on Artificial Intelligence. Online:AAAI Press,202236(2):1828-1836.

[40]

Guo D DTian LZhao Het al. Adaptive distribution calibration for few⁃shot learning with hierarchical optimal transport. Proceedings of the 36th International Conference on Neural Information Processing Systems. Red Hook,WA,USA:Curran Associates Inc.,2022:6996-7010.

[41]

Huang X LChoi S H. SAPENet:Self⁃attention based prototype enhancement network for few⁃shot learning. Pattern Recognition2023,135:109170.

[42]

Shi B YLi W BHuo Jet al. Global⁃ and local⁃aware feature augmentation with semantic orthogo⁃nality for few⁃shot image classification. Pattern Recognition2023,142:109702.

[43]

Sun J QLi J. Few⁃shot classification with fork attention adapter. Pattern Recognition2024,156:110805.

[44]

Fei N YLu Z WXiang Tet al. MELR:Meta⁃learning via modeling episode⁃level relationships for few⁃shot learning. https://arxiv.org/abs/2002. 04274,2020-09-26.

[45]

Vinyals OBlundell CLillicrap Tet al. Matching networks for one shot learning∥Proceedings of the 30th International Conference on Neural Information Processing Systems 29. Barcelona,Spain:Curran Associates Inc.,2016:3630-3638.

[46]

Tang HYuan C CLi Z Cet al. Learning attention⁃guided pyramidal features for few⁃shot fine⁃grained recognition. Pattern Recognition2022,130:108792.

[47]

Liu Q FCao W MHe Z H. Cycle optimization metric learning for few⁃shot classification. Pattern Recognition2023,139:109468.

[48]

Afrasiyabi ALalonde J FGagné C. Associative alignment for few⁃shot image classification∥Computer Vision⁃ECCV 2020:The 16th European Conference. Berlin:Springer,2020:18-35.

[49]

Wertheimer DTang L MHariharan B. Few⁃shot classification with feature map reconstruction networks∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville,TN,USA:IEEE,2021:8008-8017.

基金资助

福建省自然科学基金(2025J01585)

福建省自然科学基金(2025J01586)

AI Summary AI Mindmap
PDF (1499KB)

32

访问

0

被引

详细

导航
相关文章

AI思维导图

/