0 引 言
随着陆地资源日益枯竭,各国逐渐将能源开采重心由陆地资源转移到海洋资源中。水下探测技术作为开发海洋资源、认识海洋环境、保护海洋生态以及拓展人类生存与发展空间的基础,吸引着越来越多的学者以此为中心开展研究。其中,水下目标识别是水下探测领域的热门研究方向之一。由于电磁波在水中衰减大,传播距离短,因此,水下探测领域通常使用传播损耗更小的声波作为传输介质
[1]。
声呐(Sound navigation and ranging,SONAR)设备利用声波在水中的传播和反射特性,通过信息处理和电声转化对水下目标进行探测
[2],其中,成像声呐可以整合和处理接收返回波束信号的幅度和相位等信息,并采用图像重建技术实现对目标的成像,因此,在海洋生物监测、海洋垃圾检测、水下搜索与救援、海床测绘和海底管道探测等水下目标识别场景中得到广泛应用。目前普遍使用的成像声呐设备有3种
[3]:侧扫声呐(Side-scan sonar, SSS)、合成孔径声呐(Synthetic aperture sonar, SAS)和前视声纳(Forward-looking sonar, FLS),它们的成像特点和应用场景各有不同。
图像处理领域的任务通常可以分为3种:图像分类、图像检测和图像分割。到目前为止,已经提出了多种基于成像声呐图像在分类、检测、分割这3种任务下的水下目标识别算法。分类任务中提出窄带Chan-Vese(CV)模型
[4]、风格迁移(Style transfer,ST)
[5]等。检测算法有模板匹配(Template matching,TM)
[6]、改进经典网络模型YOLO(You only look once)
[7]等。分割任务中采用马尔科夫随机场(Markov random field,MRF)
[8]、水平集(Level set,LS)
[9]方法等。然而,上述算法并未能充分考虑声呐图像的采集过程,未能将不同成像声呐的成像特点与具体的图像处理任务充分结合以设计更有针对性的识别方法,从而限制了现有识别算法的识别率、鲁棒性等性能的进一步提高。
针对成像声呐图像识别存在的问题,本文回顾了3种常用成像声呐设备在3种图像处理任务中采用的目标识别算法,并根据不同成像声呐图像特点与应用场景,分析每种处理任务算法的优劣,最后展望成像声呐图像处理算法的未来发展。
1 侧扫声呐
侧扫声呐工作时,通常安装在载体的左、右两侧,并借助载体运动在航迹方向上成像。其工作原理如
图1(a)所示,载体左右两侧的SSS分别发射扇形波束,垂直开角
控制垂直平面的扫描范围,水平开角
保证水平面上的扫描分辨率。扇形波束照射海床形成左右两片梯形区域,如
图1(a)中航迹左侧梯形
ABCD区域所示,受水平开角
的影响,梯形区域靠近载体的底边
AB长度小于底边
CD,因此,SSS的图像分辨率会随着目标到声呐的距离增加而变差
[10]。
由于SSS成像依靠载体运动,探测范围大,所以SSS主要应用于大面积海洋地貌调查、测量与目标物搜索等场景。
1.1 水下图像分类算法
如
图2所示,目前SSS图像分类任务中使用的算法可以分为3大类:统计模式识别、基于传统机器学习(Machine learning,ML)的分类器和人工神经网络(Artificial neural networks,ANNs)。
TM是一种对感兴趣的目标提取特殊特征建模,通过计算测试图像与模板图像的相似度判别所属类别的模式识别算法。由SSS成像的先验知识可知,同一目标投射出的阴影形状可能有多种,Dura等
[11]在目标阴影形状建模过程中通过引入一个可变参数生成不同形状的模板。但SSS通常应用在大面积搜寻场景,通过几何形态构建多种复杂形状目标的模板较为困难。其次,由于SSS图像分辨率较低,成像后的不同目标形状差距小,从而导致匹配错误率高,因此,TM实际应用有一定的局限性。
在文献[
12]中,分类决策采用一种基于概率和集合的Dempster-shafer(DS)理论模型。DS证据理论以假设特征分布独立为前提,但SSS图像的多种特征具有相关性,导致该方法处理SSS图像效果并不理想。
分类SSS图像采用的传统ML分类器类型有3种:第1种分类器是概率模型贝叶斯(Bayes),目前已有一种新的贝叶斯网络(Bayes net)能将不可靠的阴影特征根据样本分布情况有效组合以实现可靠的目标分类
[2];第2种利用随机森林(Random forest)模型分类ReliefF 算法优化的海床特征
[13];第3种分类器支持向量机(Support vector machine,SVM),相较于以上两种分类器,SVM与多种图像预处理方法结合取得了较高的分类准确率。SVM在分类前进行Sobel滤波处理,可将分类准确率提升到92.8%
[14]。利用SVM对从声呐图像提取的纹理特征分类,最高准确率为95.6%
[15]。以此为基础,结合图像的纹理特征和回波强度,准确率可提升1.05%
[16]。
与手工提取特征相比,神经网络将图像本身作为输入以学习更深层、抽象,鲁棒性更高的特征,已经在光学图像识别领域取得了巨大的成功,因此,目前提出了多种基于神经网络的声呐图像识别算法。针对SSS图像的分类任务,文献[
17]提出了一种基于极限学习机(Extreme learning machine,ELM)的单隐含层前馈神经网络,采用自适应增强算法优化,准确率可达93.56%。文献[
18]中,遗传算法(Genetic algorithm,GA)优化简单的反向传播(Back propagation,BP)网络,准确率为92.5%。在文献[
19]中,采用GA算法优化小波神经网络(Wavelet neural network, WNN),对海底沉积物的平均分类准确率为93.3%。针对类似的海底沉积物分类场景,文献[
20]设计了两种不同的卷积神经网络(Convolutional neural network,CNN),实验证明在少样本的声呐数据集上训练,浅层CNN的分类性能优于深层CNN。
由于声呐图像采集困难,且投入成本高,用于训练CNN的数据有限,容易造成模型过拟合,因此,将CNN与迁移学习结合的新方法被提出。模型在有大量高质量标注的数据集上预训练,再将模型迁移到目标数据集上进行微调训练。采用迁移学习在SSS数据集上训练VGG19网络的整体准确率为97.76%
[21]。该方案目前在基于SSS图像的分类领域取得了更好的效果,且提高了该领域在大规模、多类型目标搜索时算法的泛化能力和鲁棒性。
1.2 水下图像检测算法
SSS应用于水下大规模目标检测时,对其处理算法不仅需要计算复杂度低以满足实时性,且具有抗水下复杂噪声干扰的能力。如
图3所示,目前的解决方案有基于统计模式识别、传统ML和深度学习(Deep learning,DL)3类。
Petillot等
[22]提取水下管道在SSS成像的阴影区域,对该区域进行1~3段不等的直线拟合,最后利用Bayes评估拟合效果的概率以实现检测。因为独立成分分析(Independent component analysis, ICA)能从混合信息中分离出与目标相关性更强的独立分量,所以文献[
23]将图像纹理特征与ICA结合以检测目标。然而,上述工作手工提取浅层特征,在水下多样性地貌环境中鲁棒性较差。在文献[
24]中,作者采用形态学变换占有率击中-击不中变换(Percentage occupancy hit-or-miss transform, POHMT)增强目标的高亮区域与阴影区域,再采用Tsallis熵自适应地确定POHMT的最佳阈值以检测目标。该方法对阈值的选择非常敏感,需要进一步优化阈值选择策略。
以上文献采用手工提取声呐图像特征,但目前主流算法是从图像数据中自主学习特征。Sawas等
[25]将用于人脸检测的Viola-Jones引入SSS图像检测。但SSS图像中目标占据小部分,Viola-Jones检测器对区域选择没有针对性,导致窗口冗余,时间复杂度过高。文献[
26]以YOLOv3作为基准模型,多尺度特征融合部分新增4倍和2倍下采样层学习阴影等浅层特征,且对该模型进行迁移训练,提高目标检测的精度和速度。在文献[
27]中,为克服噪声扰动对声呐图像检测效果的影响,设计了噪声对抗网络(Noise adversarial network,NAN)与人为引入噪声的噪声块(Noise block,NB),提高检测时的噪声鲁棒性。由于标注SSS图像不仅耗时,还需要相关专业知识,因此,为降低标注成本,Jiang等
[28]提出基于主动学习(Active learning,AL)的检测算法。该框架使用35%的标注数据就能获得与使用全部标注数据的CNN相当的结果,但每次迭代都需要重新训练模型,计算成本高。
近些年,自动目标识别(Automatic target recognition, ATR)已经应用到成像声呐等领域。SSS通常搭载在无人水下航行器(Unmanned underwater vehicle, UUV)进行实时目标识别。然而受硬件平台功率和计算能力等限制,文献[
26-
28]提出的大型CNN部署有困难。Topple等
[29]参考YOLO模型进行轻量级的网络设计,并尝试向受限硬件平台部署CNN。文献[
30]提出一种自适应特征增强网络AGFE-Net,骨干网通过新增多尺度特征提取块和自注意机制块以提取更深层次的图像特征。其中,特征融合部分采用双向特征金字塔网络进行浅层和深层特征交互,全局金字塔池化块增强对全局特征的感知,自适应特征融合块实现声呐图像多尺度特征融合。该网络各类别平均检测精度(Mean average precision, mAP)为96.83%,每秒可处理67.28帧数据,与目前其他方案相比,检测准确度更高、速度更快,可以部署在资源受限的移动平台中。且在多样性地貌环境中进行鲁棒性测试,mAP保持在95%左右。
1.3 水下图像分割算法
图4展示了针对SSS图像分割领域的主要工作。聚类分析是一种标签信息未知,通过像素之间的相似度划分为若干类的无监督算法。文献[
31]采用模糊
k均值(
k-means)聚类算法将SSS图像分割为阴影区、高亮区和海底混响区。Celik等
[32]在
k-means算法分割之前,利用正反非抽取小波变换(Undecimated discrete wavelet transform,UDWT)得到图像多层次的边缘信息,相较于单独采用
k-means算法,提升了分割边缘的准确度。MRF分割算法类似于聚类算法,但MRF算法会考虑某一点像素的邻域像素标签,从而计算该点像素最大概率的标签。Mignotte等
[33]提出一种分层MRF模型,第一步采用迭代条件估计(Iterative conditional estimation,ICE)技术对噪声分布参数和MRF先验参数进行估计,第二步利用估计好的参数将SSS图像分割为阴影和海底混响区域。由于SSS 图像分辨率较低,且受强度不均匀和散斑噪声干扰,导致上述算法分割目标边缘效果不理想。
为弥补上述算法的缺点,多种基于数学模型和几何推理的算法被引入SSS图像分割。文献[
34]在传统CV能量函数中增加高斯马尔科夫随机场(Gauss-markov random field,GMRF)提取的纹理特征项,求解函数最小值以将曲线演化到目标区域实现分割。虽然文献[
34]提出的方法可以改善分割边缘的效果,但时间复杂度过高。SSS图像分割精度通常受到大量散斑噪声与强度分布不均匀的影响。针对这些挑战,文献[
35]提出非局部均值散斑滤波(Nonlocal means-based speckle filtering,NLMSF)去除SSS图像的散斑噪声,并采用
k-means聚类与局部拓展拟合(Region-scalable fitting,RSF)主动轮廓模型结合的分割策略。
随着DL的兴起,文献[
36]提出一种适合SSS图像分割的全卷积神经网络(Fully convolutional network,FCN)。该方法分割准确率为91.62%,边缘分割效果优于传统方法,且对散斑噪声的鲁棒性强。此外,该网络只需要18.7 MB内存,预测时间为27.9 ms。SSS展开大规模目标搜索任务时,适合将该算法嵌入资源受限的硬件平台实时分割、识别目标,故FCN模型具有巨大的应用优势。
2 合成孔径声呐
SSS的图像分辨率受作用距离的影响,在实际应用中采集到的图像质量不稳定,不利于大规模水下地质勘探。合成孔径声呐(Synthetic aperture sonar, SAS)通过小孔径基阵的运动,在航迹方向合成大孔径,以提高图像的分辨率
[37]。相较于一般SSS,SAS远距离成像的分辨率更高,适合在大面积海洋地质研究与目标搜索中实时作业。
图5展示了SAS的工作原理。
2.1 水下图像分类算法
传统ML和DL的相关算法在SAS图像分类任务中得到广泛应用。
图6展示了该领域的主要工作。
基于SAS图像分类的传统ML分类器有多种类型。文献[
38]采用卷积受限玻尔兹曼机(Convolutional restricted boltzmann machine, CRBM)提取图像特征,再采用SVM对该特征分类。稀疏表示分类(Sparse reconstruction-based classification,SRC)是创建一个超完备字典作为基函数,在字典中用较少元素线性表示输入对象,最后根据输入对象的线性表示系数进行分类的算法。文献[
39]将SRC算法应用到SAS图像分类任务。Fei等
[40]提出一种基于DS模型的集成学习(Ensemble learning)方案,将不同分类器的结果合理融合以提高分类精度。
SAS在多种海洋地质环境中进行大面积地质调查与目标搜索等工作中,不同的海洋地质具有不同的环境条件,导致成像有不同的特征分布。然而上述方法只在特定环境中具有较好性能,无法满足SAS对不同水下环境地质勘察的需求。为提高算法在不同环境中的分类泛化能力,文献[
41]提出构建分类器集合。其中每个分类器与特定环境特征关联,然后根据不同分类环境自动调整每个分类器的权重。该方法在目前的方案中能分类多种环境下成像的目标,且具有很好的性能。
文献[
42]采用去噪自动编码器(Denoising auto-encoder,DAE)与VGGNet联合的方案实现目标自动分类。DAE是一种特殊的神经网络,能提取高维数据的有效特征,且在输入层添加随机噪声提高模型的鲁棒性。训练CNN模型需要大量数据,但目前采集大量具有地质环境多样性的SAS数据集有困难,导致模型易出现过拟合。迁移学习是解决搭建CNN模型数据不足的一种快速且有效的方法。文献[
43]在少量SAS图像上,对AlexNet和VGG16尝试多组不同的微调方法。在文献[
44]中,作者设计了4个小型CNN模型,分别对比从头训练和使用迁移学习训练的结果,后者的分类性能更好。然而,若源任务与目标任务相关性差,该方法分类多种环境成像目标的性能比构建分类器集合
[41]差,且需要的训练样本更多。
2.2 水下图像检测算法
如
图7所示,利用SAS成像进行水下目标检测的算法可分为3类。
第1类是统计模型算法。文献[
45]提出一种基于拉普拉斯(Laplace)分布的多元统计模型,使用期望最大(Expectation maximization,EM)算法得到该模型概率密度函数的最大似然估计,最后利用似然比拟合测试图像。Abu等
[46]分别对目标高光区与阴影区建模,采用加权似然比检验法将阴影、高光检测与目标预期空间分布结合以实现目标检测。然而,统计建模法的检测性能与大量不同水下环境分布的先验知识有紧密联系。
第2类是基于传统ML的检测算法。文献[
47]利用两个字典矩阵分别表示图像的目标和非目标片段,通过字典矩阵得到剩余误差功率比,随后在稀疏表示域进行目标检测匹配。文献[
48]基于经典人脸检测器Viola-Jones做出改进以适应SAS成像的目标检测。然而,上述方法并未考虑不同海洋地质环境导致不同成像特征这一因素。Williams
[49]采用阴影、波纹、高亮区域三步检测的级联结构和积分图像技术提出能嵌入UUV实时检测的算法。该方法准确率为94.21%,在不同海床环境下试验结果均有一定的竞争力,且根据不同的环境特征自适应调整最佳观测方向,这对海洋地质中的沙纹调查具有重要意义。
第3类是基于DL的算法。文献[
27]中设计的NAN和NB模块通过在SAS数据集训练,算法的噪声鲁棒性得到一定的提升。基于AL的目标检测算法
[28]从未标记的SAS图像数据中按特定准则选择合适的图像添加注释,每次迭代联合新注释的图像与已经标注的数据重新训练模型,从而降低了SAS图像标注成本。但以上两种方案计算复杂度过高,无法部署到资源有限的硬件平台。文献[
50]提出了一种基于CNN分类器的单阶段检测器,通过全连接层将得到的所有特征映射融合为一个特征映射输出。在输出的特征图中,每个像素代表该区域检测到目标的概率,通过选择最佳阈值确定该区域的目标存在性。然而,该方案并未考虑多样性海洋地质环境对算法稳定性的影响。
2.3 水下图像分割算法
文献[
51]将由SAS图像得到的归一化直方图振幅数据映射到均值-标准差平面,分别计算各个轴上像素的熵,从熵值变化曲线中检测变化最明显的值作为最佳分割阈值。但该算法在边缘分割区域效果不理想。
如
图8所示,模糊聚类算法同样被应用到SAS图像分割领域。文献[
52]提出可能性模糊局部信息
c均值(Possibilistic fuzzy local information
c-means,PFLICM)算法,最小化PFLICM目标函数直至收敛得到分割结果。Abu等
[53]将模糊聚类算法与去噪算法结合,采用去噪算法对图像预处理,随后于目标函数新增空间信息局部二阶矩和统计信息簇间项进行分割。然而,模糊聚类算法的目标函数易收敛到局部极值点甚至是鞍点,无法找到全局最优解。
在文献[
54]中,作者提出一个3阶段的分割方案,第1阶段使用MRF将图像分割为目标高亮区、阴影区和背景混响区,第2阶段使用合作统计蛇(Cooperating statistical snake, CSS)主动轮廓模型进一步分割目标高亮区与阴影区,最后对分割好的区域分类。CSS是该系统中极其重要的一部分,对散斑噪声的鲁棒性好,且能恢复前一阶段MRF没有理想分割的区域。然而,该算法目前无法满足SAS实时分割大面积海洋地质的需求。未来可以朝该方案继续探索适合SAS应用场景的更优方法,如设计新的优化算法使系统更快更准地收敛。
3 前视声呐
如
图9(a)所示,前视声呐(Forward-
Looking sonar,FLS)以一定的水平开角
和垂直开角
φ向前方发射声波,可到达最远探测距离
。FLS发射的波束可在水平面上划分为若干个固定垂直开角
φ的扇形波束,在水平开角一定时,波束越多,图像的水平分辨率越高。此外,在水下探测中,可通过提高发射脉冲的带宽来提高接收的信噪比,同时提高系统的径向分辨率。
FLS的探测距离有限,但成像分辨率较高,因此,目前在特定目标物检测、UUV导航避障等场景中得到广泛应用。
3.1 水下图像分类算法
基于FLS图像分类的相关研究在
图10中展示。声呐图像的统计模式识别分类方法主要依靠目标阴影识别。但文献[
55]利用声波垂直于目标界面切线会产生强烈的几何散射高光,且不同目标的几何散射高光特征不同这一发现,提出基于几何散射高光的二维分布近似目标特征的FLS图像分类方案。该方法有一定的局限性,FLS执行实时分类任务发射声波不一定与目标界面法线平行,导致产生的几何散射高光无法有效代表目标特征。
传统ML分类器也被应用到FLS图像。文献[
56]评估了SVM、Random Forest和
KNN分类器在该领域的性能。其中参数
的
KNN算法分类FLS图像的性能最优。
目前,基于DL的FLS图像分类算法研究非常广泛。在文献[
57]中,作者参照AlexNet架构设计一个端到端模型,采用迁移学习的训练方法,准确率达到97.3%。文献[
58]设计了一个轻量级CNN模型,相较于TM,可以用更少的参数实现更高精度。文献[
59]采用经典的CNN模型AlexNet和GoogleNet对含有噪声的FLS图像分类。Matias Valdenegro-Toro针对能嵌入UUV低功耗系统的FLS图像分类算法做了大量的工作,通过实验证明最大池化(Max pooling,MP)层能减少参数、提高计算性能,且在小数据集上使用Dropout正则化与ADAM训练CNN性能更好。基于以上先验知识,文献[
60]中,Matias Valdenegro-Toro设计了小型CNN,最高准确率可达99.7%,比TM、传统ML分类器和其他CNN模型性能更好、需要的参数更少,且在树莓派2代上测试,时间仅用41~61 ms,准确率为98.8%~99.7%。
3.2 水下图像检测算法
如
图11所示,目前基于FLS图像的检测算法可分为统计模式识别和DL两类。
在文献[
61]中,作者将设计的目标模板与待测试图像对比进行相关性匹配验证。文献[
62]针对目标被部分遮挡的现象,提出局部TM。然而,TM算法对噪声和强度变化的鲁棒性不高,且匹配效率低。
随着DL的兴起,CNN模型在FLS图像检测任务中得到广泛应用。Faster R-CNN和YOLO系列等经典模型应用到该领域
[63-66],检测精度都具有一定的竞争力。文献[
67]采用Grad-CAM提高定位能力,且使用迁移学习提高模型提取特征的能力。在文献[
68]中,作者引入自动深度学习(AutoDL)法,自主设计最优检测器且自训练各层权重,不仅实现了高检测精度,更加快了检测速度。AutoDL算法包括神经架构搜索与参数优化两部分,神经架构搜索就是根据搜索策略在确定的搜索空间寻找合适的结构,并用评估策略评估找到的所有架构以得到最优检测器。Qin等
[69]探索能嵌入低功耗平台的FLS图像检测方法,提出了采用深度可分离卷积降低参数数量与操作成本的MRF-Net(Multiple receptive field network)模型。
不同于SSS大规模检测多样性目标,FLS通常应用于特定目标物实时检测。虽然CNN模型取得了不错的检测结果,但参数冗余,且并非FLS检测某种特定目标物的最优架构。采用AutoDL
[68]自主设计检测器架构且自训练该检测器,可以有效控制模型复杂度和计算复杂度,能在检测速度和精度之间实现更好的权衡,适合嵌入水下机器人实时检测FLS成像的目标。
3.3 水下图像分割算法
通常,UUV等水下勘探设备依靠FLS成像快速精准地识别障碍物,因此,应用于FLS成像领域的分割算法需要提高在非目标高亮区和目标高亮区交织的复杂区域上的精准度,且计算复杂度低。目前该领域的相关研究可分为两类,在
图12中展示。
第1类是基于数学模型和几何推理的分割算法。MRF选择理想的初始标签有困难,导致无法找到全局最优解。文献[
70]提出利用选择性自编码(Selective autoencoding,SAE)初始化MRF模型,针对不同区域选择不同的激活函数自适应地保留每部分的本质特征。该方法虽然可以选择较理想的初始状态,但迭代条件模式(Iterated conditional mode, ICM)对细小目标识别率低。为提高小目标的轮廓分割精度,Zhang等
[9]提出一种结合形态重构与水平集的新型CV水平集分割方法MRLSM,但其演化效果依赖于能量函数的能量惩罚项和时间步长项的初始设置。
第2类是基于CNN模型的分割方案。文献[
71]在U-Net基准框架下,嵌入新设计的注意力模块和空洞卷积金字塔(Atrous pyramid,AP)模块,取得了较高的分割准确率。在文献[
72]中,作者为降低CNN的计算开销,将ViT(Vision Transformer)思想引入FLS图像分割领域,构建卷积层和ViT组合的U型网络MiTU-Net,极大降低了模型的复杂度,且具有很强的鲁棒性。MiTU-Net的分割精度略低于文献[
71]中的模型精度,但模型复杂度由124.46 GFLOPs(Floating Point Operations)降低到9.86 GFLOPs,适合嵌入资源有限的平台开展实时目标分割。因此,文献[
72]提出的MiTU-Net更能满足FLS图像分割任务的应用需求。
4 本文总结
本文综述了基于SSS、SAS和FLS在图像分类、检测以及分割任务中主要的水下目标识别算法。根据
图13中总结的这3类声呐的成像特点与应用场景,分析总结不同成像声呐对应图像处理任务下目标识别算法的特点以及目前性能较好的方案,如
图14所示。
5 未来展望
(1)用于科学研究的无任何偏好、多种类以及多数量的开源成像声呐数据集稀缺。未来需要:①开展成像声呐图像生成模拟器的研究。目前已经存在相关方法,如调整光学图像不同区域的强度分布模拟声呐图像的半合成数据方法
[1],采用生成对抗网络(Generative adversarial network, GAN)
[73]以及基于风格迁移的端到端网络
[74]等声呐图像生成方法。进一步结合不同成像声呐的成像特点,设计更加逼真的成像声呐图像生成模拟器是应对缺乏声呐图像挑战的趋势;②不局限于文献[
72]采用的线性拉伸、旋转和颜色变换等图像增强方法进行成像声呐数据扩增,还可以利用Curvelet变换等仿人眼视觉方案增强声呐图像。
(2)由于水下环境的复杂性,成像声呐的成像质量受大量散斑噪声干扰,导致目标识别精度低。目前已有递归最小二乘(Recursive least squares,RLS)法
[75]、非局部均值散斑滤波
[76]以及基于CNN的自编码器
[30]等算法在声呐图像去噪领域取得了一定的进展。未来如何结合不同成像声呐图像特点探索最大限度保留细节的去噪方法是极具前瞻性和挑战性的课题。
(3)声呐图像受声波成像原理的影响存在大量的非目标高亮区,相较于自然图像
[77]和医学图像
[78]的目标识别方法,现有的成像声呐水下目标识别方法在目标高亮区与非目标高亮区交织的复杂区域误报率(False positive rate,FPR)较高。在面向复杂场景的光学图像处理领域,文献[
79]提出的CGNet取得了较好的效果。因此,可通过借鉴CGNet在网络各个阶段收集上下文信息的思路,提高水下目标识别算法融合局部特征、周围上下文特征以及全局上下文信息的能力以有效抑制非目标高亮区干扰是未来重要的研究方向之一。
(4)随着UUV逐渐呈现智能化发展趋势,这将对水下机器人通过成像声呐自主勘探、识别目标的技术提出更高要求。目前,文献[
60]提出的FLS图像分类算法已成功嵌入树莓派2代。未来可以进一步探索减少计算参数并节省内存空间的方法,使其能运行在资源有限的硬件系统进行智能化水下作业。