PDF
摘要
针对水稻病害图像数据集样本较少而影响深度神经网络模型学习的精度问题,提出一种改进的对抗生成网络模型ViT-WGAN-GP(Vision Transformer and Wasserstein Generative Adversarial Networks with Gradient Penalty)用于对图像数据集进行增强。首先在生成模型引入Vision Transformer结构加强对全局特征的学习;其次在判别模型采用WGAN-GP结构,通过Wasserstein衡量函数和梯度惩罚项保证模型训练的稳定性,提升生成图像的效果;最后使用增强后的样本集训练深度神经网络模型。实验结果表明,针对水稻病害图像,ViT-WGAN-GP模型与GAN、 WGAN-GP相比生成图像效果提升显著。使用增强后的水稻病害样本集训练VGG16、 ResNet34和GoogLeNet模型,水稻病害识别平均准确率分别达到94.3%,96.2%,97.5%,分别提升了9.7%,2.8%,4.8%。由此可见,该ViT-WGAN-GP模型能生成较为真实的水稻病害图像,且能在小样本集下,较大幅度提高深度神经网络模型的识别准确率。
关键词
图像生成
/
视觉Transformer
/
带梯度惩罚的Wasserstein距离生成对抗网络
/
对抗生成网络
/
水稻病害
Key words
基于ViT-WGAN-GP的水稻病害图像生成方法[J].
吉林大学学报(信息科学版), 2025, 43(04): 747-754 DOI:10.19292/j.cnki.jdxxp.2025.04.002