PDF
摘要
面对小样本数据集,虚拟样本生成(virtual sample generation,VSG)技术已被证实能有效提升机器学习算法的性能,然而对于最优的生成数量并未有明确的结论。本文首先在给定训练样本标准方差上限的条件下,采用信息熵理论研究最优虚拟样本生成数量;其次将虚拟样本所产生的噪声加以考虑,在给定的置信水平(0.95)下建立了最优虚拟样本生成数量的一般概率模型及分析方法;最后以2016年浙江湖州某变电站历史监测故障数据建立小样本数据集,设计4次相关虚拟样本生成实验,结果表明,上述两种最优虚拟样本生成数量法则行之有效,相应的机器学习预测精度有所提高。
关键词
小样本
/
机器学习
/
虚拟样本
/
信息熵
/
置信水平
Key words
具有两类上限条件的虚拟样本生成数量优化[J].
广西师范大学学报(自然科学版), 2019, 37(01): 142-148 DOI:10.16088/j.issn.1001-6600.2019.01.016