PDF (5646K)
摘要
为解决传统梯度提升树方法在能源贫困识别时容易出现的训练不足、过拟合、可解释性差等问题,本文提出了一种面向能源贫困识别任务的轻量可解释梯度提升树方法。该方法首先剔除原始数据中的缺失值、异常值等噪声样本,根据特征关联分析后的样本梯度进行排序,以实现梯度提升树内部节点的分割,随后采用特征绑定技术加速训练过程,以实现模型的轻量化;其次,引入模型解释方法进行影响因素分析,量化不同特征对能源贫困识别的影响程度,增强了模型的可解释性。在典型的能源贫困识别数据集上的实验结果表明,与其他方法[逻辑回归(Logistic Regression,LR)、K近邻法(K-Nearest Neighbor,KNN)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、决策树(Classification and Regression Tree,CART)、XGBoost(eXtreme Gradient Boosting)、GradientBoosting]相比,本文提出的轻量可解释模型的AUC(Area Under Curve)值达到99.61%,提高了0.2%~17.8%,具有较为明显的优势。
关键词
LightGBM(Light Gradient Boosting Machine)模型
/
能源贫困预测
/
特征关联分析
/
模型解释方法
Key words
一种面向能源贫困识别的轻量可解释梯度提升树[J].
山西大学学报(自然科学版), 2024, 47(06): 1190-1200 DOI:10.13451/j.sxu.ns.2024119