PDF
摘要
【目的】传统电网变电工程造价预测方法通常依赖单一影响因子或线性假设模型,难以全面捕捉多因子间复杂的非线性关系,预测精度不足。此外,现有方法在处理高维度分类变量时面临维度爆炸或信息损失等问题,尤其在小样本数据场景下容易过拟合。因此,本文构建了一种能有效融合多源影响因子、适应非线性关系且在小样本数据中表现稳健的变电工程造价预测模型,为电网企业的投资决策提供更精准的技术支持。【方法】提出了一种基于均值编码(ME)并融合极端梯度提升框架(XGBoost)的变电工程造价预测模型(ME-XGB)。首先,从设备和材料、施工工艺、施工规模、地理环境及设计标准等多维度中提取13个关键影响因子,涵盖分类变量与连续变量。针对分类变量与造价间的非线性关系,利用均值编码进行特征工程处理,通过计算类别内目标变量即单位容量造价的均值并结合平滑因子,将分类变量转化为连续特征,既保留类别信息又避免维度爆炸。其次,利用XGBoost构建预测模型,通过集成多棵决策树逐步修正残差,并引入正则化项和超参数调优,提升模型泛化能力。实验选取某电网公司200个变电工程样本,随机划分为训练集(80%)与测试集(20%),以平均绝对误差(MAE)和拟合优度(R2)作为评价指标,与MK-TESM、BP神经网络和XGBoost模型的性能进行对比分析。【结果】ME-XGB模型在测试集上的预测精度显著优于对比模型。其MAE中位数与均值分别为5和6.875,较MK-TESM、BP神经网络和XGBoost模型均有所降低。同时,ME-XGB模型的R2值达到0.857 9,远高于对比模型,表明该模型对数据变动的解释能力更强。此外,箱线图分析结果显示,ME-XGB模型的预测误差分布范围最窄,验证了该模型的稳定性更强。超参数调优结果表明,XGBoost模型的树深度和学习率等超参数设置有效平衡了模型复杂度与过拟合风险。【结论】ME-XGB模型通过均值编码解决了分类变量非线性表达与维度控制问题,结合XGBoost模型的集成学习能力,显著提升了小样本场景下的预测性能。ME-XGB模型在平均绝对误差、拟合优度及误差稳定性方面均优于对比模型,可为电网企业提供更可靠的造价预测。未来研究可进一步探索动态影响因子的建模,并结合迁移学习拓展模型在跨区域工程中的应用。
关键词
变电工程
/
造价预测
/
非线性
/
影响因子
/
极端梯度提升
/
均值编码
/
融合框架
/
特征工程
Key words
基于融合XGBoost的变电工程造价数据预测算法[J].
沈阳工业大学学报, 2025, 47(03): 317-323 DOI: