基于CTGAN和逻辑回归的企业员工流失预测及影响因素研究

金艺鸥; 王宁若; 唐昊; 王淼

doi:10.3969/j.issn.1672-8513.2025.05.013

云南民族大学学报(自然科学版) ›› 2025, Vol. 34 ›› Issue (05) : 597 -610. DOI: 10.3969/j.issn.1672-8513.2025.05.013

信息与计算机科学

基于CTGAN和逻辑回归的企业员工流失预测及影响因素研究

金艺鸥 ¹ ,
王宁若 ² ,
唐昊 ³ ,
王淼 ⁴

作者信息 +

Research on employee turnover prediction and influencing factors in enterprises based on CTGAN and logistic regression

Author information +

文章历史 +

PDF (3012K)

摘要

通过分析影响员工离职的关键因素，构建条件表格对抗生成网络 - 逻辑回归（CTGAN - LR）预测模型.首先，选用了某公司的开源人力资源数据集并进行了预处理.由于离职样本数量较少，采用条件表格对抗生成网络（CTGAN）进行过采样，以解决数据不平衡的问题.其次，在原始数据集和平衡后的数据集上，利用逻辑回归、决策树、随机森林和梯度提升树等多种机器学习算法进行员工流失预测，结果表明CTGAN - LR在各项指标上表现最佳.最后，研究探讨了影响员工离职的主要因素，通过特征重要性分析和因果推断确认了这些因素的显著性.同时，通过生存分析为企业提供了动态视角，以帮助制定更有效的人力资源管理策略.研究结果为企业制定针对性的留人策略提供了实证依据，并强调了提升员工满意度和优化薪酬结构的重要性.

Abstract

Market competition is becoming increasingly intense， and high employee turnover rates seriously impact the sustainable development of enterprises. This study focuses on analyzing the key factors influencing employee attrition and constructing a Conditional Tabular Generative Adversarial Network - Logistic Regression（CTGAN - LR） predictive model. First， an open - source human resources dataset from a certain company is selected and preprocessed. Due to the limited number of turnover samples， Conditional Tabular Generative Adversarial Network（CTGAN） is used for oversampling to address the issue of data imbalance. Secondly， employee turnover prediction is performed on both the original dataset and the balanced dataset using various machine learning algorithms， including logistic regression， decision trees， random forests， and gradient boosting trees. The results show that the CTGAN - LR model achieves the best performance across all metrics. Finally， the study examines the main factors influencing employee turnover and validates their significance through feature importance analysis and causal inference. At the same time， survival analysis provides companies with a dynamic perspective to help formulate more effective human resource management strategies. The findings offer empirical evidence for developing targeted employee retention strategies and emphasize the importance of enhancing employee satisfaction and optimizing compensation structures.

Graphical abstract

关键词

员工流失 / 不平衡数据集 / 条件表格对抗生成网络 / 逻辑回归

Key words

employee turnover / imbalanced dataset / conditional tabular generative adversarial network （CTGAN） / logistic regression

引用本文

引用格式 ▾

金艺鸥,王宁若,唐昊,王淼. 基于CTGAN和逻辑回归的企业员工流失预测及影响因素研究[J]. 云南民族大学学报(自然科学版), 2025, 34(05): 597-610 DOI:10.3969/j.issn.1672-8513.2025.05.013

登录浏览全文

4963

注册一个新账户忘记密码

随着市场环境的不断变化和人才竞争的越加迅猛，员工流失率对企业的持续发展和竞争力带来了很大影响，企业急需有效的人力资源管理策略来应对员工流失问题.员工流失不仅直接影响团队稳定性和工作效率，还可能导致知识和技能的流失，从而影响企业的创新能力和市场表现.因此，如何预测员工流失并制定相应的留人策略，已成为人力资源管理领域的重要议题.

近年来，机器学习技术的迅速发展为企业员工流失预测提供了新的工具.闫泓序等^［1］构建了PCC模型，成功识别出了3种离职员工画像并提出有针对性的保留策略，提升了员工离职预测的准确性与实用性.王冠鹏等^［2］利用MV和LASSO方法识别关键变量，赵文璇^［3］建立了XGBoost模型并运用SHAP分析了影响离职的因素，显示了其在预测中的优势.王志宁^［4］利用统计学对企业员工离职倾向进行了影响因素分析.乔源等^［5］通过性能比较，结合SelectKBest和递归特征消除等技术，发现使用SelectKBest的决策树和随机森林的SVM - 多项式核函数模型效果最佳.这些研究共同推动了员工离职预测的理论和实践发展.

Alaskar等^［6］比较了5种机器学习算法和3种特征选择技术用来预测员工离职.万毅斌等^［7］针对企业员工数据集具有高度非均衡性导致的离职预测准确率不佳问题，采用SMOTE方法平衡数据集，并提出改进的代价敏感加权SVM优化算法进行员工离职预测.李晓峰等^［8］针对利用多元时间序列预测难以提取影响信息的问题，提出了一种时间变化信息学习（CIL）方法.这些研究通过应用先进的机器学习技术，提升了员工流失预测的准确性和实用性，解决了数据不平衡和信息提取等关键问题，为企业人力资源管理提供了有效的决策支持.

郑健等^［9］提出了一种基于区间变量的随机森林算法，有效解决了西部电力企业员工不平衡数据的离职预测问题.通过分析青海省电力公司2009—2017年的数据表明该算法在预测精度上优于传统模型，并识别出了员工离职的重要特征，为人力资源管理提供了重要决策依据.文献［10 - 15］针对IBM公司员工流失问题展开了研究，采用多种机器学习模型（如XGBoost和随机森林）有效预测员工离职问题，识别出婚姻状况、专业领域和部门等特征为关键影响因素.改进的算法提升了员工离职预测性能，强调了环境满意度和工作关系等变量的重要性，为企业制定有针对性的留人策略提供了实证依据，帮助降低了员工流失率并提升了团队稳定性.

1 基础知识

为了研究员工流失预测模型，采用了多种数据分析技术，包括可视化分析、因果推断、生存分析以及特征重要性分析.同时，引入了逻辑回归、决策树、随机森林、梯度提升树、支持向量机等多种机器学习算法^［16］以及相应的模型评估技术.下面对这些技术的工作原理进行详细介绍.

1.1 数据分析技术

可视化工具（如直方图、饼图、箱线图等）可对数据进行初步探析，能有效地帮助识别与员工流失相关的关键特征，深入理解数据的整体分布和趋势.生存分析能探讨员工在公司工作年限与流失率之间的关系，以便更好地理解员工流失的动态.

1.1.1 因果推断

因果推断^［16］是一种用于确定变量之间因果关系的系统方法，涵盖多种技术和手段.常见的方法包括双重差分法、断点回归分析、贝叶斯推断以及回归分析等.这些方法通过从观察性数据中估算干预或政策变动的因果效应，并通过统计检验结果提高分析的可信度.

1.1.2 生存分析

生存分析^［16］是统计学中专门用于分析时间到特定事件（如死亡、故障、离职、复发等）发生的过程，其核心目的是分析某一特定事件在特定时间内发生的概率，以及影响这一事件的各种因素.Kaplan - Meier生存曲线和Cox比例风险模型是生存分析的两种常见且重要的方法，前者用于估计和可视化生存函数，而后者则用于评估多个变量对生存时间的影响.

Cox比例风险模型^［17］假设不同个体之间的风险比是恒定的，通过特征变量的系数来量化不同特征对风险的影响.Cox比例风险模型如式（1）所示.

h (t) = h 0 e x p (β 1 x 1 + β 2 x 2 + … + β p x p)

.（1）

其中，h（t）是某时刻t的风险率；h₀是基线风险率；x₁，x₂，…，x_p 是影响生存的特征变量（如工作满意度、收入等）；

β 1, β 2, . . ., β p

是特征的回归系数.

1.2 逻辑回归

逻辑回归假设自变量（特征）与因变量（目标）之间存在线性关系.这意味着自变量的线性组合可以用于预测因变量的概率.为了将线性组合的结果转换为概率，逻辑回归^［18］引入了Sigmoid函数，如式（2）所示.

h (x) = 1 1 + e - z

.（2）

其中，z为自变量的线性组合如式（3）所示.

z = w 0 + w 1 x 1 + w 2 x 2 + . . . + w n x n

.（3）

其中，w₀为截距，w₁，w₂，...，w_n 为特征的权重，x₁，x₂，…，x_n 为输入特征.

逻辑回归使用对数损失函数来评估模型的性能，对数损失函数如式（4）所示.

L = - 1 m ∑ i = 1 m [y (i) l o g (h (x (i))) + (1 - y (i)) l o g (1 - h (x (i)))]

.（4）

其中，m为样本数量，y^（ⁱ^）为样本的真实标签，h（x^（i^））为模型对样本的预测概率.逻辑回归的目标为最小化这个损失函数以找到最佳的权重参数.

1.3 条件表格对抗生成网络（CTGAN）

条件表格对抗生成网络（conditional tabular generative adversarial network，CTGAN）^［17-18］是一类专门用于生成结构化表格数据的生成对抗网络（GAN）模型.

1） CTGAN的基本结构

CTGAN是由生成器（generator）和判别器（discriminator）组成的深度学习模型.生成器负责生成逼真的数据，而判别器则负责判断数据是真实的还是合成的.两者通过对抗训练相互竞争，生成器试图生成能够欺骗判别器的数据，而判别器则试图提高其识别合成数据的能力.

2）条件生成

CTGAN在GAN基础上加入条件变量，使生成过程受条件约束，能够生成符合指定条件的数据.例如，假设目标为生成员工数据，条件信息可以是“部门”或“性别”，生成器会根据这些条件生成相应类别的数据.这种方式确保生成的数据在类别和特征上更具代表性，从而更好地反映真实数据的分布.

3）平衡训练

CTGAN采用了一种称为“平衡训练”的方法，确保生成器和判别器的训练速度保持一致，防止某一方过于强大而导致训练不稳定.

1.4 模型评估技术

员工离职预测属于二分类问题，本文采用准确率（Accuracy）、敏感度（Sensitivity）、特异性（Specificity）和几何均值（G - mean）作为分类性能指标^［16］.其混淆矩阵如表1所示，提供了对模型预测效果的直观评估.

表中TP、TN、FP、FN表示分类模型预测得到“真正”“真负”“假正”“假负”样本的数量.基于表1混淆矩阵可得到准确率、敏感度、特异性和几何均值指标的定义.

1）准确率

准确率衡量模型正确分类的样本占总样本的比例，计算公式如式（5）所示.

A c c u r a c y = T P + T N T P + T N + F P + F N

.（5）

2）敏感度

敏感度表示正类样本被正确识别的比例.计算公式如式（6）所示.

S e n s i t i v i t y = T P T P + F N

.（6）

3）特异性

特异性表示负类样本被正确识别的比例.计算公式如式（7）所示.

S p e c i f i c i t y = T N F P + T N

.（7）

4）几何均值

G - mean为2个类的灵敏度和特异性的几何平均值，计算公式如式（8）所示.

G - m e a n = S e n s i t i v i t y × S p e c i f i c i t y

.（8）

5） ROC曲线

ROC是以假阳性率（FPR）为横坐标，以真正率（TPR）为纵坐标绘制的曲线.

假阳性率（FPR）表示在所有实际为负类的样本中，被错误预测为正类的比例.计算公式如式（9）所示.

F P R = F P F P + T N

.（9）

真正率（TPR）表示在所有实际为正类的样本中，被正确预测为正类的比例，与敏感度的定义相同.

6） AUC（area under the curve）

AUC是ROC曲线下的面积，其值范围在0 ~ 1之间，表示模型的分类能力；AUC = 0.5，模型没有分类能力，相当于随机猜测；AUC > 0.5，模型具有一定的分类能力；AUC = 1.0，模型完美分类.AUC可以通过积分计算得到，计算公式如式（10）所示.

A U C = ∫ 01 T P R x d x

.（10）

1.5 特征重要性分析

在员工流失预测中，特征重要性分析是关键工具.通过评估决策树和随机森林模型中各特征的分裂情况，可以识别出对预测最为重要的变量，从而更好地理解员工流失的影响因素.

1）特征重要性的计算

对于决策树和随机森林，每次分裂节点时，都会基于某个特征的分裂来减少不纯度（如信息增益或基尼系数）.特征重要性基于其对不纯度减少的贡献来计算，所有树的结果会被平均来给出每个特征的重要性得分.

2）特征重要性的公式

对于特征x_j，其重要性I（x_j ）定义为该特征在所有决策树中的总不纯度减少量之和.假设在每棵树的分裂过程中，特征x_j 带来的不纯度减少为

Δ I m p u r i t y x j

，则特征x_j 的总重要性如公式（11）所示.

I x j = ∑ a l l t r e e s Δ I m p u r i t y x j

.（11）

2 CTGAN - LR算法

本文旨在对IBM公司的开源人力资源数据集进行离职预测.由于该数据集存在类别不平衡的问题，为了更有效地预测员工是否离职，本文提出首先利用条件生成对抗网络（CTGAN）对数据进行扩充，以构建平衡数据集.随后，基于该平衡数据集，应用逻辑回归算法进行预测.具体步骤如下.

1）数据预处理

去除噪声和不一致数据、处理缺失值以及将分类变量转换为数值形式.

2）生成对抗网络CTGAN的训练

利用生成器学习真实数据的分布，生成合成数据；利用判别器判断数据是真实还是合成，同时判别器通过损失函数评估判断准确性；使用优化算法更新判别器的参数，提升判别器判别能力；重复上述步骤，直到满足终止条件（如达到预定精度或训练次数）.

3）逻辑回归模型训练和评估

将数据分为训练集和测试集，设置逻辑回归模型的初始参数，使用训练集数据训练逻辑回归模型，使用测试数据对逻辑回归模型进行评估.

算法流程图如图1所示.

3 数据及初步分析

3.1 数据集的来源及说明

本数据集来源于竞赛网站https：//www. kaggle.com/datasets/anshika2301/hr - analytics - dataset，属于IBM公司的开源人力资源数据集，涵盖了员工的个人信息、工作表现和公司属性.该数据集包含1 480名员工的记录，共包含37个特征，涵盖了员工的个人属性、工作情况、工作环境等多个维度，具体信息如表2所示.

3.2 数据预处理

本节对数据进行预处理，其核心步骤包括缺失值处理、数据标准化和分类变量的独热编码.

1）缺失值填充

数据集若存在缺失值，这可能会对模型的训练和预测造成偏差.通过检查发现属性“与当前经理共事年数”列缺失57个值，为数值型数据，采用均值填充.

2）数据标准化

由于数据集中部分特征的数值跨度较大，若不进行适当处理，可能会导致模型过度依赖这些特征.本文数据集特征“月收入”和“工作年限”为数值型特征，在进行模型训练前需对其进行标准化处理，将其转换为均值为0、标准差为1的正态分布.此处理减小不同量纲特征对模型的影响，提高模型的准确性和稳定性.

3）独热编码

本文数据集中，“部门”“岗位职责”“性别”和“教育水平”等特征均为多类别离散型变量.针对这些特征，采用Pandas库中的pd.get_dummies（）函数进行独热编码（One - Hot Encoding），将每个类别转换为对应的二进制特征.

通过以上预处理，数据集成功转化为规范化的数据，为下一步的离职预测和数据分析奠定了基础.

4 离职预测实验与结果分析

为了验证CTGAN - 逻辑回归算法的有效性，选择决策树、支持向量机（线性核）（SVM （linear kernel））、支持向量机（径向基函数核）（SVM （RBF kernel））、高斯朴素贝叶斯（gaussian naive bayes）、梯度提升（gradient boosting）和随机森林（random forest）等分类算法为对比算法.此外，为了验证CTGAN - 逻辑回归算法的有效性，在原始数据集、SMOTE平衡后数据集和CTGAN平衡后数据集上分别进行对比实验并对结果进行分析.

4.1 数据集

针对预处理后的不平衡数据集中标签为“yes”的200多个样本，使用CTGAN进行过采样.优化器选择了Adam，学习率设置为2 × 10⁻⁴，批量大小为500，训练轮数为200个epoch.通过这一过程，生成了500个标签为“yes”的样本，并将这些合成数据添加到原始数据集中，构成了新的数据集.新的数据集共有1 980条数据，其中738条为员工流失数据，1 242条为员工未流失数据，员工流失与未流失的比例接近1∶1，基本达到了平衡.为了验证平衡前后数据集的分布相似度，利用方法evaluate_quality（）验证数据一致性，最终结果列的分布形状的相似性接近0.87，列之间关系的相似性接近0.75，总体得分为0.81，平衡效果较好.这一数据集被命名为CTGAN平衡后数据集.

为了与传统采样算法SMOTE进行对比实验，按照SMOTE的思想扩充了员工流失数据为1 242人，这样员工是否流失比例为1∶1，达到了平衡，此数据集称为SMOTE平衡后数据集.

4.2 实验对比分析

利用3.2节预处理后得到的规范数据集（其中，流失员工为238人，未流失员工为1 242人，此数据集命名为原数据集）、SMOTE平衡后数据集（其中，流失员工为1 242人、未流失员工也为1 242人）和CTGAN平衡后数据集（其中，流失人员为738人，未流失人员为1 242人）进行实验，对数据集采用8∶2的划分方式分为训练集和测试集.采用7种分类算法进行对比实验，并分析和比较这些模型的预测性能.采用准确率、敏感度、特异性和G - mean评价指标在测试集上对7种模型的性能进行对比与验证，为选择最佳模型提供依据.

4.2.1 在原始数据集上的对比分析

在原始数据集上进行7种模型的对比实验，得到的性能指标具体信息如表3所示.

由表3可知，SVM （linear kernel）在准确率（0.88）、敏感度（0.98）和G - mean（0.63）方面表现优异，显示出其在识别正类样本的能力较强.然而，逻辑回归也表现良好，准确率为0.87，敏感度为0.97，且G - mean为0.60，表明其在综合性能上与SVM （linear kernel）相近.相较之下，Decision Tree和Random Forest表现相对较弱，尤其是Random Forest，其特异性仅为0.13，显示出其对负类样本的识别能力非常不足.Gaussian Naive Bayes虽然在特异性上表现良好（0.91），但其低准确率（0.38）和敏感度（0.27）使其整体性能不佳.综上所述，SVM （linear kernel）和逻辑回归在各项指标中表现最为出色，尤其是在识别正类样本方面，适合用于需要较高识别率的应用场景.

4.2.2 在SMOTE平衡后数据集上的对比分析

在SMOTE平衡后数据集上进行7种模型对比实验，最终得到的性能指标如表4所示.

根据表4的结果，逻辑回归和SVM （linear kernel）在准确率（0.80）和敏感度（0.82）上表现相似，但逻辑回归在特异性上稍占优势（0.73对0.72），显示其在识别离职员工方面的能力更强.Decision Tree的敏感度较高（0.84），但特异性仅为0.40，意味着对负样本识别能力较差.SVM （RBF kernel）在准确率（0.83）和敏感度（0.90）上表现优良，然而特异性仅为0.47，反映出对负样本识别能力存在不足.Gradient Boosting的准确率高达0.87，但特异性较低（0.36），反映对负样本识别能力更差；Gaussian Naive Bayes表现较差，准确率只有0.48，敏感度和特异性差异较大.Random Forest的准确率为0.85，但特异性仅为0.24，显示出类似问题.

综合分析表明，逻辑回归模型在员工流失预测中表现优越，尤其在敏感度与特异性的平衡方面，适合实际应用于员工流失预测任务.

4.2.3 在CTGAN平衡后数据集上的对比分析

在CTGAN平衡后数据集上进行7种模型的对比实验，最终得到的具体性能指标如表5所示.

由表5可见，逻辑回归在准确率（0.80）、敏感度（0.81）和G - mean（0.79）方面均表现良好，虽然特异性（0.77）稍逊色，但整体平衡性较好.SVM （linear kernel）与逻辑回归相比，稍显逊色.SVM （RBF kernel）具有良好的准确率（0.84）和较高的敏感度（0.89），但在特异性（0.63）和G - mean（0.75）上略逊色.Gradient boosting在敏感度（0.93）和准确率（0.84）上表现最佳，但特异性仅为0.42，G - mean为0.63，说明它对负类样本的识别能力不足.Random forest与Gradient boosting性能相似，而Gaussian naive bayes和Decision tree整体效果很差；综合来看，逻辑回归在原始数据集、SMOTE平衡后数据集和CTGAN平衡后数据集上均表现良好，尤其在准确率、敏感度和G - mean方面均保持较高水平.

4.2.4 ROC曲线与AUC值分析

在原始数据集、SMOTE平衡后数据集和CTGAN平衡后数据集上分别绘制各个模型的ROC曲线，如图2 ~ 4所示.这些图展示了7种模型的分类效果，并通过AUC值对比模型性能.该评估基于测试集的数据，用于验证模型的泛化能力，即它们在未见过的数据上的表现.

由图2可以看出，逻辑回归和SVM （linear kernel）的AUC面积最大，达到了0.87，这表明这2个模型的准确率最高.SVM （RBF kernel）和Gradient boosting的AUC分别为0.86和0.84，显示出这2个模型也具有较高的准确率.Random forest的AUC为0.82，表现中等.其余模型的AUC值相对较低，显示出它们在准确率上的不足.

由图3可以看出，在SMOTE平衡后数据集上SVM （linear kernel）的AUC面积最大，达到了0.86，这表明此模型的准确率最高.逻辑回归和随机森林的AUC面积分别为0.85和0.84，显示出这2个模型也具有较高的准确率.Gradient boosting和SVM （RBF kernel）的AUC分别为0.82和0.80，表现中等.其余模型的AUC值相对较低，显示出它们在准确率上的不足.

由图4可知逻辑回归和SVM（linear kernel）的AUC值均为0.87，表现最优.SVM （RBF kernel）、Random forest、Gradient boosting和Gaussian naive bayes的AUC值依次下降，性能良好.决策树的AUC值为0.68，接近随机猜测水平，性能最差.

通过对比图2 ~ 4，可以看出逻辑回归模型和SVM（linear kernel）在所有3个数据集上的AUC值表现优异，尤其在CTGAN平衡后的数据集上均达到了0.87.因此，这2种模型在不同数据集上均展现了最佳性能.再综合评估原始数据集和2种平衡后数据集的性能指标和ROC曲线，逻辑回归在CTGAN平衡后的数据集上展现出最优表现.其优势在于逻辑回归对数据分布没有严格要求，适用性强且易于解释.与CTGAN结合后，逻辑回归通过生成高质量的合成数据有效缓解了类别不平衡问题，增强了准确性和敏感度，同时增加了训练样本的多样性，降低了过拟合风险，进一步提升了模型的鲁棒性，最终在离职员工预测任务中取得了更优的性能.

综合考虑上述结果，CTGAN - LR是实现员工流失预测的最佳选择.

5 影响因素分析

5.1 探索性数据分析

利用Python的第三方库Matplotlib继续对数据进行探索性分析，分析员工流失与多种特征（如年龄、部门、工作满意度等）的关系以及特征的重要性.

5.1.1 年龄与员工流失的关系

采用箱线图展示年龄与员工流失的关系，如图5所示.由图5可见，流失的员工年龄分布相对年轻，主要集中在30岁左右，而未流失的员工年龄中位数接近40岁，并且未流失员工的年龄分布更加广泛.由此可见，较年轻的员工更有可能流失，而年纪较大的员工则倾向于留在公司.

5.1.2 部门与员工流失的关系

为了展示部门与员工流失的关系，对3个部门中员工流失情况进行了统计，并采用柱状图进行可视化，如图6所示.

由此图可见，研发部的员工数量最多，但流失员工的比例相对较低；销售部的员工数量适中，但流失比例较大；人力资源部员工人数最少，流失情况也相对较少.由此可以看出，销售部门的流失率较高，可能是一个需要特别关注的部门.

5.1.3 工作满意度与员工流失的关系

为了展示工作满意度与员工流失的关系，对1、2、3、4共4种层级的工作满意度的员工流失情况进行了统计，并采用柱状图进行可视化，如图7所示.

由此图可知，工作满意度较低的员工（评分为1和2）有更高的流失率，而工作满意度较高的员工（评分为3和4）流失率明显较低.这表明，工作满意度与员工流失呈负相关，满意度越高，员工留在公司的可能性越大.

5.2 特征重要性分析

通过随机森林模型对特征重要性进行评估，识别出对员工流失预测影响最大的关键特征.具体结果见图8.

由图所示，“月收入”特征在员工流失预测中具有最高的重要性，随后是“年龄”和“总工作年限”.由此表明“月收入”“年龄”和“总工作年限”是影响员工流失的关键因素.此外，“加班情况”和“日薪”等特征也有较大的重要性分数，而部门、性别和工作角色的影响则相对较小.

通过以上探索性数据分析（EDA）发现，尽管公司整体员工流失率较低（流失员工约200人，未流失员工约1 200多人），但年轻员工的流失尤为突出，尤其集中在30岁左右的年龄段.此外，销售部门的员工流失率较高，表明该部门可能需要采取更有针对性的管理策略以留住人才.“工作满意度”与流失率呈显著负相关，满意度较低的员工（评分为1和2）流失率明显高于满意度较高的员工（评分为3和4），这说明提升员工满意度是降低流失率重要举措.特征重要性分析表明，“月收入”“年龄”和“工作年限”是影响员工流失的关键因素，建议公司优化薪酬结构并拓展职业发展机会，以提升员工的留任率.总体而言，针对年轻员工和销售部门的流失问题，企业应制定更具针对性的留人策略.

5.3 因果推断分析

因果推断旨在明确变量之间的因果关系.本节采用回归分析方法进行因果推断，具体通过线性回归模型评估“工作年限”“月收入”“工作满意度”及“工作与生活平衡”等特征对员工离职（attrition_Yes）的因果影响.本文利用Python中的DoWhy库进行因果推断，采用后门调整的方法.通过回归模型评估各特征对结果变量的平均处理效应（ATE）.具体结果如图9所示.

图9显示“工作年限”和“月收入”对降低员工流失率具有显著的负向作用.具体来说，“工作年限”越长或“月收入”越高，员工的流失率明显下降.此外，“工作满意度”和“工作与生活的平衡”同样对员工流失率有显著的负面影响，“工作与生活的平衡”越好、“工作满意度”越高，员工的流失率则越小.因此，公司若能着力改善这些关键因素，将有助于有效降低员工流失率.

5.4 生存分析

本节采用Kaplan - Meier生存曲线估计不同组别（如员工工龄、加班状态、收入水平）对员工存活概率的影响，并利用Cox比例风险模型对各特征的相对风险进行量化分析.该方法有助于深入理解影响员工流失的关键因素.

5.4.1 Kaplan - Meier生存曲线

图10展示了“员工工龄”与流失率之间的关系，可以观察到，随着员工在公司年限的增加，存留概率逐渐降低，尤其是在公司工作满10年后，流失率明显上升，存留概率持续减少.这反映了长期员工的流失情况，可能与职业发展机会、个人目标的变化等因素有关.

图11展示了“工作满意度”与“员工留存概率”之间的关系.可以明显看出，“工作满意度”较高的员工（蓝线）存留概率普遍高于满意度较低的员工（橙线）.尤其是在工作年限为10 ~ 20年期间，满意度较低的员工流失现象更加突出.该结果表明，“工作满意度”对员工的长期留存具有重要影响，因此提升员工的“工作满意度”有助于有效降低流失率.

由图12可见，员工的“工作与生活平衡”特征对其离职概率具有显著的影响，拥有良好“工作与生活平衡”的员工，即无加班的员工，在公司的存留概率较高.随着工作年限的增加，其存活概率保持在较高水平，离职率相对较低.这表明，能够实现“工作与生活平衡”的员工更倾向于留在公司.相反，“工作与生活平衡”较差的员工，即需要加班的员工，随着工作年限的增加，其留存概率迅速下降，离职率显著上升，反映出加班文化对员工离职具有明显的负面影响.

图13展示了不同“收入水平”下的员工生存情况，“收入水平”显著影响员工的留存概率.高收入员工在公司工作的时间较长时，离职概率较低，存活率明显较高.相反，收入较低的员工离职率较高，尤其在工作年限较长的情况下，其存活概率明显下降.这表明“收入水平”对员工的忠诚度和留任具有直接影响，较低的薪资可能是促使员工离职的重要原因之一.

5.4.2 Cox比例风险模型

本节利用Cox比例风险模型评估不同特征（如工作满意度、工作与生活平衡、月收入等）对员工离职风险的影响.该模型能够估算各特征的风险比（hazard ratio， HR），用于判断哪些因素可能提高或降低员工离职的概率.风险比大于1表示该特征会增加离职风险，反之降低离职风险.通过比较各特征的风险比，有助于识别关键影响因素，从而为优化员工管理和留任策略提供依据.

根据图14中的风险比（HR）分析，“月收入”的HR接近1，说明其对员工离职风险影响不大.相比之下，“工作与生活平衡”的HR接近0.83，“工作满意度”的HR为0.8，均低于1，表明这两个因素能有效降低员工的离职风险.由此可见，尽管“收入水平”对员工离职影响有限，但良好的“工作与生活平衡”和较高的“工作满意度”对员工留任具有显著促进作用.因此，企业应重点关注提升员工的“工作与生活平衡”以及“工作满意度”，以降低离职率.

6 讨论

IT企业的人力资源系统可集成CTGAN - LR模型，以实现对员工流失的预测.具体步骤如下：

1）采集并预处理员工的相关信息（如工作满意度、薪资水平、工作与生活平衡等）；

2）利用CTGAN生成合成数据，缓解数据不平衡问题；

3）利用这些数据训练逻辑回归模型，构建员工流失预测模型.

在实际应用中，IT企业的人力资源系统能够实时更新员工信息，结合嵌入的CTGAN - LR模型实现动态的员工流失预测.系统会定期通过准确率、特异性和AUC等指标对模型性能进行评估.同时，建立反馈机制，收集员工及管理层的意见，确保模型能够根据实际情况持续优化.

通过这一方式，IT企业能够提前识别出高风险的离职员工，并能制定针对性的员工保留策略，从而降低员工流失率、提升员工满意度，最终增强企业的竞争力.

7 结语

聚焦员工流失问题，提出了一种融合条件表格对抗生成网络（CTGAN）与逻辑回归（LR）的新型预测模型（CTGAN - LR）.在当今企业面临激烈人才竞争和员工流失率持续上升的形式下，该模型通过生成合成数据有效解决了数据不平衡问题，显著提升了员工流失预测的准确性和实用价值.研究结果表明，CTGAN - LR在CTGAN平衡后的数据集上展现出最佳的预测性能，逻辑回归在准确率、敏感度、特异性和几何均值等多个指标上均表现优异，为企业制定有效的留人策略提供了坚实依据.通过探索性数据分析、因果推断和生存分析等方法，本文识别了影响员工流失的关键因素.这些发现为企业制定针对性的人力资源管理策略提供了有力支持.

为进一步提升CTGAN - LR模型的性能，未来的研究应着重优化数据预处理流程、探索更多种类的生成模型，并引入迁移学习等技术，以增强模型的鲁棒性和泛化能力.这样不仅能提升其在特定数据集上的效果，还能更好地适应不同企业或行业的员工流失预测需求.同时，结合更全面的特征分析与因果推断，有助于为企业制定更具针对性的员工保留策略提供坚实的理论基础和实证知识，推动人力资源管理的进一步发展.

参考文献

原文顺序 | 出版日期 | 本文引用

[1]	闫泓序，余顺坤.基于画像的员工离职预测模型研究［J］.中国管理科学，2024，32（9）：303 - 312.

[2]	王冠鹏，秦双燕，崔恒建.员工流失的影响因素分析与预测［J］.系统科学与数学，2022，42（6）：1616 - 1632.

[3]	赵文璇.关于企业员工离职与离职倾向的影响因素分析［J］.统计学与应用，2024，13（3）：999 - 1009.

[4]	王志宁.基于XGBoost的员工离职预测及特征分析模型［J］.数字技术与应用，2021，39（3）：193 - 196.

[5]	乔源，陈梦帆.基于多种机器学习算法的员工离职预测模型对比及解释研究［J］.商讯，2021（27）： 189 - 191.

[6]	ALASKAR L， CRANE M， ALDUAILIJ M. Employee turnover prediction using machine learning［C］//International conference on computing. Cham： Springer International Publishing，2019：301 - 316.

[7]	万毅斌，王绍宇，秦彦霞.基于代价敏感加权支持向量机的员工离职分类预测［J］.智能计算机与应用，2021，11（12）：43 - 46.

[8]	李晓峰，王婷婷，陈志远.从大数据到深度数据，以支持人员分析以预测员工流失［J］.人力资源管理学报，2023，29（5）： 45 - 58.

[9]	郑健，刘人境.基于区间变量RF算法的青海省电力公司员工离职预测［J］.运筹与管理，2022，31（9）：210 - 216.

[10]	张家普，李思奥，于欣怡，等. 基于机器学习的员工流失预测及影响因素研究［J］.商展经济，2023（16）：164 - 168.

[11]	王瑞，尹红，强冰冰.基于改进XGBoost的企业员工离职预测模型［J］.信息技术，2021，45（8）：180 - 184.

[12]	常沐冉，黄坷杰，张元巨，等.基于Logistic回归及机器学习方法对IBM员工流失因素的实证分析［J］.应用数学进展， 2022，11（3）：1420 - 1427.

[13]	李明辉，张晓东，陈伟.基于堆叠集成学习的员工流失预测模型［J］.系统科学与应用，2023，32（6）：123 - 132.

[14]	FALLUCCHI F， COLADANGELO M， GIULIANO R， et al. Predicting employee attrition using machine learning techniques［J］. Computers，2020，9（4）：86.

[15]	KRISHNA S， SIDHARTH S. Hr analytics： Analysis of employee attrition using perspectives from machine learning［M］//Flexibility， resilience and sustainability. Singapore： Springer Nature Singapore，2024：267 - 286.

[16]	周志华.机器学习［M］.北京：清华大学出版社，2016.

[17]	GOODFELLOW I， POUGET - ABADIE J， MIRZA M， et al. Generative adversarial networks［J］. Communications of the ACM，2020，63（11）：139 - 144.

[18]	XU L， SKOULARIDOU M， CUESTA - INFANTE A， et al. Modeling tabular data using conditional gan［J］. Advances in neural information processing systems，2019：32.

基金资助

大连市社科项目(2024dlsky095)

河南省科技攻关计划项目(242102211009)

河南省高等学校重点科研项目(24A520049)

AI Summary AI Mindmap

PDF (2942KB)

154

访问

被引

详细

导航

Received	Accepted	Published
2025-03-02
Issue Date
2025-10-30

摘要