基于多模态超声及临床病理特征的可解释性机器学习模型预测浸润性乳腺癌Ki-67表达水平

强邦红; 裴小青; 方家桂; 汪珺莉

doi:10.13753/j.issn.1007-6611.2026.05.011

山西医科大学学报 ›› 2026, Vol. 57 ›› Issue (5) : 585 -594. DOI: 10.13753/j.issn.1007-6611.2026.05.011

基于多模态超声及临床病理特征的可解释性机器学习模型预测浸润性乳腺癌Ki-67表达水平

强邦红, 裴小青, 方家桂, 汪珺莉

作者信息 +

Author information +

文章历史 +

PDF

摘要

目的探讨多模态超声结合临床病理特征构建的可解释性机器学习模型在浸润性乳腺癌Ki-67表达水平预测中的应用价值。方法回顾性纳入2020年1月至2024年12月在芜湖市第二人民医院接受多模态超声检查并完成Ki-67免疫组织化学（IHC）检测的320例浸润性乳腺癌患者，按7∶3比例随机分为训练集（n=224）和测试集（n=96）。采用多阶段特征筛选策略：基于特征重要性排序和线性相关性分析进行初筛，结合递归特征消除（RFE）进一步降维，并通过穷举组合优化确定最终关键特征。基于筛选特征构建6种机器学习分类模型，包括极端梯度提升（XGBoost）、轻量级梯度提升机（LightGBM）、随机森林（RF）、极端随机树（ET）、逻辑回归（LR）和决策树（DT）。模型性能通过受试者工作特征曲线下面积（AUC）、准确率、敏感性、特异性、F1分数及混淆矩阵进行评估，并采用SHapley Additive exPlanations(SHAP)方法对最优模型进行可解释性分析。结果最终筛选出7个关键特征：雌激素受体（ER）、人表皮生长因子受体2(HER2)、年龄、微钙化、冠状面“回缩现象”、肿块最大径、肿块周围结构扭曲。在6种机器学习模型中，RF模型综合表现最佳，其在训练集和测试集中的AUC分别为0.932(95%CI:0.897～0.962)和0.813(95%CI:0.707～0.906)，显示其良好的区分能力。混淆矩阵结果显示，RF模型在测试集中的敏感性（0.800）和特异性（0.710）较为均衡，显示出良好的分类稳定性和泛化能力。SHAP分析表明，ER、HER2、年龄、微钙化和冠状面“回缩现象”是对模型预测贡献最大的前5个特征。结论基于多模态超声及临床病理特征构建的可解释性RF模型，可有效预测浸润性乳腺癌Ki-67的表达水平，为临床个体化治疗决策提供有价值的辅助参考。