临床专病机器学习算法的特征优选及参数优化

金伯儒, 马玉虎, 王一, 何旺平, 刘振, 靳克成, 钟汝阳, 林延延, 岳平, 李书艳, 孟文勃

兰州大学学报(医学版) ›› 2024, Vol. 50 ›› Issue (09) : 14 -22.

PDF (2864KB)
兰州大学学报(医学版) ›› 2024, Vol. 50 ›› Issue (09) : 14 -22. DOI: 10.13885/j.issn.1000-2812.2024.09.003

临床专病机器学习算法的特征优选及参数优化

    金伯儒, 马玉虎, 王一, 何旺平, 刘振, 靳克成, 钟汝阳, 林延延, 岳平, 李书艳, 孟文勃
作者信息 +

Author information +
文章历史 +
PDF (2932K)

摘要

目的 探索机器学习算法处理多模态数据及超参数选择中的优势,加速数据驱动在临床研究中的应用。方法 纳入2022—2023年在兰州大学第一医院因胆总管结石初次接受内镜逆行胰胆管造影的患者,利用多种变量筛选方法排序特征重要性,输入k最近邻域法、极限梯度提升、支持向量机、朴素贝叶斯、随机森林5种机器学习算法及Logistic回归,预测术后并发症。在最大曲线下面积处选择最佳特征集并在十折交叉验证下调优参数,以测试集的曲线下面积作为最终评价指标,建立胆总管结石内镜逆行胰胆管造影术后并发症的最佳二分类模型。结果 共纳入465例患者。平行对比各算法,随机森林为最佳模型,筛选的特征集贡献度依次为机械碎石、导丝进入胰管次数、术中出血、困难插管、手术时间。优选超参数树的数量为500,最小节点大小为2,每棵树的特征选择数为1,分裂规则采用基尼不纯度。随机森林模型在十折交叉验证集的平均特异度、敏感度、曲线下面积分别为0.972、0.710、0.942,测试集分别为0.950、0.625、0.886,显著优于其他机器学习算法和Logistic回归,且其在临床决策有效性、预测准确性、风险收益评估方面,均优于Logistic回归。结论 基于临床专病构建的多种机器学习模型,在变量精细化预处理及参数优选的情况下随机森林模型最佳。

关键词

内镜逆行胰胆管造影 / 机器学习 / 随机森林 / Logistic回归 / 并发症 / 危险因素

Key words

引用本文

引用格式 ▾
临床专病机器学习算法的特征优选及参数优化[J]. 兰州大学学报(医学版), 2024, 50(09): 14-22 DOI:10.13885/j.issn.1000-2812.2024.09.003

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF (2864KB)

247

访问

0

被引

详细

导航
相关文章

AI思维导图

/