大型语言模型在骨科手术术前管理中的决策性能及辅助价值

魏书生; 吴海波; 李松林; 温镇璘; 杨昌骜; 卢群山; 刘培来

山东大学学报(医学版) ›› 2026, Vol. 64 ›› Issue (2) : 104 -110.

魏书生, 吴海波, 李松林, 温镇璘, 杨昌骜, 卢群山, 刘培来

作者信息 +

Author information +

文章历史 +

PDF

摘要

目的探讨大型语言模型(如DeepSeek、ChatGPT等)的不同生成模式在术前管理领域的应用效果及对低年资医生的辅助决策价值。方法随机选取2025年1月至2025年8月山东大学齐鲁医院医院骨科住院患者100例病历，排除预计施行一级、二级、三级手术及非关节置换手术患者，最终纳入患者87例。在PubMed和UpToDate数据库检索围术期管理相关指南，将检索到的指南经文本处理和向量化后，构建围术期管理知识库，为后续模型调用与问答提供外部知识支持。患者病历匿名化处理后上传到DeepSeek模型不同版本[DeepSeek Chat版本(V3版本)、DeepSeek Chat+知识库版本、DeepSeek深度思考版本(R1版本)及DeepSeek R1+知识库版本]中，以相同的“指令-上下文-输入-输出(Instruction-Context-Input-Output, ICIO)”提示词框架提问，对模型输出的结果进行客观与主观评估。结果 DeepSeek R1模型在术前改良心脏风险指数(revised cardiac risk index, RCRI)评分与风险分级任务中的正确率分别为75.86%和78.16%,显著优于Chat系列模型。4个版本模型在美国麻醉医师协会身体状况分级系统(American society of anesthesiologists,ASA)评分与手术可行性判断中的正确率均处于中等水平，其中R1版本表现略优。知识库的引入仅在Chat版本中对RCRI评分准确率有轻微提升(+4.6%),但在R1版本中反而降低性能。主观评估结果显示，低年资医生普遍认为R1系列模型回答更具临床参考价值，其平均评分(4.19±0.72)显著高于Chat系列(Chat版本为3.06±0.06,Chat+知识库版本为2.97±0.03),提示R1模型在术前决策支持中具有更强的实用性与可接受性(P<0.05)。结论 DeepSeek R1模型在骨科术前麻醉风险评估与临床辅助决策中展现出良好的应用潜力，但知识库构建及任务适配仍需进一步优化，以提升模型在真实临床场景下的可靠性与可推广性。