随着现代医学对疾病发展过程认知的不断深化,研究视角正逐步从静态的线性模式向动态的多阶段化转变。大量研究表明,许多疾病的自然转归并非单一的线性发展轨迹,而是呈现为多个状态之间相互转换的动态进展特征,例如从诊断、缓解、复发至最终结局的多阶段演变过程
[1]。传统生存分析方法主要关注单一终点事件(如死亡),将这一复杂过程简化为“发病-死亡”的二分结局,难以反映中间多状态转换的复杂轨迹和动态规律。这种简化不仅丢失了疾病演进的关键信息,也限制了干预决策的精准性。
为突破方法学局限,多状态模型(multi-state models)逐渐成为医学研究的重要分析工具
[2-5]。该模型通过定义状态空间和量化转移过程,从而精确刻画个体在离散健康状态间的动态演变。其核心优势体现在:(1)处理多个竞争终点的能力;(2)量化状态间转移风险
[6];(3)识别影响特定转移路径的风险因素。与传统方法相比,多状态模型提供了更灵活、更符合疾病自然史的建模框架,已在肿瘤预后、慢性病管理等领域展现出重要价值。本文旨在简明阐释多状态模型的基本方法学框架,并通过医学案例展示其应用价值,助力临床研究方法学的规范化运用。
方法学框架
多状态模型的核心是定义一系列互斥的状态以及状态间可能的转移路径,精准刻画疾病状态随着时间演变的动态过程。通过疾病进展的量化分析,为干预决策提供精准依据。
基本概念
状态与转移
在医学研究中,代表疾病进展过程中特定的健康或疾病阶段称之为状态。人体的状态通常包括健康、疾病不同阶段(如轻、中、重不同严重程度)及死亡。这些有限的状态需互斥且明确,确保个体在任何时刻仅处于唯一状态。状态之间的变化称为转移或事件。根据是否发生状态转移,状态可分为暂态(transient state)和吸收态(absorbing state)。暂态是指个体可停留一段时间后转移到其他状态的状态;吸收态则指个体一旦进入该状态,便不再发生转移,即无法离开的状态(如死亡)。
转移强度与转移概率 在多状态模型中,转移强度是一个核心概念,用于量化个体在不同状态之间发生瞬时转移的风险,反映疾病进展的“速度”。在连续时间马尔可夫模型的框架下,这些强度函数也常被称为转移率,是描述整个随机过程动态演变的基础。
形式上,对于任意两个相异状态和,为描述在极短时间内从状态转移到状态的瞬时风险,其转移强度函数被定义为:
对于
,其中
表示个体在时间
所处的状态。该函数直观地反映了在已知个体于时刻
处于状态
的前提下,其在接下来单位时间内瞬时转移到状态
的瞬时风险
[3]。
转移概率则是刻画状态间动态演变过程的关键量化指标,其定义为在已知个体于时刻处于状态的条件下,到时刻处于状态的条件概率,记作。
在实际应用中,研究者常关注特定时间跨度内各状态间的转移概率,以评估疾病进展或治疗效果。为进一步探究影响状态转移的潜在因素,常引入比例风险模型,分析协变量对转移强度的效应,从而揭示不同临床特征或干预措施对疾病进程的动态影响
[7]。
模型假设
马尔可夫性
在多状态模型的研究中,根据时间度量尺度的不同选择,分为马尔可夫(Markov)假设和半马尔可夫(semi-Markov)假设。马尔可夫假设的基本假设是个体转移到下一个状态的概率仅依赖于当前所处的状态,与个体在该状态中已停留的时间无关
[8]。
为判断实际数据是否符合马尔可夫假设,通常需进行马尔可夫性检验,以评估转移风险是否独立于历史状态轨迹。常用的检验方法包括似然比检验等
[8]。马尔可夫假设简化了模型结构,便于参数估计与推断,但其忽略了疾病进程中的时间依赖性,因此在生物学合理性上存在局限。相比之下,半马尔可夫假设认为转移风险不仅依赖于当前状态,还与个体在该状态中停留的时间有关。这一特性突破了马尔可夫性的限制,能更灵活、更真实地反映疾病进展的动态过程,从而在许多实际医学场景中展现出更高的合理性与适用性
[9]。
时间齐次性
马尔可夫多状态模型的核心在于“无记忆性”假设,即未来状态仅依赖于当前状态,而与历史路径无关
[10]。在模型构建过程中,根据转移强度是否随时间变化,可划分为时间齐性(time-homogeneous)与时间非齐性(time-nonhomogeneous)两类基本框架,其选择直接关系到模型的准确性与临床适用性。时间齐性假设认为,疾病从一种状态转移到另一种状态的风险恒定不变,不随患者年龄、病程或时间推移而改变,但这一假设往往与实际医学情况存在偏差
[11]。因此,在大多数医学研究,特别是涉及长期疾病进展的建模中,时间非齐性假设更为合理和科学。时间非齐性模型允许转移强度随时间动态变化,能够更真实地反映疾病发展过程中风险的时变特征,更精细地刻画风险演变规律
[12]。然而,这种灵活性对模型的复杂度和数据的要求也会更高。时间齐次性检验的常用检验方法包括似然比检验和分段估计法
[13-14],前者通过比较齐次与非齐次模型的拟合优度进行判断,后者则通过检验不同时段转移强度参数的差异性来验证时间齐次性假设的合理性。
建模工具
目前,已有多种成熟的统计软件包和在线平台可以用于多状态模型的拟合,为研究者提供了便捷、高效的建模工具。
R语言
msm包是最常用且功能最全面的工具包之一,专门用于拟合具有任意状态数和转移模式的马尔可夫多状态模型,能够处理带删失的纵向数据,并支持对转移强度和概率进行精确估计,同时涵盖隐马尔可夫模型及个体特异性或时变协变量影响的扩展功能
[15]。
mstate包则更侧重于非参数估计和竞争风险模型,为复杂多状态过程的建模提供了框架
[16]。
msmplus 有研究者基于R语言中的
msm软件包开发了名为
msmplus的交互式在线分析平台(
https://nskbiostatistics.shinyapps.io/MSMplus/)。该平台将核心功能进行了封装与可视化,用户无需编程,仅需上传符合要求的数据,即可在线完成模型设定、参数估计与结果提取。平台可输出转移概率、转移强度、各状态停留时间以及状态访问概率等多项关键指标。
Stata
multistate包为参数化多状态模型提供了灵活的建模框架。它支持马尔可夫与半马尔可夫过程,允许各转移风险采用多种参数化形式,并可设定参数共享或引入时变效应
[17]。该工具还结合高效的模拟方法,计算转移概率、预期停留时间、状态比例等关键临床指标。
医学应用实例
本示例研究采用R软件
msm包内置的cav数据集作为分析实例,用以系统阐述多状态模型的应用流程。该数据集来源于一项心脏移植术后长期随访研究,主要记录了患者移植心脏术后冠状动脉血管病变(cardiac allograft vasculopathy,CAV)的动态演变过程。数据包含患者的多次随访记录,涵盖性别、年龄等基线特征及每次随访时的CAV状态信息。基于临床病理发展的不可逆性,本研究在构建多状态模型时设定了以下约束(
图1):“死亡”被设定为吸收态;同时,假定疾病不可从“无CAV”状态直接跃迁至“重度CAV”状态,且“重度CAV”不可逆转为“无CAV”状态。
本示例采用似然比检验评估多状态模型的马尔可夫性与时间齐次性假设:针对马尔可夫性,将个体在当前状态的停留时间作为协变量纳入模型,通过比较标准马尔可夫模型与包含停留时间的半马尔可夫模型,检验转移强度是否依赖于状态停留时长;针对时间齐次性,则将随访时间作为时间依赖协变量引入模型,检验转移强度是否随时间变化。结果显示,两项假设对应的似然比检验P值均小于0.05,表明数据不支持马尔可夫性与时间齐次性假设,因此本研究采用时间非齐次的半马尔可夫模型进行后续分析,以更准确地刻画疾病状态转移的动态特征。
本研究根据随访期末的临床状态将614名患者进行分组。结果显示,69名(11.2%)患者处于轻/中度CAV状态,26名(4.2%)处于重度CAV状态,249名(40.6%)患者死亡。人口学特征的组间比较采用
χ2检验,结果显示,患者的年龄(
P=0.699)与术前诊断(
P=0.118)在不同结局组间差异无统计学意义;然而,性别(
P=0.001)和供体年龄(
P=0.044)的分布在组间存在显著统计学差异(
表1)。
本模型纳入状态停留时间以满足半马尔可夫假设,并以5年为界处理时间非齐性,采用最大似然估计法进行参数估计(
表2)。在基线条件下,无CAV至轻/中度CAV的转移强度为0.143 (95%CI:0.123~0.165),而轻/中度CAV至重度CAV的转移强度为0.321 (95%CI:0.254~0.405)。就死亡风险而言,无CAV至死亡的转移强度为0.034 (95%CI:0.023~0.049),而重度CAV患者的死亡转移强度显著升高至0.198 (95%CI:0.130~0.301),是无CAV患者的5.8倍。
停留时间效应呈现状态依赖性特征:在无CAV状态下,停留时间延长可使死亡风险降低30%(HR=0.701,95%CI:0.524~0.937);而在重度CAV状态下,停留时间延长则使死亡风险增加65% (HR=1.649,95%CI:1.066~2.549)。时间段效应分析显示,随访5年后,从无CAV向轻/中度CAV转移的风险显著上升107.6% (HR=2.076,95%CI:1.524~2.828)。
图2展示了不同随访时间下各状态间的转移概率。在1年观察期内,无CAV、轻/中度CAV及重度CAV患者转移至死亡状态的概率分别为3.47% (95%CI:2.67%~4.75%)、4.13%(95%CI:2.50%~16.23%)与13.59%(95%CI:7.41%~22.89%)。与此同时,部分患者呈现状态改善:轻/中度CAV患者恢复为无CAV状态的概率为20.03% (95%CI:12.60%~29.10%),而重度CAV患者改善为轻/中度CAV状态的概率为7.28% (95%CI:2.56%~18.03%)。随着随访时间延长,无CAV患者的累积死亡风险持续上升——在2年、3年和5年观察期中,无CAV患者向死亡状态转移的概率分别增至6.70%(95%CI:5.67%~9.49%)、10.66% (95%CI:8.93%~14.96%)和18.32%(95%CI:15.33%~25.17%);而从轻/中度CAV患者到死亡状态,及从重度CAV患者到死亡状态转移的概率在观察期中也不断增加,反映出疾病进展的长期动态特征。
表3展示了重要特征对CAV状态转移风险比的影响。结果显示:在从无CAV患者向轻/中度CAV转移的进展过程中,供体年龄增大与术前诊断为缺血性心脏病是显著危险因素;对于无CAV的患者,其死亡风险随自身年龄和移植心脏供体年龄的增加而升高;轻/中度CAV患者转为重度CAV或死亡的风险随自身年龄的增加而升高;此外,在重度CAV患者中,男性患者的死亡风险显著高于女性患者。
结语 多状态模型通过解构疾病的多阶段演变过程(如CAV的无病变→轻度→重度→死亡),为揭示疾病动态转移规律提供了独特的分析视角,充分彰显了其在疾病进程建模中的方法学价值与广阔应用前景。
首先,该模型的核心优势在于突破传统以单一终点(如死亡或事件发生)为核心的生存分析局限,实现对疾病自然史更精细、更动态的刻画。它将疾病进展视为一系列有序的离散健康状态,不仅关注最终吸收态(如死亡),更能系统解析中间状态间的转移路径、转移强度及各状态的驻留时间
[18]。这种动态建模框架可量化临床指标、人口学特征或治疗干预等因素对不同转移路径的特异性影响,从而为深入理解疾病机制提供多层次的循证支持。
其次,多状态模型已在多个医学领域展现出显著的临床应用潜力。在癌症预后评估、慢性病进展监测、老年共病演化分析等研究领域
[5,19-21],该方法可有效识别关键转化节点与高风险人群,为个体化干预策略的制定提供了精准的量化依据。需要说明的是,本文所呈现的CAV示例分析主要服务于方法学演示目的,旨在阐明多状态模型的构建流程、假设检验与结果解读逻辑。受限于样本量及协变量覆盖范围(如未纳入供受者配型信息、免疫抑制方案等关键临床因素),其结果尚不足以形成明确的临床指导建议。在实际研究中,应基于更大规模队列,并整合较全面的临床与生物学协变量,以提升模型的稳健性与外推能力。
值得注意的是,尽管多状态模型具有高度灵活性和可定制性——可根据病理机制精准定义状态空间与转移路径,并充分利用纵向随访数据同步分析多状态转移的驱动因素——其应用仍面临若干挑战:当疾病转归存在历史依赖性(即非马尔可夫性)时,需采用半马尔可夫模型;不规则或稀疏随访易导致状态误判(如分期遗漏),故需密集观测设计;随着状态数增加,模型参数呈指数级增长,对样本量提出更高要求;同时,模型拟合、诊断与结果解释的复杂性亦明显高于常规方法。在CAV等慢性病研究中,时间非齐次隐马尔可夫模型虽可有效缓解不规则随访与观测误差问题,但其状态转移结构的设定必须基于临床先验知识严格验证(如排除不符合病理逻辑的反向转移)。
展望未来,随着大规模纵向健康数据库、电子健康记录及其他真实世界数据的持续积累,多状态模型的应用场景将进一步拓展。研究者应积极推动该方法在真实世界研究中的规范化应用,深度挖掘疾病动态演变中的复杂模式。通过融合多源异构数据、引入机器学习算法或贝叶斯分层建模等前沿技术,多状态模型有望在精准医学、个体化预后预测、治疗优化及公共卫生决策支持等领域发挥更大作用,为提升临床实践的科学性与干预措施的精准性提供坚实的方法学支撑。