在甲状腺细针穿刺活检(fine-needle aspiration,FNA)出现之前,术中冷冻切片(frozen section,FS)是明确结节良恶性,帮助手术医生作出手术决策的主要依据。但自FNA问世以后,由于国内外临床指南
[1-4]普遍推荐将其作为可疑结节的首选诊断手段,因此现在多数患者在术前就已经获得了明确的细胞学病理诊断结果
[5-6],这使得FS在手术决策中的价值受到质疑。现有文献关于是否应继续使用FS手术决策存在显著分歧,部分研究
[7-8]仍然支持使用FS,另一些研究
[9-10]则否定其必要性。还有学者
[11-12]主张应该有选择性地使用,例如仅限于在可疑恶性患者中使用FS。值得注意的是,上述研究有的来自东方国家(亚洲)
[9-10],有的则来自西方国家(欧洲和美国)
[11-12]。而东、西方国家从地域分布、基因特征、甲状腺癌发病率到文化背景,再到医疗体系都有很大差异。本综述旨在总结该领域的相关文献,并重点关注东、西方国家之间的差异及其对研究结果的影响。
1 以避免FNA假阳性过度手术为目的使用FS
当FNA诊断结果为恶性(Bethesda Ⅵ类)或可疑恶性(Bethesda Ⅴ类)时,部分外科医生为避免因FNA假阳性而导致的过度手术,在手术中会采用FS对这两类结节的良恶性进行二次确认,并据此制定最终的手术决策。具体而言,仅当FS结果显示为恶性时,才会实施根治性手术;否则,通常仅施行针对良性疾病的腺叶切除术
[9-10,12-13]。
1.1 恶性(Bethesda Ⅵ类)
文献中关于是否应使用FS对FNA的恶性结果进行二次确认并指导手术决策,仍存在一定争议。支持者的主要理由是FS具有极低的假阳性率,能够有效避免因FNA假阳性导致的过度手术。Chow等
[7]的一项纳入84例患者的研究表明,FS成功避免了30% FNA假阳性患者的过度手术。Lumachi等
[8]的研究也得出了类似结论,3例FNA假阳性的患者因FS的应用而避免了过度手术。然而值得注意的是,这些支持使用FS的研究均是在贝塞斯达甲状腺细胞病理学报告系统(The Bethesda System for Reporting Thyroid Cytopathology,TBSRTC)建立之前完成的。在这些研究
[7-8]中,细胞学恶性的真实恶性风险(risk of malignancy,ROM)低于TBSRTC
[14-15](70%~80%
vs. 97%~100%)。
与上述研究不同,在TBSRTC建立之后(即“后贝塞斯达时代”),研究普遍反对使用FS对FNA的恶性结果进行二次确认。Roychoudhury等
[13]通过对205例手术患者的调查发现,FS在Bethesda Ⅵ类患者中的应用并未显著改变其手术管理策略,因此不建议使用。类似地,在一项涵盖超过3 000例手术患者的大规模研究中,Mao等
[16]报道FNA诊断恶性结节的阳性预测值(positive predictive value,PPV)高达98.8%。鉴于FNA具有如此高的PPV,FS在指导细胞学恶性患者的手术决策方面作用有限,作者反对在Bethesda Ⅵ类患者中使用FS。更进一步,Ye等
[10]对821例细胞学恶性患者的研究显示,FS不仅未能改善手术决策,反而可能带来潜在危害。研究发现,高达10%的Ⅵ类患者被FS误诊为良性,从而面临治疗不足的风险,并可能需要接受二次手术。另一项研究
[9]直接评估了FS对306例Bethesda Ⅵ类患者手术决策的影响。结果显示,FS改变了4.71%患者的预期手术方式,但经石蜡病理最终证实,这些改变均不适当。
尽管“后贝塞斯达时代”的多项研究明确反对使用FS确认FNA的恶性结果,但在实际临床实践中,许多外科医生(尤其是中国外科医生)仍倾向于依赖FS
[9-10,16]。一项针对外科医生使用FS的调查研究表明,使用FS的主要原因是术者担心FNA可能的假阳性会导致不必要的过度手术以及潜在的并发症,次要原因是部分病理医生建议通过术中冷冻再次确认以确保诊断准确率
[9]。这一现象反映了部分外科医生和病理医生对FNA与FS在甲状腺癌诊断中的作用认识不足,加强相关领域的继续教育可能有助于改善这一现状。Osamura等
[17]指出,接受过更全面专业培训的专科医生相较于其他医生更少依赖FS。Mallick等
[18]进一步报道,通过与外科医生讨论其研究结果(即FS可能对手术决策产生负面影响),1名原本常规使用FS确认FNA恶性结果的外科医生放弃了这一做法。
总之,在后贝塞斯达时代,现有文献反对使用FS再次确认FNA的恶性结果。加强外科医生在这一领域的专业培训有助于优化此类患者的手术决策。
1.2 可疑恶性(Bethesda Ⅴ类)
文献中关于FS在细胞学可疑恶性(Bethesda Ⅴ类)患者中的应用,目前仍存在较大争议。具体而言,西方国家的研究普遍支持在Bethesda Ⅴ类患者中使用FS。例如,Cohen等
[19]对429例Bethesda Ⅱ~Ⅴ类病例进行了分析,发现FS识别出16例恶性病变,其中超过一半(9例)的病例术前FNA结果为Bethesda Ⅴ类。基于此,作者认为FS对Bethesda Ⅴ类病例具有重要价值。此外,Kennedy等
[11]和Roychoudhury等
[13]也得出了类似结论,他们认为可疑恶性结节是唯一能够从FS中显著获益的类别。Najah等
[20]则强调FS可有效指导Bethesda Ⅴ类患者的手术决策。相比之下,亚洲国家尤其是中国的多项研究则对在Bethesda Ⅴ类患者中常规使用FS持更为谨慎的态度。Ye等
[10]对306例Bethesda Ⅴ类病例进行分析后发现,FS将其中46例诊断为良性,但最终石蜡病理确诊这些病例中有超过一半(27例)为恶性肿瘤,因此作者建议对Bethesda Ⅴ类病例的FS结果应保持谨慎态度。骆洁丽等
[21]对664例Bethesda Ⅴ和Ⅵ类病例的研究显示,FNA的诊断准确率为97.29%,显著高于FS的诊断准确率91.42%。基于此,笔者认为对于Bethesda Ⅴ和Ⅵ类结节,FNA已具备较高的诊断准确率,术中无需额外进行FS。
尽管FNA存在假阳性问题,但FS同样存在假阴性风险。在引入FS以减少因FNA假阳性导致的过度手术时,必然伴随因FS假阴性而引发的手术不足风险。为更清晰地阐释这一现象,笔者尝试通过以下评估模型进行分析:当FS避免FNA假阳性所减少的过度手术益处大于FS假阴性所增加的手术不足风险时,使用FS是合理的;当FS避免FNA假阳性所减少的过度手术益处小于FS假阴性所增加的手术不足风险时,使用FS则可能带来不利影响;当两者益处与风险相当时,虽然从理论上讲FS既无明显益处也无明显害处,但从增加医疗成本和延长手术时间的角度考虑,此时仍不建议使用FS。
结合上述评估模型对现有文献进行分析,当Bethesda Ⅴ类的假阳性率越高(即ROM越低)且FS的假阴性率越低时,FS的应用价值越大。具体而言,在西方国家的研究中,Bethesda Ⅴ类结节的ROM多为70%左右
[22-25],一项纳入8 044例组织病理学确诊结节的Meta分析
[22]显示平均ROM为64.95%,该分析所纳入的13项研究中有12项来自西方国家。另外两项主要基于西方研究的Meta分析报道的平均ROM分别为75.2%
[23]和72%
[24]。TBSRTC中报道的Bethesda Ⅴ类的ROM范围为67%~83%,平均值为74%
[14-15]。当前美国甲状腺协会(American Thyroid Association,ATA)
[2]及国内临床指南
[1]均建议将细胞学可疑恶性患者的手术方式参照恶性患者进行,这意味着依据上述数据(平均ROM为70%),若不进行二次病理评估(例如FS)而直接实施根治性手术,则约30%的患者面临过度手术的风险。而FS的假阴性率为2.3%~27.1%
[26-27],多数情况下低于10%。在此背景下,西方国家使用FS可能是有益的,因为其避免FNA假阳性(约30%)导致过度手术的益处大于因FS假阴性(通常低于10%)而引发手术不足的风险。
与西方数据形成鲜明对比的是,亚洲地区尤其是中国的多项研究显示,Bethesda Ⅴ类具有显著更高的ROM。多项大规模研究数据提示了这一差异:一项纳入42项亚洲研究(含4项中国研究)的Meta分析
[28]显示Bethesda Ⅴ类的平均ROM为89.3%。另一项亚洲5家医疗中心(含1家中国医院)的多中心研究
[29]报道平均ROM为88%。两项近期发表的大样本量中国研究(
n=3 807和
n=1 265)分别报告ROM高达97.3%
[16]和93.8%
[10]。其他几项中国研究报道Bethesda Ⅴ类的ROM范围在82%~98.5%之间,多数超过90%
[30-31]。这些数据表明,对于亚洲尤其是中国的Bethesda Ⅴ类患者,若直接进行根治性手术而不使用FS二次病理评估,过度手术的概率通常低于10%,与大多数研究中FS的假阴性率相当。在此背景下,常规使用FS不仅难以带来额外的临床获益,反而可能引入潜在风险,因为除了假阴性率外,FS还存在较高的不确定结果概率(文献报道为7.7%~55%
[7,27])。这些不确定的结果可能导致部分习惯依赖FS进行手术决策的医生陷入决策困惑,从而作出不恰当的手术决策。
综上所述,东、西方国家在Bethesda Ⅴ类患者中是否应用FS的临床决策上存在差异。需要注意的是,这一差异不能简单归因于地域因素或临床实践习惯的不同,其本质在于不同人群中Bethesda Ⅴ类结节的ROM存在显著差异(西方研究报道的ROM低于亚洲及中国研究),同时亦与医疗机构FS诊断效能(假阴性率和不确定诊断率)的不一致性密切相关。因此,制定统一的临床推荐可能并不可行,建议各医疗机构应基于自身实际数据(ROM、FS假阴性率及不确定诊断率),结合风险评估模型,个体化制定Bethesda Ⅴ类患者术中是否使用FS的临床策略。
2 以防止FNA假阴性手术不足为目的使用FS
对于细胞学分类为良性(Bethesda Ⅱ类)的患者,在手术中是否应常规使用FS,目前在文献报道中仍存在一定的争议。支持者认为,尽管FNA结果提示为良性,但仍可能存在假阴性的情况,尤其是在影像学显示恶性特征时,FS有助于识别出这些假阴性结果,从而避免患者的二次手术。Huang等
[32]对134例Bethesda Ⅱ类患者进行了手术和病理分析,结果显示其中51例最终被石蜡病理确诊为恶性,而FS成功识别出这51枚假阴性结节中的38枚(74.5%),显著降低了二次手术的风险。反对者则指出,鉴于FNA良性结果的整体恶性风险极低(TBSRTC报道平均为4%
[14]),常规使用FS很少能够改变手术方案,不符合成本效益原则。Cohen等
[19]纳入了149例Bethesda Ⅱ类患者,FS仅改变了1例患者的手术范围,作者认为常规使用FS对手术决策的影响有限。
3 以明确FNA未明确结节的诊断为目的使用FS
细胞学分类为不确定(包括Bethesda Ⅲ和Ⅳ类)以及无法诊断(Bethesda Ⅰ类)的标本是FNA的主要局限性,此类患者面临过度手术或治疗不足的风险
[33-37]。在一项针对639例不确定甲状腺结节(indeterminate thyroid nodules,ITN)患者的回顾性研究中,Schneider等
[37]报道接近30%的患者在初次手术时接受了不恰当的手术范围,其中9.3%的患者因治疗不足而需接受二次手术,19%的患者则经历了过度手术(良性病变行全甲状腺切除)。
3.1 无法诊断(Bethesda Ⅰ类)
当细胞学标本无法诊断(Bethesda Ⅰ类)时,手术中使用FS有助于明确结节性质,指导正确的手术决策。Huang等
[32]纳入了80例Bethesda I类患者,结果显示FS识别出45例恶性病例中的38例,避免了这些患者的手术不足。类似地,Guevara等
[38]对70例 Bethesda I类患者进行了回顾性分析,石蜡病理最终确诊其中的13例为恶性肿瘤,FS识别出69%(9/13)的癌症,避免了这些患者的二次手术。
3.2 意义不明确的非典型改变(Bethesda Ⅲ类)
Schneider等
[37]报道Bethesda Ⅲ类是外科医生在确定初始手术范围时最具挑战性的类别,39.7%的患者接受了不适当的初始手术范围。这一类别中恶性结节的组织学病理以乳头状癌(papillary thyroid carcinoma,PTC)为主,
BRAFⅤ600E突变检测在临床实践中表现出较高的PPV。Meng等
[39]对394例Bethesda Ⅲ类合并
BRAFⅤ600E突变患者的研究显示,389例患者最终经组织学证实为PTC,
BRAFⅤ600E突变的PPV高达98.7%。另外Zhang等
[40]和张彦祺等
[41]也报道了类似的结果,其报道的PPV分别为99.2%和100%。鉴于
BRAFⅤ600E基因突变具有极高的PPV,FS在
BRAFⅤ600E突变患者的手术决策中意义有限,甚至可能因假阴性结果误导手术决策。然而
BRAFⅤ600E基因检测的敏感度并不高,文献报道其突变检出率在西方人群PTC患者中为52.5%~80%
[42],张彦祺等
[41]报道其在中国人群PTC患者中的检出率为62.2%。
在缺乏
BRAFⅤ600E检测或检测结果为阴性的患者中,FS有助于识别出恶性肿瘤,避免患者二次手术。Posillico等
[43]调查了58例无
BRAFⅤ600E检测的Bethesda Ⅲ类患者的手术和病理情况,FS对其中的37例(64%)患者做出了明确的良恶性诊断,并改变了36例(62%)患者的术中处理,石蜡病理证实这些改变几乎都是恰当的(36例患者中的35例),只有1例假阴性患者需要二次手术。
3.3 滤泡性肿瘤(Bethesda Ⅳ类)
滤泡性肿瘤(Bethesda Ⅳ类)代表了另一类不确定的细胞学诊断结果,该类别中恶性结节的主要组织学类型为滤泡癌和PTC的滤泡亚型。由于这两种恶性肿瘤的确诊均需要全面的包膜检查来确认是否存在包膜或血管侵犯,而这在FS中是几乎不可能做到的,因此FS在这一类别中检测出恶性肿瘤的敏感度低,文献报道在6.9%~50%之间
[19]。英国诊疗指南
[3]明确指出,在该类别中不建议使用FS,因其无法可靠地区分滤泡性腺瘤与滤泡癌。其他几位研究者基于FS较低的敏感度或低成本效益也反对在这一类别中使用FS
[20]。
BRAFⅤ600E基因突变在滤泡癌中不表达,因此单纯的BRAF检测在这一类别中缺乏临床价值。有助于这一类别治疗决策的是多基因检测工具,例如ThyroSeq
[44-46]和Afirma
[47-48]。ThyroSeq是一种包含112个基因的多基因检测工具,在ITN患者中表现出极高的阴性预测值(negative predictive value,NPV)。Raghunathan等
[49]的研究显示,ThyroSeq检测ITN的NPV高达100%,可使84%的良性ITN患者免于不必要的诊断性手术。Afirma是另一种常用的多基因检测器,Jin等
[50]表明,Afirma在Bethesda Ⅲ类结节中的NPV为98%~100%,可避免66%~67%的诊断性手术。Marshall等
[27]的研究也报道了类似的结果,在他们的研究中,经Afirma诊断为良性的10例ITN结节最终均被病理证实为良性。然而需要注意的是,多基因检测工具设计的初衷是减少诊断性手术,其追求的是NPV(即排除恶性),这些工具的PPV并不高。例如Kim等
[51]报道ThyroSeq检测ITN的PPV仅为64%,这意味着36%的阳性结果可能为假阳性,这部分患者仍面临过度手术或手术不足的风险。此外由于成本较高,多基因检测工具当前主要应用于美国和部分欧洲国家,中国仍缺乏这些工具的应用报道。
4 总结与展望
综上所述,在后贝塞斯达时代,文献支持在Bethesda Ⅰ类中使用FS,但反对在Bethesda Ⅵ类中使用。FS在Bethesda Ⅴ类中的应用价值,取决于具体医疗机构中该类结节的ROM与FS诊断效能的综合表现,临床决策应基于机构自身实际数据个体化制定。Bethesda Ⅱ类结节常规使用FS缺乏成本效益,但可选择性用于高风险的病例。在ITN中,Bethesda Ⅲ类患者可从FS中获益(尤其BRAFⅤ600E阴性或缺乏的病例),而Bethesda IⅤ类病变因诊断敏感度低不推荐使用FS。多基因检测可优化ITN患者的治疗决策,但其目前在中国的临床应用仍较为有限。
安徽省卫生健康科研计划基金资助项目(AHWJ2024Ab0145)