乳腺癌(breast cancer,BC)是世界上女性中最常见的癌症,其相关发病率不断上升且发病人群逐渐年轻化
[1-2]。新辅助化疗(neoadjuvant chemotherapy,NAC)已成为早期高危和局部晚期BC的标准治疗方案,可以帮助患者降期缩瘤以接受更保守的治疗
[3]。治疗反应患者其预后通常也表现良好
[4]。然而,由于肿瘤的异质性和复杂性,并非所有患者对NAC都具有敏感性。因为长期治疗过程仍会产生一些毒副作用
[5],也可能错过改变治疗计划的最佳时间,所以对BC患者NAC前预测其疗效至关重要。
目前,肉眼观察仍然是病理切片信息获取的主要方式。随着医学图像高通量处理技术的发展,以及对得到的高维数据的广泛探索与挖掘,“病理组学”引起了越来越多的关注。病理组学包含从数字病理学图像中捕获的各种数据生成定量特征。病理组学特征可提供有关肿瘤微环境的相关信息,目前研究已经在癌症风险分层、预后预测和辅助化疗疗效预测等方面进行
[6-8]。本研究构建了一个基于机器学习的病理组学特征(pathomics signature,PS),通过体内微观角度预测BC患者对NAC的反应。这可能为临床医生提供辅助决策意见,以促进个体化治疗的过程。
1 资料与方法
1.1 研究对象的纳入和排除
这项回顾性研究获得了西南医科大学医院机构审查委员会(编号KY2022216)的批准,并放弃了书面知情同意的要求。研究对象入选标准如下:病理活检证实无远处转移的非特异浸润性BC;患者进行了6~8个周期的NAC;NAC完成后进行手术,并在术后病理切片上评估疗效;临床数据可用。排除标准:无组织病理学评估结果;多病灶同侧或双侧乳腺癌。
1.2 图像资料
病理医生在NAC之前使用粗针穿刺收集了BC患者的活检样本,然后对其进行病理制片。首先,将活检组织浸泡在浓度为10%的福尔马林中4 h,之后包埋在免疫组织化学石蜡中。随后,以4 μm的间隔对蜡块进行切片,并用苏木精和伊红进行染色准备用于病理评估。病理医生使用数字载玻片扫描仪(KFBio KF-PRO-020)以40倍扫描倍率扫描所有治疗前的组织病理切片,以获得患者的数字病理切片。在数字切片管理器中,将样本放大10倍,病理医生选择具有代表性样本区域,并获得了一张512×512像素的截图,然后由另一位病理医生进行确认,他们分别有3年和8年的BC病理诊断经验。如果2位病理学家有不同意见,他们将与第3位病理学家进行商讨以做出决定。
1.3 临床病理资料
通过查阅电子病历,获得BC患者的临床病理信息,包括年龄、T分期、N分期、Ki-67、雌激素受体(estrogen receptor,ER)、孕激素受体(progesterone receptor,PR)和人表皮生长因子受体2(human epidermal growth factor receptor 2,HER2)的表达。ER和PR阳性定义为≥1%的肿瘤细胞具有核染色阳性;免疫组化法(immunohistochemistry,IHC)染色为3的肿瘤被认为是HER2阳性,荧光原位杂交(fluorescence insitu hybridization,FISH)进一步确认,FISH扩增的结果被确定为HER2阳性;Ki-67的临界值为30%。使用Miller-Payne(MP)分级标准对术后样本进行病理反应的评价以获得研究结局变量
[9],MP系统分为G1~G5等级,无反应患者定义为G1~G3,反应患者定义为G4~G5。
1.4 病理组学分析方法
1.4.1 总体分析路径
包括图像分割、特征提取、特征选择与PS的构建评价4个步骤,如
图1所示。
1.4.2 病理组学特征提取
使用图像分析软件CellProfiler(版本 4.0.7)提取所选病理图像的定量特征
[10]。基于“Unmix Colors”模块,分离原始染色图像并将其转换为苏木精染色和伊红染色的灰度图像,原始染色图像也使用“ColorToGray”模块转换为灰度图像。测量过程分为总体测量与对象测量。第1次对总体图像进行测量中,获得了136个病理组学特征。第2次测量对苏木精染色图像进行对象测量。首先确定主要和次要对象,然后对其进行测量。对每张图片中的大量对象原始值求平均值、中位数值和标准差值,将其作为研究特征,共获得1 054个病理组学特征。具体提取过程如
图2所示。
1.4.3 病理组学特征选择
为了去除冗余特征,对每个特征进行Mann-Whitney U检验,P值确定为0.05。随后,考虑到特征之间的相关性,对特征进行Spearman相关性分析,如果2个特征之间的相关系数绝对值大于0.9,则排除其中1个特征。然后,使用最小绝对值收敛和选择算子(least absolute shrinkage and selection operator,LASSO)算法来选择提取的特征,并使用5倍交叉验证来选择Lambda值以确定最佳特征子集。
1.4.4 构建PS
基于以上筛选的最优特征,通过非线性支持向量机(support vector machine,SVM)使用选择后的最优特征来构建病理组学预测模型,通过5倍交叉验证和网格搜索来确定高斯径向基函数核的最佳正则化参数C和Gamma。将病理组学模型的输出预测值当作PS。
1.4.5 独立预测因素的验证
以NAC疗效为因变量(0=无反应,1=反应),将单因素分析中有统计学意义(P<0.05)的变量纳入多因素逻辑回归模型筛选出BC患者NAC反应的独立预测因子。
1.5 统计学方法
采用Jupyter notebook和R-studio进行统计分析。采用卡方检验比较训练集及测试集2组间T分期、N分期、ER、PR、HER2、Ki-67是否有显著性差异;采用Kolmogorov-Smirnov检验对训练集及验证集2组患者的年龄进行正态性检验,满足正态分布的采用独立样本t检验,用均数±标准差(x±s)形式表达;否则采用Mann-Whitney U检验比较2组之间的差异有无统计学意义,用Md (P25,P75)表示。受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)来评估病理组学模型的辨别性能;多因素逻辑回归适用于独立预测因素的进一步验证。检验水准α=0.05。
2 结 果
2.1 训练集与测试集临床病理特征比较
从2020年2月到2022年3月,共有211例非特异浸润性BC患者入选该研究,按照时间顺序将患者分为训练集和验证集。首次治疗时间在2021年10月之前的患者被纳入训练集,其余患者被纳入独立验证集,训练集与验证集的比率约为7∶3。训练集155例患者中,有反应患者86例,无反应患者69例;验证集56例患者中,有反应患者32例,无反应患者24例。结果显示HER2的发现与训练和验证集中的NAC反应显著相关(
P<0.05),见
表1。
2.2 病理组学特征提取与选择
每位患者提取1 190个病理特征,使用z-score对所有特征进行标准化。在训练集中,首先对所有特征进行Mann-Whitney
U检验,筛选出
P值小于0.05的27个特征;然后对这些特征进行Spearman相关性分析,得到9个最优特征。使用五折交叉验证的LASSO对9个筛选后的特征进行进一步筛选。五折交叉验证以模型效能评价指标AUC为衡量标准,AUC最高时的lambda值(min=0.008 296,1se=0.030 515)为最佳值。筛选出7个最佳特征用于后续的模型建立。
图3显示出LASSO的特征选择过程,最佳特征的特征名与系数值如
图4所示。
2.3 PS的建立与验证
使用SVM的机器学习算法进行模型的建立。首先在jupyter notebook中建立基础的模型,然后在训练集中使用五倍交叉验证与网格搜索的方法进行模型最佳参数C与gamma的寻找,最优参数结果为C=10,gamma=0.01。建立好的模型在训练集与验证集中进行预测。训练集中,PS的AUC值为0.749(95%CI=0.672~0.827);验证集中AUC值为0.737(95%CI=0.604~0.870)。多因素逻辑回归的结果显示,PS(
OR=2.317)与HER2(
OR=4.018)是BC患者NAC反应的独立预测因素,见
图5、
表2。
3 讨 论
准确预测NAC的益处是临床中BC患者治疗方案选择中不可或缺的一部分。本研究使用LASSO算法从高维病理组学特征中筛选出7个最优特征,建立PS用于治疗前预测BC患者NAC的疗效。PS在训练集与独立验证集中表现稳定,预测效能较好。另外,本研究也证明了PS与HER2是BC患者NAC疗效预测中的重要预测因素。
BC是一种高度异质性肿瘤,当肿瘤对NAC产生反应时,肿瘤微环境将发生变化,但这种变化不易被肉眼察觉。得益于机器学习算法和图像分析方法的快速发展,影像组学已逐渐用于BC患者NAC的反应预测
[11-13]。然而,由于癌症组织和放射图像之间的间接性,影像组学只能从体外摄影角度提供有关肿瘤的微量信息,可能会错过肿瘤细胞和细胞外基质中包含的重要信息。病理组学通过体内角度捕捉肿瘤的微观结构,并提供肿瘤病变中细胞与微环境的特征。一些学者和研究人员从数字病理切片中提取图像特征进行定量分析,病理组学特征被用于预测胃癌辅助化疗的疗效和预后、结直肠癌微卫星不稳定性等
[8,14],并取得了良好的效果。本研究中,病理组学特征在预测BC患者NAC疗效方面也显示出稳定的预测能力,它兼顾整体图像与局部图像,特征来源具有广泛性。据悉,这是第一项利用数字病理切片中提取的全定量成像特征预测BC患者NAC反应的研究。
PS具有一定的预测优势。第一个优势是使用方便快捷的图像处理方法来提取定量病理组学特征。迄今为止,病理组学特征的提取方式尚未达成共识。主要的提取方式为CellProfiler、Qupath与深度学习模型。CellProfiler不仅是一款免费的开源软件,还是一个易于使用且可重复的平台,允许临床医生自动批量测量生物图像并已用于数字病理学分析。相对于复杂的深度学习分割与模型建立方式,其处理方式具有普适性。第二个优势体现在使用机器学习方法构建简单易泛化的模型。过滤法与嵌入法相结合,筛选出最佳的7个纹理特征,使用少量特征进行模型构建其不易出现过拟合现象;且使用的SVM算法可以在模型的复杂性和学习能力之间寻求最佳折中
[15],综合使得PS具有较强的泛化能力与临床实用性。
同时,本研究还发现HER2也是预测BC患者NAC疗效的重要指标。据研究报道,HER2阳性BC患者的NAC病理完全反应率为50%~80%,高于其他亚型
[16]。其原因可能是此亚型乳腺癌较高的生物学异质性与靶向药物的使用
[17]。本篇研究也得出同样的结论,多因素分析结果显示,HER2是BC患者NAC疗效的独立预测因素(
OR=4.011,95%CI=2.113~7.820,
P<0.05)。
本研究中仍存在一些局限性。首先,本研究是回顾性研究,基于机器学习的PS还需要进行多中心、前瞻性临床试验的进一步验证。其次,由于人工制作切片染色具有差异性,数字病理切片可能会显示出一些颜色异质性,这可能会影响分析。未来还需要在病理组学分析的各个阶段进行制定标准化指南以推进病理组学的发展。
总之,本研究基于高维病理组学特征,成功构建了一个用于预测BC患者NAC反应的新型标志物,显示出稳定的预测能力,对BC患者的个性化医疗发展具有重要临床意义,显示出较高的推广应用价值。