肝脏是机体新陈代谢及维持稳态的重要器官,也是抵御内源性和外源性毒素的关键屏障
[1]。代谢功能障碍相关脂肪性肝病(MASLD)是最普遍的慢性肝病,可进展为代谢功能障碍相关脂肪性肝炎、纤维化等更为严重的病理状态,显著增加肝硬化与肝细胞癌风险
[2],累及全球约30%人口
[3]。环境挥发性有机物(VOCs)是易挥发的低分子含碳有机化学物
[4], 其具有强自由基特性和高挥发性
[5],易通过呼吸途径进入人体而直接诱导氧化应激反应危害健康
[6],或在光化学反应作用下转化为其他环境污染物间接造成健康损害
[7]。实验研究已证实VOCs对啮齿动物的肝脏功能具有毒理学效应
[8, 9];流行病学研究也发现mVOCs暴露与非酒精性脂肪肝病(NAFLD)的患病风险增加及肝功能指标异常存在关联
[10, 11]。MASLD相较于NAFLD将心脏代谢风险因素纳入诊断标准
[12],其可以更全面反映个体代谢状态的肝脏表现
[13]。目前,普通人群中mVOCs混合暴露与MASLD患病风险之间的关联尚未系统阐明。此外,人体实际暴露场景中常同时接触高度相关的多源VOCs混合物,传统回归模型在处理高度相关的多种污染物面临多重共线性问题,要么分析单一mVOC
[10],要么仅将相同或相似的 mVOCs 进行简单加和处理
[11],难以稳定地识别出真正驱动健康结局相关的特定污染物组合
[14],导致结果缺乏明确的生物学或毒理学解释
[14],无法全面准确地认识其对肝脏的危害。
因此,本研究旨在探究尿液中mVOCs混合暴露与MASLD患病风险之间的关联,基于最新MASLD诊断标准,应用LASSO回归筛选MASLD患病风险显著相关的mVOCS高风险暴露簇,与混合效应模型WQS进行结果互补,量化高风险暴露簇mVOCs对MASLD患病的相对贡献。通过LASSO筛选关键污染物组合,为我国在复杂新污染背景下精准识别环境健康高危人群和制定差异化协同治理政策,提供了科学参考。本研究有望为制定基于MASLD危害的VOCs管控策略提供直接证据。
1 资料和方法
1.1 研究对象
本研究以NHANES 2011~2018年4个周期的调查人群为研究对象。NHANES是由美国国家卫生统计中心开展的一项全国性、分层多阶段的概率抽样调查,旨在评估一般人群的健康状况
[15],采集信息包括基础人口统计信息、膳食信息、实验室检查数据、体格检查数据和问卷数据。根据研究目的,本研究纳入18岁及以上、进行了尿液mVOCs检测、且具有结局MASLD相关判断信息的研究对象9085名。进一步排除对研究结果会产生干扰的参与者:因协变量缺失会降低统计检验的能力,排除协变量数据缺失者(
n=5278);因妊娠期生理状态发生显著变化,排除孕妇(
n=30);鉴于过量饮酒可能导致代谢性与酒精性脂肪肝的病因难以区分,本研究基于问卷采集的酒精摄入频率数据排除中重度饮酒者(
n=1420),定义为:过去12个月内饮酒且女性饮酒量≥2杯/d、男性≥3杯/d
[16];病毒性肝炎对肝脏病理改变具有潜在影响,其引发的肝脂肪变性与代谢功能障碍之间的相关性较低,因此排除血清学检测乙型或丙型肝炎病毒阳性的参与者(
n=235)。最终纳入2122名研究对象。
1.2 暴露和结局的定义
暴露变量:根据NHANES介绍文档
[17],VOCs浓度是经超高效液相色谱-电喷雾串联质对尿液样品进行实验室分析获得,所有检测流程均遵循标准化操作程序并实施严格的质量控制措施
[17]。本研究筛选出检出率>80%的mVOCs作为暴露变量,共计15种(
表1);进一步对浓度低于检出限(LOD)的尿液mVOCs数据,采用 LOD/√2进行赋值以降低统计偏差。
结局变量:MASLD的诊断标准为肝脏存在脂肪堆积,且同时伴有至少一项心脏代谢风险因素异常
[13]。首先,利用脂肪肝指数(FLI)评估是否存在脂肪堆积
[18]。FLI 是经过验证的可反映肝脏脂肪堆积的临床生化指标
[19],计算所需数据包括体质指数(BMI)、腰围(WC)、甘油三酯(TG)和 γ - 谷氨酰转移酶(GGT)水平,FLI≥ 60诊断为存在肝脏脂肪堆积,计算公式如下:
进一步,结合以下心脏代谢风险因素条件之一判定MASLD:非西班牙裔白种人BMI≥25 kg/m²、非西班牙裔亚洲人BMI≥23 kg/m²,或男性腰围>94 cm、女性腰围>80 cm;空腹血糖≥5.6 mmol/L(或糖化血红蛋白≥5.7%)或已确诊2型糖尿病并接受治疗;血压≥130/85 mmHg或正在服用降压药;血浆甘油三酯≥1.70 mmol/L(150 mg/dL)或正在接受降脂治疗;男性高密度脂蛋白胆固醇≤1.0 mmol/L(40 mg/dL)、女性≤1.3 mmol/L(50 mg/dL)或正在接受降脂治疗。
1.3 协变量的定义
本研究选取的协变量基于既往研究中发现的可能影响尿液mVOCs浓度与MASLD相关的因素,涵盖人口统计学特征(年龄、性别、种族、家庭收入水平、婚姻状况)、健康状况(糖尿病、高血压患病情况)、实验室检测指标(总胆固醇水平)、问卷访谈内容(饮食模式、吸烟状况)。其中,饮食模式属于二分类变量,其判定依据是从问卷数据中提取的受试者是否具有特殊饮食模式。所有协变量数据均可以从NHANES的人口统计信息、实验室检查数据和问卷数据中提取,用于综合调整潜在混杂因素。
1.4 统计学分析
描述性分析部分,采用均数±标准差描述连续变量,并对于满足正态性的数据通过t检验或对于满足非正态数据通过Mann-Whitney U检验比较MASLD组与非MASLD组的差异;采用频数(百分比)形式描述分类变量,组间差异通过卡方检验评估。鉴于尿液浓度会对检测结果产生干扰,故采用尿肌酐校正法对mVOCs浓度进行标准化处理。尿液中mVOCs浓度呈右偏分布,所以进行自然对数转换以符合正态分布假设,以便于后续分析。
关联性分析部分,首先探索mVOC单一暴露与MASLD患病风险的关联(单暴露分析),进一步估计mVOCs混合暴露与MASLD患病风险的综合关联(混合暴露分析)。单暴露分析中,采用广义线性回归模型估计关联大小,并进一步计算比值比(OR)及95%置信区间(CI)
[20]。混合暴露分析中,构建LASSO-WQS两阶段回归模型
[21]:第一阶段,采用LASSO 回归模型来克服暴露变量之间可能的多重共线性,应用10倍交叉验证来计算LASSO中的最小均方误差(MSE)和最佳超参数
λ,确定与导致MASLD风险相关的mVOCs;第二阶段,将选定的代谢物纳入WQS回归模型,以评估混合 mVOCs 与MASLD的相关性,并估计每种代谢物的贡献。在WQS分析中,考虑到 VOCs 暴露对肝脏的不利影响,假设方向为正,将40%的数据作为训练集,60%为验证集,通过5000次bootstrap抽样过程确定各化学物质的权重。
在上述关联性分析模型中,均采用两种协变量调整策略:模型1未调整任何协变量,模型2调整年龄、性别、种族、婚姻状况、收入水平、饮食类型、高血压、糖尿病、总胆固醇水平等潜在混杂因素。为比较不同亚组之间的效应差异,本研究根据性别和血清中可替宁的浓度(吸烟暴露生物标志物)将人群分为不同亚组,比较不同亚组间mVOCs混合暴露与MASLD患病风险的关联的异质性;为验证结果的稳定性,本研究进一步纳入2005~2006年调查周期的数据以及交换WQS分析集的权重来开展敏感性分析。所有统计分析均基于R4.4.3完成,设定双侧P<0.05为差异具有统计学意义。
2 结果
2.1 研究人群的一般特征
本研究共纳入2122名研究对象,平均年龄为45.30岁,其中55%为男性,MASLD患病率为45.85%(
表2)。MASLD组患者呈现出年龄更大,体质量指数(BMI)、总胆固醇及尿肌酐水平更高的特征。统计分析表明,两组在年龄、性别、收入水平、婚姻状况,以及糖尿病和高血压患病情况、总胆固醇水平、尿肌酐水平方面的差异均具有统计学意义(
P<0.05),受教育程度这一协变量在两组间的差异不具有统计学意义(
P>0.05)。
2.2 单一mVOC的暴露水平与MASLD的关联
为了评估暴露于单一mVOCs成分的健康风险,进行了广义线性回归(
表3)。经多变量调整模型校正潜在混杂因素后,发现纳入研究的mVOCs中3种成分(ATCA、CEMA和DHBMA)与患MASLD的风险增加呈显著正相关。在单一mVOC与MASLD关联之间未观察到有意义的负向关联。
2.3 混合mVOCs与MASLD的关联
Spearman 相关分析显示(
图1),15种尿液 mVOCs之间存在显著的正相关关系,表明这些mVOCs之间存在高度相关性和共线性,因此执行LASSO回归模型以筛选一组与MASLD更具关联的mVOCs暴露簇。在最佳拟合LASSO 模型中选择的具有非零系数的 mVOCs共有6种(
图2A),分别是ATCA、BMA、CEMA、DHBMA、MA、HMPMA,被认为与MASLD更相关。
图2B表示LASSO回归中MSE变异与对数转换λ之间的关联,使用MASLD为响应变量,选择0.00485作为 MSE最小的最优λ值。
基于LASSO分析的结果,使用正向WQS模型来探索多种尿液中mVOCs混合暴露的联合效应并量化各成分的相对贡献权重(
图3)。在调整混杂因素前后WQS分析的结果显示:尿液中mVOCs混合暴露与 MASLD患病风险之间存在统计学上显著的正向关联(未调整模型:OR=1.344,95%
CI:1.193~1.515,
P<0.001,调整混杂因素后的模型:OR=1.306,95%
CI:1.132~1.507,
P<0.001)。在这些mVOCs中,贡献最大的3个分别是:CEMA、DHBMA和BMA,其估计权重分别为36.0%、31.1%和14.7%(
图3)。
2.4 亚组分析与敏感性分析
基于WQS模型,根据性别(男性/女性)以及基于血清可替宁浓度划分的吸烟状态进行分层分析,其中吸烟状态定义为:当前吸烟者(>3.08 ng/mL)、被动吸烟者(二手烟暴露者,>0.015 ng/mL 且≤3.08 ng/mL)和未吸烟者(≤0.015 ng/mL)。经对混杂因素校正后的亚组进行WQS分析(
表4),男性和女性尿液中mVOCs水平与MASLD之间的关联性差异无统计学意义(
P>0.05)。吸烟状况的分组中,不吸烟组尿液中mVOCs水平与MASLD患病风险之间的关联不具有显著差异,被动吸烟组和吸烟组尿液中mVOCs水平与MASLD患病风险具有显著的正向关联,且吸烟组的患病风险较被动吸烟组更大。亚组分析权重图(
图4),吸烟组所占权重最大的mVOC为CEM,被动吸烟组所占权重最大的mVOC为MA。
为验证研究结果的稳健性,采用两种不同策略进行敏感性分析。策略一,扩充2005~2006年调查周期的数据至主分析数据集;策略二,在WQS模型框架下,通过交换训练集与验证集的权重分配,对主分析数据集进行交叉验证。两种验证结果一致表明,尿液中 VOCs混合暴露与MASLD患病风险之间的正向关联仍保持不变,关联结果依然具有统计学意义。
3 讨论
VOCs作为一类具有多重毒理学效应的化学物质,对人体健康的危害可表现肝脏代谢功能障碍、肾脏排泄能力受损及神经系统传导异常等多个靶器官损害
[22],部分成分已被我国《新污染物治理行动方案》列为重点管控物质
[23]。与发达国家相比,我国在VOCs高效降解技术和环境友好型替代品研发方面仍存在明显差距
[24],这使得我国由新型污染物引发的健康风险防控面临严峻挑战。
本研究基于NHANES中2011-2018四个周期的数据,探究从单一暴露到联合暴露不同暴露模式下尿液中mVOCs和MASLD患病风险之间的关联。单一暴露模型结果显示,ATCA、CEMA和 DHBMA 与MASLD患病风险呈正向关联,这与之前单一尿液中 mVOC与 NAFLD关联的研究结果相似
[10],以往研究显示成人尿液中ATCA、CEMA和MUCA与 NAFLD具有统计学意义的正向关联。本研究混合暴露模型结果显示,经LASSO筛选的尿液mVOCs高风险暴露簇与MASLD患病风险呈显著正向关联(OR=1.294,95%
CI:1.124~1.490,
P<0.001),其中CEMA和DHBMA在总体效应中起重要的作用(CEMA权重为36.0%,DHBMA权重为31.1%),而MA和HMPMA在混合物中的作用较小(MA所占权重为5.7%,HMPMA所占权重为0.8%),这与以往研究结果存在部分差异
[11]。以往研究通过WQS模型和BKMR模型观察到mVOC混合物与部分肝脏生物标志物和NAFLD患病风险之间具有显著正相关关系,但在总体效应中起重要的作用的是2,3,4-MHA和HMPMA(2,3,4-MHA所占权重为42%,HMPMA所占权重为32%)。这可能是由于mVOCs之间具有高度的相关性和共线性
[21],以往研究并未考虑mVOCs之间的高度相关性,混合暴露效应因为所纳入的暴露簇不同而表现出不同的结果,且研究设计、样本量和种族遗传背景也可能导致结果的差异。
本研究在混合暴露的亚组分析中发现性别差异无统计学意义,可能的原因是由于VOCs代谢通路和毒理机制本身缺乏强烈的性别特异性,VOC与其它健康结局之间关联的性别差异也不具有统计学意义
[25]。另亚组分析显示尿液中mVOCs混合物与MASLD患病风险的关联在不同的血清可替宁浓度分组中存在差异,在吸烟组和被动吸烟组的尿液中mVOCs混合物与MASLD之间存在显著正向关联,而在非吸烟组中尿液mVOCs与MASLD之间不存在统计学关联,类似吸烟状态之间的差异也在mVOCs与炎症的关联中表现出来
[26],烟草烟雾可能是 VOCs 暴露的主要来源
[27]。未来的研究可以在不同特征的人群中进一步分析VOCs混合物与MASLD之间的关系。
VOCs与 MASLD相关的生物学机制目前尚未完全阐明,根据现有研究表明VOCs混合物对MASLD的影响机制可能涉及多个生物学通路和系统。肝脏中 VOCs的代谢会消耗谷胱甘肽并产生氧自由基,导致氧化应激增加,氧化损伤和炎症是 VOCs 诱导肝损伤的常见机制
[28]。本研究表明贡献最大尿液中的VOC为CEMA,在总体效应中所占的权重为36%,CEMA为丙烯醛的代谢产物,其导致肝脏损伤的基本机制涉及多种应激反应
[29, 30],包括诱导氧化应激、损害线粒体功能以及激活内质网应激反应
[31],丙烯醛可以通过引发脂质过氧化产物来传播氧化应激
[32],从而通过该途径参与NAFLD的发病过程
[33]。丙烯醛暴露也会增加内质网应激标志物的表达,无法激活保护性的未折叠蛋白,可能通过改变脂蛋白的功能和结构特性
[34],进而促进肝脏脂肪的堆积
[35],增加MASLD的风险。部分芳香族 VOCs(如DHBMA、BMA等)作为微塑料的组成成分,可通过肝脏蓄积作用通过物理性损伤直接降低肝细胞活力,从而促进肝内脂质蓄积
[36]。另外,多种VOCs在人体内代谢过程中存在显著的共线性特征,各组分可能存在复杂的交互作用
[37],部分VOCs可能通过竞争性结合同一靶标或通过调节相同的生物途径,增强或削弱彼此的效应。目前关于VOCs与MASLD之间的确切作用机制,仍需通过更多的实验研究结合人群队列研究进一步阐明。
本研究通过LASSO回归解决了mVOCs高度相关性问题,首次识别出驱动MASLD的核心mVOCs暴露簇,为mVOCs混合暴露与MASLD患病风险之间的关联提供了新的证据。同时,本研究也存在一些局限性。首先,本研究为横断面设计,无法确定尿液中mVOCs与MASLD之间的因果关系;其次,考虑到协变量缺失过多会影响统计效能,故本研究分析使用数据集将协变量缺失者均进行排除,经对分析数据集和目标数据集基线特征比较发现,分析数据集可能存在“健康者偏倚”
[38],这可能会低估VOCs与MASLD之间的关联。尽管本研究考虑多个混杂因素后明确尿液中mVOCs暴露与MASLD患病增加具有统计学意义上的关联,但未测量的其他混杂因素(如他汀类药物使用等)仍然会导致结果的偏差。另脂肪肝的判定依赖于脂肪肝指数(FLI ≥ 60),而非影像学或组织学等金标准。尽管最初验证研究提示,FLI的受试者工作特征曲线下面积(AUROC)为0.84
[18],但仍可能引入误分类偏倚(假阳性或假阴性)。FLI常用于大规模流行病学研究中替代超声检查,以平衡可行性与成本,本研究旨在揭示人群层面的潜在关联,未来仍需通过影像学等更精确的测量方法在不同队列中进行验证。本研究使用LASSO回归进行变量筛选,其目的是降维后筛选重要变量,故在建立模型时未考虑交互或非线性关系。考虑到后续混合暴露所用的WQS模型在研究中为正向,所以LASSO回归进行筛选时并未做负向和双向检验,未来研究可采用贝叶斯核机器回归等更复杂模型,同步评估混合暴露的整体效应、非线性关系及成分间交互作用。另外,受问卷信息所限,未能全面收集电子烟及其它烟草制品的使用情况,而血清可替宁作为尼古丁暴露的共同生物标志物,无法区分其具体来源,部分不产生烟雾的烟草使用者可能被误归入暴露组,但是此类错误分类为非差异性错分,可能会低估暴露与结局之间真实关联。此外,尽管与血液中VOCs相比,尿液中VOCs代谢产物的半衰期更长
[39],但在NHANES中,尿液中mVOCs仅作为单一评估进行了一次测量,mVOCs在人体中存在昼夜变化,仅包含一次mVOCs浓度测量的流行病学调查可能会导致测量误差。另在研究结果中发现部分单一暴露(如ATCA、CEMA)的关联强度OR在模型调整协变量后发生了变化显著,可能是有效的混杂控制所致,也可能是优先考虑了控制混杂以获取无偏估计,而未考虑协变量之间可能的共线性而使得OR在校正混杂因素前后出现波动。因此,为了更好地了解VOCs与健康结果之间的关联,需要进一步的前瞻性研究,并且在研究设计和统计分析中考虑更多的因素,以更全面、准确地评估环境VOCs暴露的长期影响。
本研究结果为制定针对挥发性有机物(VOCs)的公共卫生防控策略提供了直接依据。首先,研究通过统计模型识别出丙烯腈代谢物(CEMA)、1,3-丁二烯代谢物(DHBA)和甲苯代谢物(BMA)等在VOCs混合暴露与MASLD患病风险关联中权重较高的关键成分,提示丙烯腈、甲苯等工业与环境常见污染物应作为肝脏健康风险防控的重点对象,为修订新污染物治理清单和确立干预优先级提供了科学依据。此外,亚组分析表明,吸烟及二手烟暴露会加剧VOCs混合暴露对MASLD患病风险的影响,提示应将吸烟控制与VOCs暴露防护结合推进,加强公众健康教育,倡导减少烟草使用并避免VOCs双重暴露场景。
本研究首次发现mVOCs混合暴露与 MASLD患病风险的正向关联,其中CEMA、DHBA和BMA是权重最高的关键化合物。本研究建议将CEMA等优先纳入环境监测,并且在修订职业暴露限值时考虑其代谢毒性。后续研究应着重阐明VOCs暴露与MASLD的时序关系,以及CEMA诱导肝脏脂肪变的具体通路。