声诊是中医传统四诊方法中闻诊的重要内容,通过闻听患者的语言、语声等来辨识疾病,判断病变部位及其性质
[1]。然而,传统声诊依赖于医师的主观感受,易受环境、医师经验和听力状况等因素的影响,导致诊断标准不统一且可重复性差。因此,将这种主观性、感性的诊断方式转化为客观的、数字化的诊断手段显得尤为重要。
近年来,语音信号处理技术的发展为声诊的现代化提供了新的思路。语音作为人体身心状态的综合反映,已被用于抑郁症及相关情感障碍的研究。临床研究表明,抑郁患者常表现出声音低沉、语调单一、语速缓慢、停顿时间长等特征
[2]。然而,阈下抑郁作为抑郁症的早期阶段,其症状隐匿且易被忽视,导致错过最佳干预时机。目前,关于抑郁症或阈下抑郁语音特征的研究主要集中在声音的物理属性和声学特性上
[3-8],但单纯依赖声学特征难以全面捕捉抑郁症状的细微变化。因此,引入语音情绪特征的分析显得尤为重要。语音情绪特征专注于从语音中提取与情感相关的特征,能够更准确地识别和分析说话者的情绪状态,从而为阈下抑郁的早期识别提供新的思路
[9]。
然而,语音情绪特征在早期识别阈下抑郁方面的应用尚未被探索。因此,本文通过采集阈下抑郁人群和正常人群的语音数据,提取语音情绪特征,采用递归特征消除方法进行特征选择,以优化特征集。随后,采用SVM、RF、LRLasso、LR、LDA、AdaBoost等6种不同机器学习算法进行阈下抑郁语音模型构建,为抑郁倾向的早期识别提供客观化、准确的预测,从而实现更加一致和可靠的诊断结果。
1 资料和方法
1.1 研究对象
本文研究对象为在校大学生,选择阈下抑郁大学生作为被试组,正常大学生为对照组。本研究经福建中医药大学附属第三人民医院伦理委员会批准(伦理批号:2024KS-155-1)。
纳入标准:参照Judd等
[10]提出的阈下抑郁诊断:大部分时间存在两种或两种以上的抑郁症状,持续2周以上,同时伴随有一定程度的社会功能失调,但未达到抑郁症诊断标准,即不符合美国精神障碍诊断统计手册第五版(DSM-V)中重性抑郁障碍发作诊断标准;参照流调用抑郁自评量表(CES-D)评分标准
[11]:CES-D得分<16分为无抑郁症状,16~19分为可能有抑郁症状,≥20分为肯定有抑郁症状;参照汉密尔顿抑郁量表(HAMD-17项)评分标准
[11]:总分≤7分为没有抑郁症状,总分≥17分可能是轻或中度抑郁,总分≥24分可能有严重抑郁。纳入标准:健康对照组以及被诊断为阈下抑郁(CES-D≥16,且7≤HAM-D<17
[10]),但没有其他精神障碍的患者,对照组挑选没有精神病史且在年龄和性别上与阈下抑郁组相匹配的受试者。排除标准:既往有抑郁症疾病史、精神疾病史、器质性精神障碍、躯体疾病或精神活性物质和非成瘾物质等所致抑郁者;既往有脑部器质性疾病或脑外伤手术史者;近6个月内有服用任何精神药物治疗者;有严重的躯体疾病、系统疾病、免疫缺陷等疾病;有咽炎、上呼吸道感染或喉部、颈部手术史等其它影响正常发音的疾病;有自杀倾向者。
1.2 方法
1.2.1 语音采集
考虑到人的情绪刺激容易造成情感倾向的语音特征,不利于阈下抑郁的识别,这里朗读材料全部以中性词汇和中性短文故事为准。
中性词汇朗读:来源于汉语情感词极表
[12],具体包括“中间、弹起、商品、村寨、最早、绿荫、和美、操纵、中点、山寨”。
短文朗读:朗读文本选取一段158字的经典短文《北风与太阳》,短文内容如下:“有一次,北风和太阳正在争论谁比较有本事。他们正好看到有个穿着大衣的人走过来,他们就说,谁可以让那个人脱掉那件大衣,就算谁比较有本事。于是北风开始拼命地吹。怎知,他吹得越厉害,那个人就越是用大衣包裹自己。最后,北风没办法,就放弃了。接着,太阳出来晒了一会儿,那个人感觉变得很热,立刻把大衣脱掉了。于是,北风只好认输了。”
采集设备:使用录音设备Sony/ICD-PX470,录音采样频率为44.1kHz,量化位数16位(16Bit),所采样本以WAV文件形式保存。
1.2.2 语音情绪特征提取
本文使用开源工具集openSMILE
[13]中IS09_emotion配置预定义的特征集来进行语音情绪特征提取。提取的特征包括:低级描述符(LLDs),如基频、Mel频率倒谱系数(通常选取前12个)、基音频率及其相关特征(用于反映语音的音高和情绪色彩)、短时能量及其统计量(用于体现语音的活力和情感强度)以及声谱特征(如谱质心、谱偏度、谱斜度等)。此外,还计算了每个低级描述符的一阶和二阶差分(即动态特征),以捕捉特征随时间的变化,并对每个低级描述符及其导数特征计算了统计函数,包括均值、标准差、最小值、最大值、范围、偏度和峰度等,以总结整个音频文件或音频片段的特征信息。同时,还提取了零交叉率(ZCR)等其他与情感相关的时域特征。
将上述各种特征组合在一起,为情感识别任务提供一个全面的特征向量。采用该工具,可把每一段语音转化为384维数据,为机器学习模型提供丰富的输入信息,从而提高情感识别的准确性。
1.2.3 模型构建
按照4∶1随机拆分成训练集和测试集。训练集用于构建分类模型,测试集用于评估模型的对外预测能力。同时,采用RFE方法来识别语音数据集中最关键的特征。REF是一种系统性的方法,它通过迭代构建和训练模型,在每一步中淘汰最不重要的特征,从而降低数据维度,增强模型的可解释性,同时不牺牲预测准确性
[14]。随后,采用SVM、RF、LRLasso、LR、LDA、Adaboost等不同机器学习算法进行分类模型构建。SVM通过核函数处理非线性关系,使数据在高维特征空间中得到线性可分
[15]。RF是一种集成学习方法,通过构建多个决策树并汇总其预测结果,以提高分类准确性并减少过拟合的风险
[16]。LRLasso是一种正则化技术,通过对某些回归系数施加惩罚,使其缩减至零,从而实现特征选择并增强模型的解释能力
[17]。LR是一种常用的二元分类方法,旨在估计二元响应变量与一个或多个预测变量之间的关系
[18]。LDA是一种同时用于降维和分类的技术,通过寻找能够有效区分两个或多个类别的特征的线性组合
[19]。AdaBoost是一种集成方法,通过重点关注难以分类的实例,将多个弱学习器结合成一个强分类器,以提高整体分类性能
[20]。
1.2.4 模型评估指标
采用准确率、敏感度、特异度、ROC曲线下的面积(AUC)值来评估模型的可靠性和有效性
[21]。准确率:衡量模型预测正确的样本占总样本的比例,是评估模型整体性能的基本指标。敏感度:又称召回率,衡量模型正确识别正类样本的能力。敏感度越高,模型漏判(假阴性)的情况越少。特异度:衡量模型正确识别负类样本的能力。特异度越高,模型误判(假阳性)的情况越少。AUC值:反映模型在不同阈值下敏感度和特异度的平衡。AUC值越接近1,表示模型的分类性能越好。同时,为了评估模型泛化能力,我们采用了真实世界的语音数据,对最佳阈下抑郁语音识别分类模型进行测试。所有计算都在Python 3.8环境下完成。
1.2.5 模型应用
为了验证本文所建阈下抑郁分类模型对真实世界中全新数据集的泛化能力和有效性,按照上述诊断标准、纳入标准和排除标准,我们重新招募了一批大学生,正常组26人,阈下抑郁组10人,朗读单词和短文的语音由他们在真实世界下通过自己手机自行录制。
2 结果
2.1 一般资料情况
本研究共纳入50名阈下抑郁组和60名健康组,年龄为18~30岁。每名志愿者共采集2段语音,时长控制在10 min以内(
表1)。
2.2 朗读单词语音变量提取和分类模型
经语音数据软件处理后,有效语音数目为77,其中正常组40个,阈下抑郁组为37个。每个语音提取到384维语音情绪特征变量,如能量特征、梅尔频率倒谱系数、零交叉率特征、声音概率特征、基频特征、差分特征等,涵盖了语音信号的能量、频谱、周期性、声音概率和基频等多个方面。通过RFE方法筛选出在单词朗读任务中10个最重要的语音情绪特征变量(
表2),这些特征变量包括了能量特征、声源特征、声谱特征和零交叉率特征多个维度。按照RFE入选顺序,分别是均方根能量的均值(pcm_RMSenergy_sma_amean)、均方根能量的线性回归系数(pcm_RMSenergy_sma_linregc2)、均方根能量的标准差(pcm_RMSenergy_sma_stddev),零交叉率的线性回归系数(pcm_zcr_sma_linregc1)、零交叉率线性回归的误差度量(pcm_zcr_sma_linregerrQ)、语音概率的线性回归系数(voiceProb_sma_linregc1)、第一维MFCC的均值(pcm_fftMag_mfcc_sma_de
[1]_amean)、第一维MFCC的线性回归分析结果(pcm_fftMag_mfcc_sma_de
[1]_linregc2)、短时零交叉率的偏度(pcm_zcr_sma_ de_skewness)、短时零交叉率的峰度(pcm_zcr_sma_de_kurtosis)。
列出基于单词朗读语音的阈下抑郁分类模型的性能指标(
表3)。从结果中可以看出,AdaBoost和RF模型在训练集上的准确率均为100%,显示出模型在训练数据上有很好的拟合能力。在测试集预测表现方面,AdaBoost和RF模型继续保持100%的预测准确率,显示出其对外预测能力优秀。相比之下,LDA和LRLasso模型对测试集预测准确率均为93.3%,LR和SVM模型均为86.7%。此外,AdaBoost和RF模型在测试集上的敏感度和特异度及ROC AUC值均达到100%,进一步表明了它们在识别阈下抑郁语音方面具有极高的准确性和可靠性,相比于其他4个机器学习模型具有明显优势。
2.3 朗读文本语音变量提取和分类模型
经语音数据软件处理后,有效语音数目为96个,其中正常组53个,阈下抑郁组为43个。每个语音提取到384维语音特征变量,如能量特征、梅尔频率倒谱系数、零交叉率特征、声音概率特征、基频特征、差分特征等,涵盖了语音信号的能量、频谱、周期性、声音概率和基频等多个方面。列出通过RFE方法筛选出的短文朗读中阈下抑郁人群的10个重要语音特征变量(
表4)。特征变量涵盖了声谱特征和零交叉率特征,其中声谱特征占据了7个。按照RFE入选顺序,分别是第7维MFCC的偏度(pcm_fftMag_mfcc_sma_skewness)、第8维MFCC的均值(pcm_fftMag_mfcc_ sma_amean)、零交叉率的线性回归系数(pcm_zcr_sma_linregc1)和线性回归的误差度量(pcm_zcr_sma_linregerrQ)、第3维MFCC的均值(pcm_fftMag_mfcc_sma_de_amean)、第7维MFCC的线性回归系数(pcm_fftMag_mfcc_sma_de_linregc1)、第7维MFCC的另一个线性回归系数(pcm_fftMag_mfcc_sma_de_linregc2)、第11维MFCC的最大值位置(pcm_fftMag_mfcc_sma_de_maxPos)、第11维MFCC的线性回归系数(pcm_fftMag_mfcc_ sma_de_linregc2)和零交叉率的偏度(pcm_zcr_sma_de_skewness)。
列出基于文本朗读语音的阈下抑郁分类模型的性能指标(
表5)。AdaBoost、RF和LDA模型在训练集上的准确率分别为100%、100%和89.4%,其他3个算法模型的准确率都小于80%。在测试集预测表现方面,AdaBoost、RF和LDA模型继续保持较高的准确率,分别为90%、80%和90%;LR、LRLasso和SVM模型分别为70%、80%和80%。此外,AdaBoost和RF模型在测试集的敏感度和特异度及AUC值分别为88.9%,90.9%和96%、77.8%,81.8%和80.8%,这些模型在区分阈下抑郁和正常样本上具有较高的效能。
2.4 阈下抑郁语音分类模型应用
朗读单词的语音情绪特征AdaBoost和RF分类模型对真实世界语音样本数据预测的准确率为91.7%和80.6%、ROC AUC值为91.2%和80.4%;朗读文本的语音情绪特征AdaBoost和RF分类模型对新样本数据预测的准确率为86.1%和77.8%、AUC值为84.2%和75.4%,具体的ROC曲线分析(
图1)。
3 讨论
本文通过语音数据分析和分类预测模型构建,揭示了正常组与阈下抑郁组的语音情感特征存在明显差异,这与中医声诊理论相呼应。中医理论认为,声音不仅是情感和健康状态的反映,还可用于辨识个体的生理和心理状态。
通过对单词朗读语音的分析,本文筛选出的阈下抑郁特征变量涵盖了多种语音特征类型,包括了能量特征、声源特征、声谱特征和零交叉率特征多个维度。从本文的结果可以看出,能量特征在筛选出的前10个重要特征中占据了前3位,这表明能量特征在区分正常组和阈下抑郁组的语音样本中起着关键作用。均方根能量的均值、线性回归系数和标准差能够提供关于语音信号强度和稳定性的重要信息。研究也发现,基频、能量、语速等参数可随抑郁症状的改善而出现变化
[22, 23]。MFCC是声谱特征中常用的指标,能够体现说话人的情绪状态,常用于抑郁语音特征的识别研究
[24]。在本次实验中也显示出了其重要性。第一维MFCC的均值和线性回归系数被选为重要的特征,这表明声谱特征的变化趋势对于区分不同的情绪状态具有重要意义。这些发现与中医声诊中的“音声”理论相吻合,即声调和音质的变化在一定程度上能够反映个体的情绪波动和内在健康状况。零交叉率特征在筛选出的特征中占了三个。零交叉率的线性回归系数和偏度能够反映语音信号的周期性和瞬态特性,这对于识别阈下抑郁情绪可能特别有用。一项系统综述研究了抑郁症患者与健康对照组在情绪动态指标上的差异,发现抑郁症患者的情绪波动更大,这些波动表现为更大的负面情绪变异性和不稳定性
[25]。分类预测模型结果表明,AdaBoost和RF模型在基于单词朗读的阈下抑郁分类任务中表现最佳,无论在训练集还是测试集上,均展现出高准确率和稳定性。这两个模型在敏感度和特异度上均达到100%,显示出卓越的分类能力。LDA模型在训练集和测试集上的准确率略低于AdaBoost和RF,但其ROC AUC值仍较高,显示出良好的泛化能力和分类效能。LR、LRLasso和SVM模型在测试集敏感度方面表现良好,但在特异度和ROC AUC值上较弱。总之,AdaBoost和RF模型在阈下抑郁分类任务中展现出的优异性能,可作为后续研究和应用的首选模型。
通过短文朗读语音筛选出的阈下抑郁人群的语音特征变量涵盖了声谱特征和零交叉率特征,其中频谱特征占据了较大比例,提示在短文朗读中,声谱特性对于识别阈下抑郁人群具有重要作用。特别是MFCC特征,作为描述语音信号频谱包络的重要工具,已被广泛用于情感识别和精神健康状态的评估
[26]。研究显示,MFCC的偏度、均值和线性回归系数能够捕捉到与抑郁情绪相关的频谱变化,这些变化可能与抑郁症患者的情绪加工异常有关
[27]。零交叉率特征在筛选出的特征中占据了3个,零交叉率的线性回归系数(pcm_zcr_sma_linregc1)、零交叉率线性回归的误差度量(pcm_zcr_sma_linregerrQ)以及零交叉率的偏度(pcm_zcr_sma_de_skewness)在两种不同的朗读任务中均被识别为阈下抑郁的重要特征,再次表明零交叉率是区分不同情绪状态的一个有效指标。零交叉率作为衡量信号周期性的一个重要指标,其变化趋势与发声时声带的张力和振动模式密切相关,而这些模式可能受到抑郁情绪的影响
[28]。Ozdas等
[29]通过F检验发现抑郁个体与对照组之间在抖动特征上具有显著性差异。零交叉率的线性回归系数和偏度能够反映语音信号的周期性和瞬态特性
[30]。抑郁症患者的声音信号通常表现出非周期性和不稳定性
[31]。这些共性特征的发现为阈下抑郁的语音识别提供了一致的证据,表明无论在单词还是短文朗读任务中,零交叉率特征都是阈下抑郁识别中重要特征变量。
基于短文朗读语音的分类预测模型结果表明,AdaBoost模型在基于文本朗读语音的阈下抑郁分类任务中表现最为出色,无论是在训练集还是测试集上,均展现出了较高的准确率和稳定性。该模型在测试集ROC AUC值上达到了96%,显示出了极高的分类能力,能够非常准确地识别出抑郁样本,同时避免了将正常样本误判为抑郁。RF模型虽然在测试集上的准确率略低于AdaBoost模型,但其测试集ROC AUC值仍然较高,显示出较好的泛化能力和分类效能。其他四个模型在训练集预测准确率明显较弱、在测试集的敏感度和特异度上未见特别突出,这可能意味着这些模型在区分阈下抑郁和正常样本时,更容易将正常人群样本误判为阈下抑郁。SVM模型在本实验中的表现最弱。
在评估模型泛化能力方面,我们采用了真实世界的语音数据,对朗读单词和文本的语音情绪特征的AdaBoost和RF模型进行了测试。结果显示,朗读单词语音的两种模型对真实世界的语音数据的预测准确率仍然可以达到了91.7%和80.6%,朗读文本语音的两种模型对真实世界的语音数据的预测准确率也可以达到为86.1%和77.8%。这一结果表明,尽管模型是在实验室条件下训练的,但它们在实际应用中仍展现出了良好的泛化能力和稳健性。然而,与实验室采集的语音数据准确率相比,这些准确率略低,这与真实世界语音数据复杂性直接相关,包括不同的口音、说话速度、音量以及各种背景噪音等因素都可以影响模型的识别能力,导致准确率下降。总之,模型在实际应用中的表现验证了其有效性,本文的结果不仅证实了语音情绪特征在阈下抑郁人群筛查中的潜力,也为中医声诊的现代化研究提供了支持。