随着科技飞速发展,我国的普通家庭的平均生活水平得到明显提高,绝大多数家长也越来越关心孩子的生长发育。骨龄(boneage,BA)是目前应用于评价儿童及青少年生物年龄的最主流方法,在体育及司法领域都有着重要的应用价值。全面且详细的骨龄评估,能准确地反映出儿童及青少年的生长发育水平
[1]。医师采用图谱法(G-P图谱、CHN图谱),计分法(TW3法、中华05法及CHN法)进行人工阅片,是目前主要的骨龄评价方法,此方法读片耗时较长,并且主观性强、稳定性差,导致骨龄的评估效率较低,评估结果一致性较差
[2]。随着医疗领域的智能化发展,如何有效地利用人工智能(artificial intelligence,AI)图像处理能力,提高骨龄评估的数字化发展,缓解医疗资源紧张的局面,逐渐引起相关领域科研人员及临床医师的重视。深度卷积神经网络(Deep Convolutional Neural Network,DCNN)等一系列深度AI智能学习的不断更新发展,使其具有快速处理大批量的图像数据的能力。本研究通过AI与影像医师组成不同实验组的组间对比,探讨AI与医师在何种模式配合下对儿童及青少年骨龄评估的临床应用价值更高。
1 资料与方法
1.1 一般资料
回顾性分析因矮小、性早熟及预测身高等生长发育问题就诊哈尔滨医科大学附属第六医院的患儿 300例,其中男童97例,女童203例;年龄1~18岁,平均年龄:8岁9月,其中7~12岁占比最多,为71.67%;纳入标准:①儿童年龄1~18岁;②左手(包含左手掌骨、指骨、腕骨以及尺桡骨远侧骨干3~4 cm)正位骨龄数字化X线摄影片。③手部位摆位及投射点正确,无骨骺缺失。排除标准:①严重骨畸形;②手腕部结构包含不全。
1.2 仪器与方法
仪器采用安健Angell-DR-D-3数字化X线摄影机,入组病例均行左手后前位X线平片检查,为保证检查结果的一致性,所有研究对象均使用同一型号DR仪器进行检查,并且技术人员均通过相应技术操作培训。具体方法如下:①左手腕部正位X线片,图像包含左手及腕部骨关节全部,也包括尺桡骨远端(桡骨和尺骨远端暴露≥3 cm)。②左手掌面向下紧贴床面,中指长轴与前臂长轴呈一条直线,五指自然分开,拇指与手掌约呈30°角。摄影焦片距控制在75 cm左右,并使用遮光栅。③球管十字定位中心线与手掌垂直,正对第三掌骨头进行投照,焦片距保持在合适范围,避免骨骺重叠
[3]。④将骨龄片通过DICOM格式导入PACS系统中。
1.3 AI 支持系统
采用医准医疗的人工智能系统软件,掌指骨检测采用目标检测模型Faster-RCNN,腕骨检测采用语义分割模型Deeplab v3,各关节分类采用backbone为Densenet的序回归模型。图像展示关键点位分级评级标准,针对手掌20块骨头(13块掌指骨,7块腕骨)进行识别定位,并对每一块骨头进行分级。采用医准医疗的人工智能系统软件分析,内嵌中华05法TW3-C-Rus和TW3-C-Carpal双重计算结果,该系统可以AI单独测评,也可以将图像上关键点位分级评级信息提供给医师,由医师完成骨龄最终评测。所有X线平片以DCIOM格式导入AI支持系统,系统进行自动骨龄评估(
图1)。
1.4 骨龄测评
标准组:由两位高年资具有独立审核资质的影像医师组成,首先共同对入组300张骨龄片进行骨龄评估,评估方法采用适合中国儿童发育规律的中华05法骨龄标准,采用平均值作为参考标准
[4]。同时从打开图像开始计时,直至完成报告关闭图像结束,记录期间的评测时间。
试验组:2位低年资仅具备报告初写能力的年轻医师共同参与本次骨龄评估。骨龄评测使用中华05标准对入组影像进行判读,医师1及医师2分别在有无AI辅助下进行骨龄评测,审阅所有左手X线平片;分别记录左手各骨质的骨龄发育等级,并以相同方法记录时间。再由2位高年资医师联合AI辅助,对同一入组数据进行骨龄评测,并以相同方法记录时间。考虑到所有的医生都对入组数据进行了2次骨龄评估,为减少第1次评估对第2次评估的影响,实验将两次评估间隔设定在2~3月左右。
1.5 统计学方法
采用SPSS 26.0统计分析软件。本实验将实验组与标准组之间的误差范围分别定为6个月组以及12个月组,即二者骨龄评测结果在6个月以内或12个月以内定义为结果一致;分别观察实验组与标准组之间误差在6个月及12个月的准确率及均方根误差(root mean squared error,RMSE)。采用组内相关系数(intraclass correlation coefficient,ICC)评价两位医师分别在有无AI辅助下评测骨龄结果的一致性,采用Bland-Altman法比较两位医师分别在有无AI辅助下评测骨龄结果之间的平均差异。计数资料用率表示,分类变量比较采用卡方检验,检验水准α=0.05。
2 结果
2.1 不同实验组之间预测差异分析
2.1.1 两位医师有无AI辅助下误差在6个月及12个月内的准确率
组间判读结果比较分析后,显示在AI辅助下,2位医师误差在6个月及12个月内的准确率均有所提高,医师1及医师2无AI辅助,6个月及12个月诊断正确率分别为77.3%和83%、88.7%和93.7%;医师1及医师2在AI辅助下,6个月及12个月诊断正确率分别为88.7%和90.3%、97%和97.3%;且差异均有统计学意义(
P<0.05);医师1及医师2无AI辅助下,RMSE值分别为9和8,医师1及医师2在AI辅助下,RMSE值分别为6和6;2位医师在AI辅助下评估骨龄的 RMSE值均减低(
表1)。
2.1.2 各组间Bland-Altaman分析
Bland-Altaman分析发现,医师1在AI辅助下,95%误差分布区间为(-10.964~12.904),无AI辅助的95%误差分布区间为(16.674~18.060)。医师2在AI辅助下,95%误差分布区间为(-9.297~12.197),无AI辅助的95%误差分布区间为(-12.982~16.336),说明在AI辅助下,两位年轻医师的评价结果与金标准的一致性显著提高(
图2)。
2.2 2组评测左手骨龄的一致性比较
以标准组评估的月数为结局,观察2位医师在有无AI支持下的ICC值。医师1、2+AI组的ICC值为0.981,医师1、2独立组ICC值为0.958,医师1、2+AI组具有更高的一致性(
表2)。
2.3 试验组与标准组评测时间比较
AI辅助下实验组医师和标准组医师,平均评测耗时分别为86.10 s和63.87 s;无AI辅助下耗时分别为124.79 s和89.13 s;在AI辅助下平均评测耗时均有较大幅度减少(
表3)。
3 讨论
本次研究通过以中华-05为理论基础,结合卷积神经网络模型叠加建立网络智能模型,对各个试验组对比研究,观察试验组间骨龄评估的准确性,最终目的是探索出AI与医师在实际临床工作中,处于何种模式配合下,对于儿童及青少年骨龄评估的临床应用价值更高,进而更有助于临床对儿童内分泌问题的诊断和治疗。现阶段,大多数医院依然使用传统骨龄评价方法,即计数法、图谱法和计分法3种方法,计数法通过观察和计算腕部骨化中心的数量,推算骨龄,由于误差较大目前应用较少。图谱法(Greulich-Pyle图谱法为代表)是20世纪初以西方儿童为样本,通过大样本追踪和整理后得出标准骨龄图谱,再将被检者的骨龄片与标准骨龄图谱(即不同年龄层的平均水平)比较
[5],该方法目前使用较广泛,但除了受不同地域饮食及生活习惯影响、人种影响,也受医师主观因素影响,同一医师或不同经验医师,评估的结论均有不同程度差异,可重复性差。有研究显示,对同一位医师进行测试,方法是采用G-P图谱法对被检者的骨龄片进行2次骨龄评估,2次骨龄评估结果差异明显,平均为0.89岁,不同医师之间的骨龄评估也具有差异性,差异平均为1.25岁
[6-7];计分法(中华05法为代表)是我国专家在TW计分法基础上于2006年修订制定,该方法符合我国儿童的发育特点,评价骨龄更客观、准确,但中华05法在实际的评价过程中耗时、费力,因此在实际工作中应用受到一定限制。
近些年来,AI在不同医学领域中的应用逐渐上升,AI的深度学习在视觉分析和自然语言处理等自动计算领域,取得了显著突破,在自动骨龄评估中已成为目前主流方法。基于深度学习的AI骨龄评估模型,属于一门基于多学科的新兴技术,可智能检测模型包括影像体位自动检测、关键骨化中心识别、关键骨化中心评级、生长发育测评等;根据我国最新制定的中华-05骨龄评分法,针对本地区不同人群间掌指骨、腕骨及尺桡骨对应特征进行训练,设计适应我国人群新的空间注意力机制,应用通道注意力、轻量级卷积块注意力、挤压和激发注意力及空间注意力
[8]等多种机制处理自然语言、分类图像 及分割语义等任务的表现出众,与原始卷积网络比较,可显著减弱处理高维输入数据时的计算负荷,降低数据维度,使网络更集中于训练ROI(Region of Interest),使ROI空间注意力的权重更高,模型训练更加集中;清晰显示手腕X线片中的关键部位局部信息,提取更强的特征,为进一步骨龄评估处理提供基础。早期研究
[9]卷积神经网络模型的相关测试,结果显示通过一系列深度学习算法,可较好地自动评价骨龄。2017年Spampinato C等科研人员
[10]通过搭建“Bonet”网络,对输入图像进行点对点的深度骨龄回归学习,首次利用卷积神经网络(Convolutional Neural Network,CNN)模型进行自动骨龄评估,结果显示平均评估误差低于10个月。随着模型不断发展,其他研究
[11-12]也得到比较大的收获,诸如AI系统对于5~18岁骨龄评价一岁以内的误差<92.2%。有研究通过分析基于G-P标准AI系统的阅片效率和结果准确性,其与金标准相差1岁以内的平均比例为84.60%,平均判读耗时AI系统仅需要1~2 s,阅片效率和结果准确性均有进一步的提高
[13]。
本研究对入组数据的对比研究后显示:实验组两位医师诊断正确率由最初的77.3%和83%、88.7%和93.7%;在联合AI辅助后都有明显改变,上升至88.7%和90.3%、97%和97.3%;RMSE值均有不同程度降低;在本研究中通过Bland-Altaman分析,观察两位医师在有无联合AI情况下的ICC值,医师1、2+AI组的ICC值为0.981,医师1、2独立组ICC值为0.958,显示医师+AI的组合在骨龄评估环节,在结果间比较中具有更高的一致性,以上研究数据对于日后儿童及青少年的临床复查有着积极的影响。在时间方面,不同组别的医师在联合AI后,平均评测耗时均有较大幅度减少,阅片时间上相比于人工有明显优势。本研究不足之处是样本量比较小,在年龄层面上大部分局限在7~12岁之间,导致没有更进一步细化讨论各个年龄层之间的骨龄评估效能。
AI辅助骨龄评价系统可提高医师工作效率,显著减少阅片时间,医生间结果一致性得到提升,利于患儿复查。具有良好的临床应用前景,成为骨龄评估的主要发展方向。