生成式人工智能在生成影像学报告方面的表现评估

黎超; 陈优美; 段亚妮; 陈耀萍; 陈秀珍; 覃杰

新医学 ›› 2024, Vol. 55 ›› Issue (11) : 853 -860.

黎超, 陈优美, 段亚妮, 陈耀萍, 陈秀珍, 覃杰

作者信息 +

Author information +

文章历史 +

PDF

摘要

目的评估2种生成式人工智能（AI）在生成腹部影像学报告方面的表现，并与人类医师进行比较。方法回顾性研究2023年6月至2024年5月在中山大学附属第三医院接受腹部CT和MRI检查的300例患者的影像学报告。使用生成式AI模型ERNIE 4.0和Claude 3.5 Sonnet对300例患者的影像学所见重新生成影像学报告，由5名放射科医师采用五点Likert量表（1表示强烈不同意，5表示强烈同意）评估其完整性、准确性、表达、幻觉和无修改接受度。采用Friedman和Nemenyi检验进行统计学分析。比较生成式AI与人类医师的表现差异。结果研究共纳入300例患者的影像学报告。在完整性方面，Claude 3.5 Sonnet与人类医师相当，均优于ERNIE 4.0 [(4.86±0.37)分vs.(4.76±0.46)分vs.(4.40±0.64)分，前两者比较P=0.200，前两者与后者比较P均<0.01]。在准确性方面，人类医师优于2种AI模型[（4.96±0.22）分vs.(4.66±0.57)分vs.(4.69±0.57)分，前者与后两者比较P均<0.01]。在无修改可接受度方面，Claude 3.5 Sonnet与人类医师相当，均优于ERNIE 4.0[(4.64±0.53)分vs.(4.69±0.54)分vs.(4.30±0.59)分，前两者比较P=0.595，前两者与后者比较P均<0.01]。在表达和幻觉上，三者比较差异无统计学意义（P均> 0.05）。结论 Claude 3.5 Sonnet生成的影像学报告与人类医师水平相当。这提示先进的生成式AI有潜力辅助人类医师的工作，有助于提高效率并减轻认知负担。