生成式人工智能在生成影像学报告方面的表现评估

黎超, 陈优美, 段亚妮, 陈耀萍, 陈秀珍, 覃杰

新医学 ›› 2024, Vol. 55 ›› Issue (11) : 853 -860.

PDF
新医学 ›› 2024, Vol. 55 ›› Issue (11) : 853 -860.

生成式人工智能在生成影像学报告方面的表现评估

    黎超, 陈优美, 段亚妮, 陈耀萍, 陈秀珍, 覃杰
作者信息 +

Author information +
文章历史 +
PDF

摘要

目的 评估2种生成式人工智能(AI)在生成腹部影像学报告方面的表现,并与人类医师进行比较。方法回顾性研究2023年6月至2024年5月在中山大学附属第三医院接受腹部CT和MRI检查的300例患者的影像学报告。使用生成式AI模型ERNIE 4.0和Claude 3.5 Sonnet对300例患者的影像学所见重新生成影像学报告,由5名放射科医师采用五点Likert量表(1表示强烈不同意,5表示强烈同意)评估其完整性、准确性、表达、幻觉和无修改接受度。采用Friedman和Nemenyi检验进行统计学分析。比较生成式AI与人类医师的表现差异。结果 研究共纳入300例患者的影像学报告。在完整性方面,Claude 3.5 Sonnet与人类医师相当,均优于ERNIE 4.0 [(4.86±0.37)分vs.(4.76±0.46)分vs.(4.40±0.64)分,前两者比较P=0.200,前两者与后者比较P均<0.01]。在准确性方面,人类医师优于2种AI模型[(4.96±0.22)分vs.(4.66±0.57)分vs.(4.69±0.57)分,前者与后两者比较P均<0.01]。在无修改可接受度方面,Claude 3.5 Sonnet与人类医师相当,均优于ERNIE 4.0[(4.64±0.53)分vs.(4.69±0.54)分vs.(4.30±0.59)分,前两者比较P=0.595,前两者与后者比较P均<0.01]。在表达和幻觉上,三者比较差异无统计学意义(P均> 0.05)。结论 Claude 3.5 Sonnet生成的影像学报告与人类医师水平相当。这提示先进的生成式AI有潜力辅助人类医师的工作,有助于提高效率并减轻认知负担。

关键词

生成式人工智能 / 自然语言处理 / 影像学报告 / 腹部

Key words

引用本文

引用格式 ▾
生成式人工智能在生成影像学报告方面的表现评估[J]. 新医学, 2024, 55(11): 853-860 DOI:

登录浏览全文

4963

注册一个新账户 忘记密码

参考文献

AI Summary AI Mindmap
PDF

94

访问

0

被引

详细

导航
相关文章

AI思维导图

/