随着人工智能技术的迅猛进步,医疗行业正经历着深刻的变革。传统医疗模式依赖于面对面交流和书面病历记录,这种方式直观但存在局限性,如医师工作负荷重、患者表达能力参差等问题,影响了诊断和治疗的效率和效果
[1-2]。近年来,大语言模型(large language models,LLMs)与数智人技术的发展为这些问题提供了新的解决方案
[3-4]。大语言模型能够理解和生成接近人类的语言文本,在医疗问诊中具有巨大的应用潜力
[5]。而数智人技术则能创建高度逼真的虚拟医师形象,通过与患者的互动提升其参与感和满意度
[6-7]。将两者结合可以开发出高效、准确且人性化的智能问诊系统
[8-9]。然而,实现这一目标仍面临多项挑战:一是医疗领域知识的专业性和复杂性对语言模型理解能力的要求
[10];二是设计高质量的医疗数智人需要在外观、语音、动作等多方面进行精细建模,并实现实时互动;三是如何有效融合多种模态的医疗数据并通过3D可视化技术展示给医师
[11-12];四是如何确保医疗数据的隐私和安全
[13-14]。
本研究提出一种综合大语言模型、数智人技术和3D可视化的智能问诊系统,旨在解决现有智能问诊系统中存在的信息采集准确性不足、人性化交互有待提高以及诊断效率需进一步提升的问题,从而为智慧医疗的发展提供更加有效的技术支持。
1 融合数智人与大模型的智能问诊助手构建方法
1.1 系统架构与交互流程
智能问诊系统是一个能够支持全流程智能化问诊的医疗辅助工具,系统整体架构分为3个主要模块——患者端、服务器端和医师端。各模块功能明确、相互协作,通过复杂的交互流程实现无缝连接,确保问诊的高效与准确。(1)患者端:患者通过文本或语音输入方式描述症状,智能助手通过自然语言处理技术可以实时解析患者输入,并生成初步的病情分析。(2)服务器端:该模块主要包括三个子系统,即医师形象数据库、结构化患者数据库和多模态大模型实例。三个模块可以共同支撑患者端和医师端的病情分析、病情展示等功能的实现。(3)医师端:医师可以查看系统为每位患者生成的诊断报告、历史健康数据和问诊记录。医师端还集成了远程医疗功能,支持医师通过视频或电话与患者进行直接沟通,进一步确认病情。见
图1。
整个系统通过各模块之间的高效数据流转和交互,实现了从患者输入到医师反馈的智能化诊疗闭环。在数据交互方面,系统设计了完善的数据交互接口,包括虚拟医师接口、大语言模型接口、3D模型接口以及大模型诊断接口等。这些接口支持了医师端、患者端与服务器端之间的数据交换。见
图2。
患者端需要支撑当前大模型和数智人在问题回复和指令推理时的业务场景。从硬件层面上看,在服务器运行患者端业务场景时,患者端需要一个能够联网的电脑。服务端则需要支撑大语言模型的推理和数智人实时渲染的工作,并返回给患者端,需使用具备至少24核处理器,128 GB内存,2 TB以上的存储,以及算力在28.3 TFLOPS、存储器容量在24 GB以上的计算卡。
1.2 数字建模与语音合成
1.2.1 医师数字建模
医师数字建模通过外貌、语音和动作的模仿,打造高拟真虚拟医师,提升问诊体验。主要步骤包括数据采集、几何建模、语音合成与动作捕捉。(1)数据采集需获取医师全方位信息,采用标准化流程和设备,如3D扫描仪和麦克风阵列,确保数据质量。(2)几何建模融合多源数据,构建三维模型,还原医师容貌和着装细节。(3)语音建模通过深度学习克隆医师声音,简化语音合成过程。(4)动作建模使用光学设备记录医师动作,获取骨骼运动数据。
综合这些技术,虚拟医师助理可承担科普、答疑等任务,提升医疗服务效率。随着AI和VR技术进步,医师数字建模将成为智慧医疗的重要组成部分。
1.2.2 通用人体建模
智能问诊系统的医师端通过结合通用人体建模技术和三维可视化技术,创建了一个多尺度、语义化的三维人体模型,实现了对患者症状的直观映射。系统的核心在于精确的数据解析和信息的可视化呈现,使症状能够实时准确地映射到相关解剖部位,并通过颜色编码展示疾病的分布和严重程度。
(1)在构建多层次三维模型时,采用拓扑解剖法,利用CT、MRI等医学影像技术进行高精度重建,生成多边形网格模型,并对人体进行多尺度分解。特别在复杂区域如腹腔、胸腔内,系统执行器官间的碰撞检测以确保空间关系的准确性。此外,模型注重器官的几何结构和纹理特征,提升真实性和细节表达。
(2)系统引入了解剖学本体库与语义标注,使用标准解剖学术语对每个器官和部位进行命名和标注,记录其名称、位置、结构及生理功能。这种结构化、语义化的表示方式增强了模型对人体器官信息的分类、检索和推理能力,提升诊断的知识深度和广度。
(3)采用大语言模型解析患者的症状描述,提取症状部位、表现形式和严重程度等信息,经过细粒度标注后与解剖本体库匹配。如“胸痛”关联至“心脏区域”,“腹泻”对应至“肠道区域”。这些信息通过映射算法呈现在三维人体模型上,用颜色编码展示症状的严重程度,帮助医师直观了解病变的分布情况。
(4)系统采用模块化、微服务架构设计,各模块通过API进行数据交互,使得模型更新和功能扩展更加灵活,能快速适应不同临床场景的数据采集需求。数据处理流程从语音转化为文本开始,经过自然语言处理将症状信息结构化,再通过命名实体识别确定关键信息,并结合依存句法分析明确语义关系,最后与解剖本体库中的知识匹配,确保数据映射的准确性。
(5)三维可视化呈现方面,系统利用实时渲染技术生成可交互的三维人体模型,允许医师通过旋转、缩放等方式查看病变部位的空间位置关系,并提供局部放大图、切面图等辅助资料。颜色编码用于直观展示病变的严重程度,同时支持查看详细病理组织图等信息,有助于医师快速、精准地判断病情并作出决策。通过这些技术创新,智能问诊系统显著提升了医师对病情的理解和判断能力,推动了智慧医疗的发展。
1.3 大语言模型与数据处理
1.3.1 大语言模型应用与技术创新
智能问诊系统利用基于Transformer技术的多模态大模型作为核心技术,实现了对自然语言信息的高效处理和理解,特别在精准语义理解、信息抽取及多模态数据整合方面表现突出。通过QKV和自注意力机制,实现多模态数据的向量化对齐,使多模态大模型能够处理复杂的患者描述,提取关键医学信息以支持诊断。
(1)基于RAG及提示词工程的医学实体抽取。在语义理解和信息抽取方面,大语言模型通过自身的语义理解能力,有效捕捉患者的症状、病史等核心信息。例如,基于Decoder编码的预训练和微调技术,较基于BERT架构完形填空模型,更容易使模型能深入理解医学术语,并适应特定场景。同时通过构建RAG知识库,打造基于医学实体抽取的样例仓库,并通过提示词工程技术,使大模型基于医学实体抽取样例实现精确标注患者描述中的医学实体(如症状、药品),并通过依存句法分析揭示这些实体间的语义关系,构建病情图谱,为诊断提供支持。
(2)基于医疗多模态大模型的医学多模态数据融合。在现代医疗环境中,患者的数据来源日益多样化,包括但不限于文本病历、影像资料(如X线片、CT扫描)、生理信号(如心电图、脑电图)和基因信息等。这些不同形式的数据共同构成了医学多模态数据,而对于多模态数据融合,现代智能问诊系统结合了计算机视觉技术来分析医学影像,与文本信息对比,提升诊断准确性。系统还采用特征层和语义层融合策略,将文本、影像、检验报告等数据在同一语义空间中整合,生成统一诊断信息。
(3)基于思维链及多智能体技术的辅助诊断。在基于思维链及多智能体技术的辅助诊断系统的开发过程中,我们首先致力于数据预处理与特征工程。从医院信息系统(hospital information system,HIS)和电子健康记录(electronic health records,EHRs)中收集结构化和非结构化的患者信息,并通过一系列的数据清洗步骤去除冗余、不完整或错误的数据条目,以确保后续分析的数据质量。利用自然语言处理(natural language processing,NLP)、计算机视觉等先进技术,我们将原始的文本和影像数据转化为可供机器学习算法使用的特征向量。为了模拟医师的实际思考过程,我们设计了一套逻辑严密的思维链条,其中每个节点对应于诊断流程中的一个关键任务,如症状识别、风险评估等。这些节点间的依赖关系由条件概率图建模,以便于捕捉不同诊断步骤之间的内在联系。此外,系统还具备动态调整机制,能够依据输入数据的特点实时优化思维链条,以适应不同的诊断需求。
在此基础上,我们采用了多智能体技术,为病理学、影像学等不同医学领域设立专门的智能体。各个智能体之间通过标准化的消息传递接口进行通信,实现信息共享与协同工作。最后由决策融合模块负责整合所有参与智能体的意见,运用加权平均或其他组合规则形成最终的诊断结论。人机协作界面的设计不仅提供了直观易用的操作面板,允许医师轻松上传病历资料并查看诊断建议,还特别强调了可解释性,确保输出结果附带详细的推理过程,从而增强医师对系统输出的信任度。
为了实现精确诊断和推理优化,系统还引入强化学习机制和快速推理引擎。DPO/OPO等强化学习技术让多模态大模型吸收新的临床经验实现人类经验对齐,而推理引擎通过分布式计算资源,在高压场景下实现实时数据处理和推理,确保从数据采集到诊断建议输出的延迟最低。这种方法不仅提升了诊断效率,也增强了系统的适应性和准确性,为医疗领域提供了强有力的支持。
1.3.2 数据处理流程与技术保障
智能问诊系统依赖于一系列复杂的数据处理步骤来提供高质量的诊断建议,涉及从多渠道整合患者的主观与客观医学信息到最终生成诊断建议。
在数据采集阶段,系统利用基于Transformer架构的BERT模型,将患者提供的症状描述转化为结构化数据。同时通过API接口直接从医院信息系统获取影像、检验报告等资料,确保全面性和准确性。
数据清洗与标准化过程包括拼写纠错、断句及术语对齐等基础操作,还运用了深度学习算法进行同义词消歧,如通过Word2Vec或GloVe模型构建语义相似度矩阵,确保信息的一致性。此外,系统还应用了基于大模型及提示词工程的实体识别和关系抽取技术,自动识别并标注文本中的关键医学术语,并将其映射到标准医学本体(如SNOMED CT),以规范语言表达。
进入数据标注与深度学习训练阶段,由医学专业人士对大规模语料库进行标注,标记出文本中的关键信息,如症状、药物和病理信息,并揭示实体间的语义关系。在此过程中,我们采用了一种基于主动学习的方法,即通过不确定性采样选择最有利于模型提升的样本进行标注。随后,这些标注好的数据被用于微调预训练的大规模语言模型,如RoBERTa或Electra,特别针对医学领域的特点进行了优化,以增强其在医疗文本理解方面的能力。
最后,在多模态数据融合环节,系统通过特征层和语义层融合技术,结合来自文本、影像(如X线检查、CT扫描)和检验报告等多种数据源的信息,生成联合特征表示。对于图像数据,采用了卷积神经网络,如ResNet或DenseNet,提取深层特征;而对于文本数据,则继续利用前述提到的Transformer架构模型。两种类型的特征通过注意力机制进行交互,以实现跨模态信息的有效结合与对齐。这种融合方式基于统一的语义框架,提供了更准确、连贯的诊断建议。
1.4 医师端交互与反馈
医师在诊疗活动中扮演着核心角色,其专业视角和临床经验对疾病诊断至关重要。智能问诊系统为此设计了一套交互反馈机制,以实现人机协同工作,充分发挥双方优势。
该系统通过3D人体模型展示智能诊断结果,将患者的症状、体征等信息映射到相应器官部位,并以颜色深浅表示病变严重程度。医师可通过直观的交互操作(如旋转、剖切)深入观察病情。这种可视化方式有助于医师快速理解患者的整体状况,识别病因及发病机制。对于智能诊断中不确定的部分,系统会标记为待定并提示需要进一步检查的项目,医师则可根据自身经验调整诊断结果,补充遗漏的信息或添加详细批注,这些反馈会实时更新到系统的推理引擎中,动态调整诊断概率分布。
此外,系统的设计充分考虑了医师的工作习惯和流程,提供了快捷病历查阅、灵活的诊断录入、智能化医嘱开具辅助以及诊后随访提醒等功能,旨在减少医师的重复性劳动,让他们能更专注于与患者的沟通和个性化治疗方案的制定。
医师的反馈不仅是优化智能诊断模型的关键,还能增强诊断的可解释性。通过对智能诊断报告进行评价,医师可以帮助系统更好地理解哪些信息是关键,从而生成更加清晰、逻辑严密且有证据支持的诊断报告。这不仅促进了医师对智能诊断的理解和信任,也有助于提升医患之间的沟通效率。
最后,随着医师反馈数据的积累,系统能够获取大量真实世界的医疗数据,这对于研究疾病的流行病学特征、药物疗效以及诊疗方案的效果具有重要意义。这些数据不仅能用于改进智能诊断模型,也为循证医学研究和精准医疗的发展提供了宝贵资源。通过这种方式,智能问诊系统不仅提高了诊断的准确性,还促进了医学知识的进步和技术的发展。
2 应用流程
为了实现智能问诊功能,首先在患者端界面上调用并渲染医师数据库中的数据,展示一个高度逼真的虚拟医师形象。这个虚拟医师不仅具有逼真的外貌,还通过语音和习惯性动作模拟实际医师,使患者能够通过对话框、按钮等交互元素与虚拟医师互动。
2.1 患者端交互
患者端的设计使得患者可以通过自然语言与虚拟医师进行互动。系统使用了大语言模型和自然语言处理技术,如分词、词性标注和命名实体识别,来解析患者描述的症状和病史。系统将这些描述转化为结构化数据,并与数据库中的医疗知识进行匹配,找出与症状相关的疾病和药物。
例如,当患者报告“持续性头痛和恶心”时,系统会将“头痛”和“恶心”作为关键词,通过分词处理、词性标注识别这些是症状,然后通过命名实体识别技术确定这些症状的潜在病因和相关药物。系统在后台进行匹配,将患者的描述与数据库中的知识对比,生成可能的诊断结果。
2.2 服务器端处理
在服务器端,系统首先负责存储和渲染虚拟医师的形象,并通过运行大语言模型算法来实现与患者的问诊交互。此外,系统还处理并存储患者的检验检查数据、诊断数据以及从患者端传输的问诊数据,将其转化为结构化数据,包括症状描述、病史信息和初步诊断结果。为了确保虚拟医师的高度逼真,医院现有医师的数字建模也被纳入其中,涵盖医师的形象、语音和习惯性动作等,这些数字模型是通过扫描医师的面部特征、录制其声音和捕捉其动作创建的,并存储在服务器的数据库中。
对于模型的训练和推理过程,服务器端利用广泛的医学知识库资源和丰富的实际病例数据来训练模型,使其能够学习到疾病诊断和治疗方案推荐等多方面的医学智慧。在推理过程中,除了应用已训练好的模型进行初步的疾病诊断或治疗建议外,还结合了依赖于医学知识库的专家系统进行综合判断。这一步骤引入了人类专家在复杂医学情境下的决策逻辑和临床经验,对模型输出的初步结果进行校验、补充或修正,从而确保了最终诊断和治疗建议的准确性和可靠性。这种方法不仅提高了医疗服务的效率,也提升了医疗质量。
2.3 医师端展示与交互
医师端采用通用人体建模技术,将人体3D模型分为皮肤、肌肉、血管、神经、骨骼等多个层次展示在界面上,见
图3。通过调用大语言模型解析后的患者描述,系统能够快速将不同症状标注在3D模型上,并根据症状的严重程度进行颜色标注。这种直观的3D可视化展示,使医师能够更清晰地看到患者的健康状况,迅速定位问题区域,并根据系统提供的初步诊断提出详细的治疗建议。医师可以通过与3D模型的交互,对症状标注进行修改和确认,以确保诊断的准确性,见
图4。
2.4 系统反馈与优化
系统最终输出一个建议的诊疗方案供医师确认。医师的反馈被记录并用于微调大语言模型的参数,以提高系统的精准度和个性化程度。通过这种反馈机制,系统能够不断优化大语言模型,调整其权重和参数,从而提升问诊效果。
这种持续的反馈和优化机制,确保了智能问诊助手能够在实际应用中不断学习和进步,提供更准确和个性化的医疗服务。系统还会根据最新的医学研究和临床实践,更新医疗知识库,确保诊断建议的科学性和前沿性。
3 结语
本研究构建了一种综合大语言模型、数智人技术和3D可视化的智能问诊系统,包括患者端、服务器端和医师端三大模块。患者端利用数智人收集信息,服务器端使用训练有素的大语言模型处理信息并给出初步诊断,医师端通过3D人体模型呈现病情供最终诊断。此外,还设有反馈机制以优化系统性能。尽管目前基于大语言模型和数智人的智能问诊助手已取得显著进展,但在应对复杂病情、多源数据整合、诊断准确性及个性化需求方面仍有改进空间。同时,交互式可视化工具的应用也在帮助医师更快速地识别疾病模式,但其在精确整合多源数据和提升交互效果上还需进一步探索。
与现有智能问诊系统,如与IBM Watsonx
[15]相比,本文提出的智能问诊系统在技术和应用上具有优势。Watsonx主要通过自然语言处理和知识库提供诊断建议,擅长文本分析和规则推理,但在多模态数据支持和交互体验上存在局限。本文系统结合了大语言模型、数智人技术和3D可视化工具,能够通过数智人实现自然交互,收集更丰富的患者信息,并通过3D模型直观展示病情,提升诊断效率和准确性。
智能问诊助手的研究和应用前景广阔,通过大语言模型和数智人的结合,能够在提升医疗服务质量、改善患者体验方面发挥重要作用
[16-17]。未来,智能问诊助手的发展将依赖于多方面的技术进步和整合。如通过引入更先进的深度学习模型和更强大的计算资源,进一步提高诊断的准确性和效率
[18]。此外,通过用户研究,了解患者和医师的实际需求,不断优化数智人的设计和功能,提升其交互体验
[19]。同时,数据保护技术的进步将更好地保障患者隐私,增加智能问诊助手的可信度和普及度
[20-21]。未来,本文系统可通过引入更先进的深度学习模型和计算资源,进一步提升诊断能力,同时结合用户研究和数据保护技术,优化交互体验和隐私保护机制。