区域健康医疗大数据汇聚、存储、安全共享机制研究

陈大鹏 ,  庄严 ,  张军雁 ,  何昆仑

解放军医学院学报 ›› 2025, Vol. 46 ›› Issue (01) : 89 -95.

PDF (3479KB)
解放军医学院学报 ›› 2025, Vol. 46 ›› Issue (01) : 89 -95. DOI: 10.12435/j.issn.2095-5227.24070109
数智医学专题

区域健康医疗大数据汇聚、存储、安全共享机制研究

作者信息 +

Mechanisms for aggregation, storage, secure sharing of regional health and medical big data

Author information +
文章历史 +
PDF (3562K)

摘要

背景 随着云计算、大数据、人工智能技术的发展应用,医疗数据来源逐渐增多,但海量数据资源难以得到有效利用。 目的 建立区域健康医疗大数据平台,通过数据汇聚、存储、安全共享机制,解决跨机构数据安全共享的难题。 方法 将区域健康医疗大数据按照数据目录进行治理、汇聚、存储,构建多源多模态异构数据模型进行数据融合,利用区块链机制进行数据安全共享。 结果 制定了区域健康医疗大数据目录和标准规范,设计了多源多模态异构数据模型及医疗大数据共享安全保障机制,建立了统一的区域健康医疗大数据平台。 结论 实现了区域医院间的数据集成,奠定了多源多模态异构数据的融合应用基础,为医护人员的科研工作提供数据共享服务。

Abstract

Background With the development and application of cloud computing, big data, and artificial intelligence technologies, the sources of medical data are gradually increasing. However, massive data resources are difficult to be effectively utilized. Objective To establish a regional health medical big data platform, so as to solve the problem of cross institutional data security sharing through data aggregation, storage, and security sharing mechanisms. Methods The regional health and medical big data were managed, aggregated and stored to construct a multi-source and multi-modal heterogeneous data model for data fusion, and the blockchain mechanism was applied for data security sharing. Results The regional health and medical big data catalog and standard specifications were formulated, the multi-source and multi-modal heterogeneous data model and the medical big data sharing security mechanism were designed, and a unified regional health and medical big data platform was established. Conclusion The implementation achieves data integration among regional hospitals, laying the foundation for the fusion and application of multi-source, multi-modal, and heterogeneous data. This provides data sharing services for the research work of healthcare professionals.

Graphical abstract

关键词

区域健康 / 医疗大数据 / 区块链 / 数据汇聚 / 安全共享

Key words

regional health / medical big data / blockchain / data aggregation / security sharing

引用本文

引用格式 ▾
陈大鹏,庄严,张军雁,何昆仑. 区域健康医疗大数据汇聚、存储、安全共享机制研究[J]. 解放军医学院学报, 2025, 46(01): 89-95 DOI:10.12435/j.issn.2095-5227.24070109

登录浏览全文

4963

注册一个新账户 忘记密码

随着信息技术在医院的推广和应用,信息系统已经成为支撑现代医院有效运转的基础设施。医院在接诊患者的过程中,医院信息系统(hospital information system,HIS)、实验室信息管理系统(laboratory information management system,LIS)、医学影像存档与通讯系统(picture archiving and communication systems,PACS)、电子病历系统(electronic medical record,EMR)等信息系统持续生产大量结构化、非结构化、影像化医疗数据[1-2]。这些多源、多模态、异构的医疗数据存储在不同医疗机构、不同业务系统,有巨大潜在应用价值。
2021年国家宣布推动大数据、人工智能等信息技术与医疗服务深度融合的战略目标,利用信息化技术促进区域医疗体系的互联互通、能力拓展、服务延伸、机构协同,规范医疗数据的标准化采集[3],建立区域健康医疗大数据平台,通过数据汇聚、存储、共享及安全机制解决医疗健康数据碎片和信息孤岛的问题[4]。本研究在制定区域健康医疗大数据目录和标准规范的基础上,设计多源多模态异构数据模型,并基于区块链技术,设计医疗大数据共享安全保障机制,建立统一的区域健康医疗大数据平台,为实现区域医院间数据集成、多源多模态异构数据融合应用奠定基础。

1 区域健康医疗大数据的现状分析

随着云计算、大数据、人工智能技术的发展应用,医疗数据来源逐渐增多,包括医院临床数据(如电子病历、手术记录、检查检验结果)、医疗物联网设备(包括呼吸机、监护仪、输液泵等)产生的连续生命体征监测类数据、影像数据、药品使用数据、基因组数据等,形成了多源多模态多维度的患者健康档案和医疗数据资源[5]。由于不同业务部门数据需求不同、系统厂商不同、各系统间缺乏统一接口、数据标准不统一等因素,形成众多数据孤岛、系统孤岛、网络孤岛,缺乏统一的标准规范和数据资源体系,使得医院各业务环节无法充分进行数据共享和业务协同,数据分析和智能应用难以充分利用海量医疗数据资源[6]

现有临床诊疗数据标准化建模大多参考快速健康互操作性资源(fast health interoperability resources,FHIR)[7]、开放电子健康记录(open electronic health record,OpenEHR)[8]或观察性健康数据科学与信息学(observational health data sciences and informatics,OHDSI)[9]等数据集成标准,基于患者诊疗全流程产生的多模态医疗数据,抽象出通用的诊疗模式和数据特征,设计模型的数据结构、数据操作和数据约束,从患者的角度出发建立覆盖医疗全生命周期的通用数据模型,实现医疗数据汇聚融合及动态映射。然而,这些标准缺乏语义一致性的保证[10],而且大部分工作是基于重症监护医学数据集(medical information mart for intensive care,MIMIC)等治理后的公开数据集,没有充分考虑真实世界临床数据的复杂性,并且未能融合物联网、影像及临床诊疗数据,无法充分发挥全息医疗数据的能力。

目前,医疗数据中心广泛采用加密技术来确保数据在传输和存储过程中的安全性,并通过访问控制机制确保只有授权的用户才能访问特定的数据集。同时,在保护患者隐私方面,去标识化(De-identification)是医疗数据平台的关键技术。随着医疗大数据的增长和医疗场景的多样化,患者对个人医疗隐私愈加重视,医疗数据的安全管理非常复杂,黑客攻击手段日益增多,传统系统中的数据易被篡改,难易追溯和恢复,容易导致严重信息错误和医疗事故[11]。同时医疗数据涉及多方参与,不同机构之间的数据共享和交换标准规范不一,医疗信息传递不畅,医疗服务的连续性和质量难以保障[12]

本研究聚焦区域医院系统之间的多源多模态数据采集和集成,建立区域健康医疗大数据建设标准规范[13-14];在统一标准的基础上,通过ETL工具对数据库、文件服务器等多源多模态异构数据进行抽取、转换、整合,建立统一的区域健康医疗大数据[15]平台。研究基于区块链的健康大数据汇聚、共享安全机制[16],利用区块链技术去中心化、安全可信、可追溯、不可篡改等特点,解决跨机构数据安全共享的难题,形成覆盖区域的健康医疗大数据资源。

2 研究设计

2.1 总体架构

区域健康医疗大数据平台总体架构见图1。医院通过前置机定时对院内HIS、LIS、PACS、EMR等信息系统进行采集,前置机上包含数据推送和接收服务,数据推送服务将区域前置机的数据下发到医院前置机,数据接收服务将医院前置机的数据上传到区域前置机。

区域前置机接收医院前置机的数据后,经过数据采集、前置暂存库,形成ODS数据库。在遵循和参考国家卫生计生委相关标准规范的基础上,制定健康医疗大数据标准规范,通过统一权限管理、服务授权管理、隐私安全管理、安全日志管理等提供数据安全机制,经过元数据管理、主数据管理、数据质量管理、患者主索引等数据治理后,形成区域健康医疗大数据中心。

在区域健康医疗大数据中心的基础上,数据服务开放平台向上提供患者诊疗服务、管理决策、运营监管、数据分析等应用和服务。数据服务开放平台提供数据服务配置、数据可视化配置、数据服务监控、高可用配置、指标体系、标签工厂、计算引擎、图像引擎等功能。见图1

2.2 主要内容

2.2.1 区域健康医疗大数据标准规范和资源目录

数据标准建设是确保数据质量和促进区域科研合作的重要手段。本研究旨在建立一套分层分类的数据资源体系框架,分层包括贴源层(operational data store,ODS)、领域层(data warehouse detail,DWD)和主题层(application data service layer,ADS);同时按照三级体系分类,一级为实体-活动-知识,各自继续分二、三级,其中活动按照业务域继续分类,覆盖区域健康医疗日常核心业务。然后,建设数据模型体系,设计相应库表结构,定义数据元及关联关系。数据元标准的制定涉及数据元分类、数据元命名规范、数据元格式和编码规范、数据元定义、约束及值域字典等。最后,数据治理按照各数据模型标准进行汇聚整合、治理和质控,实现数据标准和治理体系融合,形成区域健康医疗大数据资源目录。

2.2.2 区域多源多模态异构数据模型设计

区域健康医疗大数据平台从多级医疗机构收集来自于不同信息系统、具有不同形式和结构的数据,形成多源多模态异构数据集合。本研究将设计基于本体语义的统一数据框架,构建区域多源多模态异构医疗数据模型,统一规范、正确理解和利用来自不同来源、不同模态、不同结构的医疗数据;通过构建一套全面的元数据标准,将不同维度的数据关联在一起,把不同来源多种模态的数据转换为一种通用的表示形式,以消除数据间的差异性和不兼容性,便于数据存储、科研应用及临床使用。

2.2.3 区域健康医疗大数据共享安全保障机制

在健康医疗大数据资源目录、标准规范和通用模型的基础上,研究医院各个系统之间的多源异构的数据汇聚和存储,提出去中心化、安全可信、可追溯、不可篡改的健康大数据汇聚、共享安全机制,解决跨机构数据共享的难题。严格管理患者信息、用户资料、就诊记录等,形成以患者为维度的电子健康档案,满足对数据安全、隐私要求,解决跨机构数据汇聚、共享中的数据管理、安全、隐私、流转等关键技术问题,实现可持续优化的数据安全闭环管理流程,推动医疗数据的互联互通,为医疗大数据的分析应用奠定基础。

3 区域健康医疗大数据研究实践

3.1 区域健康医疗大数据标准规范建设

区域健康医疗大数据建设必须有标准化的支持,海量医疗数据采集、治理和利用,迫切需要构建一整套医疗大数据标准体系,以充分发挥大数据资源体系的导向作用,确保其技术上的协调一致和整体效能的实现。

3.1.1 建立分层分类的数据资源体系框架

(1)分层框架设计:本研究中的区域健康医疗大数据资源体系分为3层,分别为贴源数据、领域数据、主题数据。在不同业务板块遵循去中心化原则,保证数据体系建设有效融合,在同业务板块下遵循中心化的原则,来保证数据的一致性,见图2

贴源数据:在结构上与源系统的增量或全量数据基本保持一致。它既作为一个数据准备区,又负责记录基础数据及其历史变化。如电子病历库和健康档案的数据每天都会备份到数据平台,为未来的数据溯源做好准备。除了兼容数据仓库的字符集编码外,ODS层基本上不进行其他处理。

领域数据:主要作用是完成数据的汇聚整合和治理加工,建立一套面向应用且可复用的规范、标准和统一的数据。如人员基本信息作为一致的公共数据,供上层数据调用。

主题数据:这一层是根据业务需求和应用场景对数据进行进一步加工和汇总,使数据更加贴近实际业务,便于分析和决策。如医疗运营数据分析应用主题,存放面向特定主题应用的数据。

(2)分类框架设计:区域健康医疗大数据资源体系为三级分类体系,首先按照实体、活动、知识进行一级分类,实体下二级分类包括医疗机构、医疗对象、卫生人员、设备设施和卫生物资;活动下二级分类包括医疗诊疗、医疗康复、医疗体检、医学辅助检查、预约转诊、移动诊疗、远程医疗、急救转运、应急救治、安全保障、物联网、运营管理;知识下二级分类包括医学数据、医学模型、行业规范、法律法规。部分二级可细分为三级分类,见图3

3.1.2 建设数据模型体系

数据模型体系是平台数据标准的核心组成部分,按照维度建模理论分层建设,建设内容包括数据表设计、数据元标准、表间关联设计、分类与代码标准等,旨在为医疗机构的系统改造和业务流程重构提供技术指导,从而提高医疗机构的数据质量,提升大数据监管效能,为健康医疗大数据的汇聚提供基础支撑。

数据标准规范的研究与制定,在遵循相关国家标准、军队标准以及卫生信息行业标准基础上,采用实践经验与业务分析相结合的方法,一方面基于医疗大数据领域已有实践经验,自上而下定义数据模型、数据采集、数据质量等标准;另一方面采用业务流程分析法,对平台采集和治理的各业务系统数据源进行调研,调研内容主要包括各系统数据库的数据量、时间跨度、库表结构、表中关键字段的业务含义、表间主外键关联情况、值域定义等,自下而上分析提取各信息化系统中的数据模型和相应标准。通过标准规范研究,建立了统一的疾病诊断编码、临床医学术语、检查检验规范、药品应用编码、信息数据接口和传输协议等相关标准,促进区域健康医疗大数据产品的标准化和服务流程的规范化。

3.1.3 构建区域健康医疗大数据资源目录

在制定数据标准规范同时,建立跨机构的健康医疗大数据资源目录。健康医疗大数据不仅涉及医疗机构,还涵盖卫勤管理、防疫防控等多方面的数据,结合相关部门的业务系统及数据,根据区域健康医疗大数据的实际情况,制定了一套较全面、跨部门的健康医疗大数据资源目录和标准,包括资源目录、数据质量标准、数据采集标准、数据交换标准、数据全局术语、数据存储模型及安全标准等,旨在确保数据的统一管理和高效利用。

3.2 区域多源多模态异构数据汇聚整合治理

本研究在充分了解区域医疗机构目前的医疗数据格式前提下,制定相应数据标准,通过ETL的数据抽取、数据转换、数据加载和主题构建等技术,对各医疗机构内部不同信息系统中有价值的数据进行抽取,包括HIS、LIS、PACS、EMR等,数据加载技术则通过全量和增量加载两种方式确保历史数据和实时数据的高效入库。然后,对数据进行清洗、标准化、结构化等治理,清洗包括格式统一和异常值、错误数据和重复数据等,形成标准统一、高质量的健康医疗大数据。

对于多模态数据融合治理,本研究借鉴健康信息交换第七层协议(health level seven,HL7)、OHDSI数据模型、重症监护医学数据集(medical information mart for intensive care,MIMIC)等多模态通用数据模型,参考《WS/T 500.1-2016电子病历共享文档规范》,通过扩展模型的实体和属性,融合多源多模态数据,构建通用医学数据模型,见图4。具体而言,本研究首先设计统一本体语义框架,采用图结构来表示临床数据、医学事件、权威知识及其之间的关系,称为医学事实图谱。具体来说,将医学事件定义为节点,并利用结构化表单或者病历文书抽取事件属性,将事件之间的关联关系定义为边,影像地址保存为URL,并与相应d检查事件关联。构建区域健康医疗大数据的多源多模态医学事实图谱需解决一系列问题。

3.3 实现基于区块链的数据安全共享

区域健康医疗大数据平台的建立基于区块链的可信共享互认机制,医院通过区块链上传共享医疗数据,患者在其他医院就诊时,平台根据患者情况提供数据调用提醒、开立检查检验校验、互认报告信息查询、报告详情展示及互认结果引用等功能。区块链可以保证其他医院报告的真实性,互认行为上链留痕,具有不可否认性,事后可基于链上存证、留痕数据进行追溯和监管。

3.3.1 基于区块链的数据共享流程

系统工作流程见图5,包括数据准备与加密、索引生成、数据存证、数据获取、数据取证、数据验证等主要功能。基于区块链的数据安全共享过程[17],结合本业务实际场景,主要包括以下几方面。(1)数据准备与加密:区域医疗大数据平台采集各医院数据,对医疗数据进行加密处理;(2)索引生成:为了方便数据检索,区域医疗大数据平台为每份医疗数据生成索引信息,包括数据存储地址、数据类型、时间戳、患者ID等;(3)数据存证:将医疗数据的哈希值及索引信息打包成一个交易,这个交易将作为区块的一部分被记录在区块链上,并得到节点的共识,将永久记录无法篡改;(4)数据获取:数据需求者发起调阅请求,数据共享服务平台完成权限验证后,通过大数据平台获取实际数据;(5)数据取证与验证:数据共享服务平台通过数据索引从区块链获取存证哈希值,与实数据的哈希值比对验证数据真伪,校验通过后返回数据。

3.3.2 区块链的加密及共识算法

本系统中采用SHA-256加密算法,其原理是通过一系列复杂的非线性操作,将任意长度的输入数据转换为固定长度为256位的哈希值。共识算法是区块链技术的基础和核心,保障节点账本数据的一致性,本系统中采用实用拜占庭容错算法(practical Byzantine fault tolerance,PBFT),包括预准备(pre-prepare)、准备(prepare)和提交(commit)阶段。这种分阶段的方法将复杂的共识过程分解为几个相对简单的步骤,每个步骤都有明确的目标和验证机制,从而降低了算法的整体复杂度。见图6

3.3.3 区块链的智能合约

智能合约(Smart Contract)是运行在区块链平台上的、用计算机语言取代法律语言记录条款的、满足一定规则自动触发的计算机程序。本系统采用Solidity智能合约,可在编译阶段捕获类型错误,减少运行时错误的发生,从而提高合约的健壮性和执行效率。开发者在编写Solidity智能合约时,可以采用一些优化技巧来提高性能,如减少不必要的状态变量读写、避免复杂的循环和递归调用、使用内联汇编等。这些技巧可以在不改变合约逻辑的前提下,降低合约的执行成本和提高执行效率。

3.3.4 区块链在数据确权及交易监管等方面的优势

基于区块链的数据确权主要在数据产生时,对数据进行存证,以保证数据源的真实性和数据的归属权。可根据国家“数据二十条”要求,确定健康医疗数据权属。此外,可为参与数据共享的各个数据供应方发放唯一的可信数据身份账户,作为其身份验证信息,为参与数据共享流通的资产颁发唯一的数据资产凭证,基于区块链的分布式账本实现数据供应方数字账户与数据资产的关联存证,实现数据的可信、合规共享。

3.3.5 基于区块链数据共享的成果

基于区块链的数据共享,从技术上保证了数据不可被篡改,并使得数据共享更为简便,跨地区结果互认应用有效满足了患者的互认意愿,减少了重复做检查的次数,降低医疗成本,提高了资源使用效率,据统计,仅浙江省就有436项检查检验项目实现了互认,累计互认数量超过3 000万项次,直接节约医疗费用超过了11亿元,总体上实现了医院利益不受损,医师收入不降低,设备耗材少使用,医保基金和群众看病少支出。区块链的数据安全共享机制,为本研究提供了可行的安全保密方案,进一步扩展了数据安全共享、可靠互认、可信存证、可追溯性等方面的应用。

4 小结

本研究通过区域多模态健康医疗大数据汇聚、存储、共享安全机制的研究,基于区块链实现区域医院间的数据集成,形成去中心化、安全共享的区域健康医疗大数据平台。相较于同类型区域健康医疗大数据平台建设情况[18-21],本研究优势在于利用传统ETL汇聚抽取与医学事实图谱构建相结合的方式对多模态数据进行融合治理,支撑健康医疗大数据相关应用,为医师的科研分析提供数据共享服务;另外,推进区块链技术与健康医疗领域相结合,建设基于区块链技术的数据共享隐私安全保护体系,利用区块链的数字签名、不可篡改、可追溯、去中心化等特点,实现了去中心化、数据保护目标。

参考文献

[1]

汪鹏,吴昊,罗阳,. 医疗大数据应用需求分析与平台建设构想[J]. 中国医院管理201535(6):40-42.

[2]

蒋义,应俊,薛万国,. 综合性医院医疗大数据创新体系建设与实践[J]. 解放军医学院学报201940(8):709-712.

[3]

王觅也,郑涛,李楠,. 医疗大数据集成及应用平台体系构建[J]. 医学信息学杂志201940(8):37-42.

[4]

吴文昊,李占强,席现国,. 数据安全闭环管理在国家健康医疗大数据中心(北方)的实践[J]. 中国数字医学202116(7):13-17.

[5]

罗辉,薛万国,乔屾. 大数据环境下医院科研专病数据库建设[J]. 解放军医学院学报201940(8):713-718.

[6]

薛万国,应俊. 大数据时代的医学创新与现实挑战[J]. 解放军医学院学报201940(8):705-708.

[7]

Ayaz MPasha MFAlzahrani MYet al. The fast health interoperability resources (FHIR) standard:systematic literature review of implementations,applications,challenges and opportunities[J]. JMIR Med Inform20219(7):e21929.

[8]

Min LTTian QLu XDet al. Modeling EHR with the openEHR approach:an exploratory study in China[J]. BMC Med Inform Decis Mak201818:75.

[9]

Hripcsak GDuke JDShah NHet al. Observational health data sciences and informatics (OHDSI):opportunities for observational researchers[J]. Stud Health Technol Inform2015216:574-578.

[10]

李跃艳,王昊,邓三鸿,. 面向事件本体的医学文本语义关联化研究[J]. 情报学报202241(5):497-511.

[11]

张晓旭. 医院档案管理与区块链技术的融合研究[J]. 中国科技纵横2024(4):52-54.

[12]

王甜宇,张柯欣. 基于联盟链的区域医疗健康数据安全共享研究[J]. 医学信息学杂志202243(2):57-61.

[13]

王安然,吴思竹,刘盛宇,. 面向FAIR数据共享的医学通用数据模型比较研究[J]. 中华流行病学杂志202344(5):828-836.

[14]

张弘政,刘迷迷,李琳,. 基于通用数据模型的健康医疗大数据平台数据治理研究[J]. 医学信息学杂志202243(6):2-7.

[15]

张世红,李磊,史森. 区域健康医疗大数据中心体制机制研究[J]. 医学信息学杂志202041(5):43-48.

[16]

朱春伦,唐玲,邵维君,. 基于区块链的异地医疗信息共享试点项目实践[J]. 中国数字医学202419(1):29-33.

[17]

王晓丽,冯东雷,许德俊. 运用区块链构建互联网医疗可信安全机制研究[J]. 中国卫生信息管理杂志202219(4):482-487.

[18]

李伟,王士泉,于楠,. 区域健康医疗大数据平台解决方案策划与初步设计[J]. 医疗卫生装备201839(7):34-40.

[19]

苏学峰,王铁忠,赵波,. 临汾区域健康医疗大数据智能平台的建设与实践[J]. 中国信息化2022(1):82-85.

[20]

裴莹蕾,王娅. 构建区域医疗大数据治理体系的实践探索[J]. 卫生经济研究202239(4):71-74.

[21]

向波,郑代坤. 区域健康医疗大数据创新平台的设计[J]. 数字技术与应用2022(5):163-165.

基金资助

新一代人工智能国家科技重大专项(2021ZD0140408)

福建省自然科学基金(2020J01121068)

省部级课题

AI Summary AI Mindmap
PDF (3479KB)

0

访问

0

被引

详细

导航
相关文章

AI思维导图

/