黄新霆① 包小源② 俞国培② 焦杜娟①
①北大医疗信息技术有限公司
②北京大学医学信息学中心
摘 要 本文围绕医疗大数据时代的个性化医疗服务需要,研究大数据驱动的个性化医疗服务引擎的基本框架,提出了以群体数据过滤与推理引擎和基于本体的临床指南知识库为两大基础,研发整个平台的个性化诊疗核心服务引擎;根据数据集成引擎的实时个人诊疗数据,实现实时动态的个性化诊断及治疗方案生成与执行,将显著提高医疗服务的针对性,从而提高医疗服务的质量和效果,降低医疗服务成本,保障医疗服务安全。
关键词 医疗大数据 个性化医疗 服务引擎
1 背景
一直以来,医疗都处在工业化时代,以“专业化、标准化”为主要特征,其结果是造成大量医疗浪费,医疗费用的不断攀升,不良反应普遍存在;如今已经进入信息化时代,医院甚至院外的大量个人健康信息被收集保存,形成以个人为中心的完整健康信息库,使数据驱动个性化医疗成为可能。如今医疗数据快速增长,达PB级,传统的数据工具已经难以管理和处理海量的数据。在实现个性化诊疗及管理中,医疗大数据将发挥至关重要的作用。2012年,美国国家科学基金会(NSF)和美国国立卫生研究院(NIH)联合启动了“推动大数据科学与工程的核心技术”项目(BIGDATA),旨在促进可从大型、多样化、分布式异构数据集中提取、分析、可视化和管理有用信息的核心科学和技术方法的发展。2013年NIH开始实施“从大数据到知识”(BD2K)项目,将发展多种标准、工具、软件和其他方法来利用由健康和医疗研究领域所生成的大量数据。《颠覆医疗-大数据时代的个人健康革命》一书中指出,“随着传感技术、纳米技术等科技的发展,对‘人’的信息感知,已经打破了空间(从宏观影像到分子基因,从医院到家庭到随身)和时间(从离散监测到连续监测)的限制[1]。医学正在演化为全人全程的信息跟踪、预测预防和个性化治疗。而个性化医疗模式中,面对医疗海量数据的采集与存储、个性化医疗服务引擎,跨系统无缝对接等一系列的技术问题,其中个性化医疗服务引擎是其中的核心,本文将重点研究个性化医疗服务引擎的实现。
2 以患者为中心的个性化医疗
医疗卫生正在从以疾病为中心的医疗模式转变到以患者为中心的个性化医疗模式,当前基于个人基因的个性化诊疗是大家关注的热点,虽然基因信息能够给我们提供许多信息,并提示疾病风险,但研究表明,绝大部分的基因标记属于弱标记,并不是所有带有标记的人都会发展为疾病,因此相应的个性化医疗准确率很低。幸运的是,随着医疗信息化的发展,积累的大量医疗数据将驱动个性化医疗的实现,而不必等待基因医疗的成熟。本文中,我们将提出一种数据驱动的个性化诊疗基本框架。
以疾病为中心的医疗模式中,医生的决策依赖于自身的经验、来自于医疗设备的信息和检查的信息,而在以患者为中心的医疗模式中,患者将广泛地参与到医疗服务过程中,接受符合个人需要的针对性医疗服务,并监督医疗机构的服务,同时,该模式将包括疾病预防、疾病管理、治疗愈后预测等完整的过程。这个模式将基于大数据来支持个性化医疗服务,这些数据来自于个人医疗记录、监护信息、基因数据,及环境数据等。
在数据驱动的个性化诊疗面临的主要问题是:
1)临床标准不支持个性化医疗。虽然我国卫生计生委已经建立了一系列临床路径标准,并且一些大医院已在医院信息系统中建立临床路径和临床决策等支持系统,但由于这些临床路径标准主要是依据专家经验制定出来的,这些系统功能不完善,标准僵化,无法根据病人的个体特征数据、诊疗过程中产生的实时数据,指导实时个性化诊治和管理。
2)医疗数据整合不够。由于医疗健康领域的专业特点,不同疾病和不同健康管理需求的集成数据模式、过程性数据融合方法等都有非常大的差异,导致了面向分析应用的数据集成无法用传统的数据集成方法来完成,而且也难以准确、有效地提取满足分析需求的候选数据集,造成了目前医疗健康大数据应用的数据基础困境。
病人临床诊疗及其后果会受到很多因素包括个体的特征、既往疾病史、疾病状况以及诊治方案的影响,所以如何将个体特征数据,诊疗过程中产生的实时数据,以及循证医学的专家知识结晶(包括临床路径、临床指南、临床治疗规范等)等相关联,实时为不同病人个体生成对应的个性化诊疗计划是一件非常复杂和艰巨的任务。
3)疾病本身的复杂性。由于病人临床诊疗和健康管理及其预后会受到很多因素,包括个体的特征、既往疾病史、疾病状况、诊治方案等的影响,不同疾病由于其发病机理、治疗方法千差万别。如何将其诊疗关键点的知识、规则进行知识工程化,以实现在健康平台上进行统一数据、诊疗引擎支撑,针对个体差异智能选取各疾病诊断模型并以此为参照,实时集成个体数据,生成不同个体、不同疾病、不同节点的决策支持,是我们面临的又一个难题。
4)医疗大数据的难以分析。医疗大数据具有高维、大容量、高通量的特性,已有的统计分析、数据挖掘方法等成熟方法都是针对低通量、低容量、结果性数据,所以,面对医疗健康大数据的过程性特点,以及急剧增长的维度、记录数,如何扩展现有方法,提出新的统计分析、数据挖掘模型,已成为医疗健康大数据应用的技术难点。
5)打通群体数据与个体数据面临许多困难。单个个体数据本身就分布于不同的医疗机构,收集和整理非常困难,海量群体的数据的收集整理面临更大的困难,而从海量患者中,找到与当前患者相似的群体,从群体中找到规律来支撑个体的个性化医疗,具有很高的技术难度。
我公司已经建立了以CDR为核心的集成平台,并在国内多家三级医院得到成功应用,患者的实时数据整合具有了较好的基础,
3 数据驱动的个性化医疗服务引擎设计
针对以上问题,本文创新性地提出了一套数据驱动的个性化医疗服务基本框架:以所选取的重点疾病为焦点,自上而下,进行群体相似数据协同过滤出最优子集,中文临床指南形式化、流程化以及计算机可执行引擎研发等研究及技术难点;以群体数据过滤与推进引擎和基于本体和大数据的个性化诊疗知识库为两大基础,研发整个平台的个性化诊疗核心服务引擎;以数据集成引擎的输入数据为基础,实现基于实时诊疗数据的个性化诊断及治疗方案生成与执行。
个性化诊疗服务基本框架如下:
具体步骤如下:
3.1数据准备 由于医疗健康领域的专业特点,既有院内数据,也有院外数据,既有医疗数据,也有健康数据,不同疾病需求的集成数据模式、过程性数据融合方法等都有非常大的差异,导致了个人数据无法直接用于个性化诊疗过程中;本部分制定切实可行的标准及元标准,实现各诊疗过程所需数据的数据项、术语标准化、流程标准化,以XML数据表示标准为基础,实现面向个性化诊疗的过程性数据集成方法、流程、算法,实现医疗健康大数据由粗数据集到精细化可分析利用数据的过渡,使个人完整数据能支撑个性化医疗。
3.2基于群体数据的过滤与推理引擎
3.2.1相似性约束定义 相似性约束的定义主要基于两者有相同的疾病、症状、家族史、检验结果、居住地等信息。当一个患者来访,首先通过相似性约束从医院已有的群体数据中得到和本患者相似的粗数据集。
3.2.2协同过滤器计算 将上述步骤得到的粗数据集通过协同过滤器中的逆频率和向量相似度计算,得到最优匹配的相似子集。逆频率指一个患者中某些症状和检查检验结果等术语出现的频率很高,而在其他患者很少出现,则可将出现这类术语的患者归入某一类,而在此基础上,用向量相似度来计算群体患者的相似程度,从而找出与患者最相似的患者,找出最优匹配的相似子集。
3.2.3相似患者最优化子集推理,通过计算相似患者最优化子集数据,可生成患者的个性化医疗指导建议,包括疾病风险、最佳治疗方案、愈后评估等。
3.3 基于本体和大数据的个性化诊疗知识库
3.3.1基于本体的临床指南知识库 近年来,国家制定了许多临床路径、临床指南、临床规范、药品知识库等标准,但这些标准是静态的、可执行性差、无适应个性化医疗的能力,而利用Protégé本体工具,构建语义化的时序化的个性化诊疗知识库[2],用于支持生成符合病人要求的诊疗计划。
3.3.2基于大数据的临床知识库,传统的临床知识库,更新慢,个性化能力弱,针对这些弱点,在上面制定的基于本体的临床指南知识库的基础上,通过利用前期形成的海量群体数据,过滤出能支撑个性化医疗的临床指南知识库各类指标,从而为后期临床个性化医疗提供必要条件。
3.3.3实时动态的个性化医疗计划生成与执行引擎 应用前面的两个基础(基于群体数据的过滤与推理引擎和基于本体和大数据的个性化医疗知识库),与前面引入的标准化个人数据相结合,建立可视化动态的时序化个性化医疗计划生成与执行引擎,并且,由于患者的病情是随时变化的,因此需引入患者实时数据,在执行过程中,引擎要随时根据患者实时数据来个性化地调整医疗计划。
4 结论
本文提出的个性化诊疗方法将基于大数据的群体患者数据引入到个性化诊疗中,并与临床指南相结合,形成大数据与临床指南的相互循环,打破了传统医疗模式的限制。个性化诊疗服务引擎的实现,将成为提供基于数据驱动的个性化诊疗的基础,将能早期预警疾病风险,提供以患者为中心的个性化医疗方案,降低再次入院率。本文成果在国内某大型医院试用,以CDR为基础,用于支持高血压、糖尿病、肿瘤等个性化诊疗,取得了显著效果。
未来,随着医疗卫生信息化的不断深入,个性化医疗服务模式将可能完全取代以往的经验医学模式,新医疗服务模式将充分体现“数据驱动、个性化、预约性、流程集成、协同服务、效果驱动”的显著特点,发展基因测序、个性化药物、个人健康管理等多方面医疗个性化服务[3],将显著提高医疗服务的质量和效果,降低医疗服务成本、保障患者安全。在个性化医疗的实际应用中,还需要解决电子病历内容的全结构化、语义标准化,医疗大数据存储与并行处理、医疗服务的无缝高效对接等问题,随着技术的不断进步,在不久的将来,这些问题都将得到解决,个性化医疗将很快来临。
参考文献
[1]埃里克·托普 (Eric Topol). 颠覆医疗:大数据时代的个人健康革命[C], 电子工业出版社,2013
[2]郑西川; 谭申生; 于广军. 医学本体临床路径知识库建设方法学研究[J] ,医疗卫生装备,2012(02)
[3]许德泉,杨慧清. 大数据在医疗个性化服务中的应用[J]. 中国卫生信息管理杂志,2013,10(4):301-304