首页
关于我们
解决方案
运维服务
招聘信息
-
返回
行业博览
基于规则库的电子病历信息抽取研究
苏韶生① 杨勇① 程敏婷① 张淑娟①
基金项目: 2014 年度中山市医学科研项目(编号2014A020155)
①广东省中山市人民医院,528403,广东省中山市孙文中路2 号
摘 要
电子病历包含病人丰富的诊疗信息,信息价值高,如何快速抽取出电子病历中用户感兴趣的数据,为临床决策、科研提供数据支持是当前电子病历数据利用的重要课题。本文介绍一种电子病历信息抽取工具,定义规则并建立规则库,构建疾病实体关系,实现电子病历信息抽取。
关键词
信息抽取 电子病历 信息利用
1 前言
随着信息技术在医院中发展应用,电子病历已基本能实现病历内容电子化录入、传输和存储,但病历数据利用却发展相对滞后,因为电子病历录入与利用是相互制约的,一方面结构化病历录入方式无法实现临床信息完整表示,另一方面,半结构化病历录入也无法满足病历数据分析所需要的数据要求[1],计算机无法识别并处理自然语言的电子病历文本,这给从电子病历数据分析造成很大的困难。
如何在不影响电子病历录入的前提下,实现快捷准确地抽取出用户感兴趣的内容,并形成结构化文档表示,是一个迫切需要解决的问题,这也将为临床决策支持、临床科研、病种管理、流行病学研究等方面提供数据支持,进一步改善医疗质量和提高医院管理水平。
2 相关技术分析
信息提取技术可以根据预先定义的模版,从文本中提取出特定的信息并形成结构化数据,以帮助人们对信息内容进行整理和分析[2]。信息抽取目前的主要研究方向是命名实体识别、实体关系抽取。实体是指现实世界中存在的特定的事实信息[3],如:疾病、症状、时间等。
命名实体识别是指识别文本中具有特定意义的实体,它在信息抽取中起着关键性的作用。而某一时间段内命名实体之间存在的关系就是实体关系。美国国家标准技术研究院把实体关系分为七种,包括:局部整体关系、地理位置关系、类属关系、转喻关系、制造使用关系、组织结构从属关系和人物关系[4]。
电子病历信息抽取工具包括两个重要功能,一是从电子病历文本中抽取实体,二是确定实体之间相互存在的关系。本文提出的方法是运用电子病历信息抽取工具,首先分析电子病历信息的数据类型以及表达结果信息的句式特点,其次根据这些信息建立大量的匹配规则来对电子病历命名实体进行识别,然后根据疾病诊断建立疾病实体关系抽取信息,对抽取出的结果句子进行信息规范化、信息合并、信息包含等处理。最后以结构化的形式把最终结果显示出来。
3 电子病历信息抽取工具功能
3.1 规则维护
根据电子病历中常用的医学术语构建规则库(规则集合),规则库的分类参考病历内容结构分类,比如病程记录、病案首页等,见图1,以树形目录结构分类,逐级细分,最底层为命名实体,构建规则库的过程实际上也是命名实体识别过程,实体包括医学术语库的内容,如患者姓名、疾病、体温、症状等等,见图2,构建时必须对命名实体的构词、句法、语法特点进行分析,然后才可以在规则维护模块中定义规则,这是信息抽取工具最核心的模块。
图1.规则库界面图
图2 命名实体界面图
规则维护的具体内容窗口如图3,维护项目内容及其功能如下:
3.1.1 类型
指所要抽取的记录类型,按照电子病历常见记录类型分为:数值型、文本型、以有无回答的文本型、中间段文本型、记录组成要素型、既往史型。例1,原记录内容为“2 天前无明显诱因出现发热”,这属于“以有无回答的文本型”,抽取后的结果以表格的
方式显示“发热:有”。
3.1.2 记录
指所有抽取的记录名称,数据结构化后,记录以数据列名的形式展现,在上述例1 中,记录为“发热”。
3.1.3 语义
指向与记录相类似的词或短语,如记录“WBC”的语义是:白细胞计数,又如在手术记录中常见的“放置”的语义是“留置”、“置入”、“植入”等,在定义规则时需要把语义补充完整。
3.1.4 歧义词语
记录中可能有别的包含记录项的词语来混淆答案,在抽取时可以把这类歧义词语添加在歧义词语中进行排除, 例2,抽取“心率”记录时,有可能把“胎心率”也抽取出来,因此,可以在歧义词语中定义,把“胎心率”排除在“心率”之外。
3.1.5 单位
有些记录是有单位的,特别是一些数值型的记录,往往都带有固定单位,例如“肝门观察阻断15min”,在抽取“肝门阻断时间”记录时,需要把单位“min”、“分”、“分钟”等单位都定义进规则,以提高抽取命中率。
3.1.6 答案位置
所需要抽取的答案在词语的前方还是后方。例如 “肝门观察阻断15min”中“15min”在“肝门观察阻断”的后方。
3.1.7 可能答案
指对特定事物或记录的不同表达,但实质描述的事物或记录都是一样的。例如,抽取“发热”记录时,与“发热”相关的可能答案还包括“无诱因突发发热”“偶感发热”“无自觉发热”等等。
3.1.8 有无其他答案
在其它可能答案不为空时,除了那些可能答案还有没有别的答案,如果有,则选择“有”,然后在“其他答案的表述”中定义具体的其他答案。
3.1.9 其他答案的表述
当有其他答案时,可以在这项中定义,以“发热”为例,它的其他答案表述包括:“发热*天”、发热*年”、发热*月”等。
3.1.10 否定性答案的表述
医学术语中常包括很多否定性描述记录,在抽取时需要对这类记录进行筛查,以提高查准率,例如“未见发热”,虽然记录中出现“发热”,但它的前面含有了否定性词语,故抽取时需要通过定义“否定性答案的表述”项进行排除。
图3 规则库维护界面图
3.2 建立疾病实体关系
规则库中命名实体识别规则定义完成后,用户可以以疾病为实体关系,从规则库中选择与疾病关联的命名实体如症状、体温、检验结果等,建立疾病实体关系,如图4。
图4 疾病实体关系图
3.3 数据抽取及规则完善
进入抽取模块,选择需要抽取的疾病以及病人出院时间的范围,确认后就能抽取出某个时间段里某一类疾病的电子病历信息。对于表格型的数据项可以一次性完成信息抽取。数据抽取过程是规则不断完善补充的过程,对于文本型中的数据项,通过观察抽取出来的答案,如果觉得某些答案不是需要的,可以点击“完善答案”按钮,继续完善规则。当规则完善好以后,再次点击抽取按钮,进行再次抽取。当用户在完成抽取数据以后,点击导出按钮,会将抽出的数据导成excel 数据。
4 案例
从电子病历系统中抽取2009-1-1 至2009-12-31 手足口病住院患者病历信息,数据来源及抽取信息如下表:
抽取结果:2009-1-1 至2009-12-31 共有226 名手足口病患者被抽取到,记录数1516条,所用时间为2 分24 秒,查全率98.4%,查准率96.2% ,抽取结果见图5。
图5 手足口病抽取结果截图
5 总结
本文利用电子病历信息抽取工具,定义规则库,建立疾病实体关系进行电子病历信息提取,并提供了实证案例。规则库的定义需要涉及大量临床专科知识,需要熟悉电子病历的临床描述方式,规则维护准确与否跟信息抽取查全率、查准率密切相关,如果想获得高质量的信息抽取结果,要构建面向特定临床专业的规则库,规则定义由专科医务人员和信息工程师共同完成。
参考文献
[1] 李昊旻.电子病历的标准化结构化方法研究及实践[D]. 浙江大学 2007
[2] 李莹.文本病历信息抽取方法研究 [D].浙江大学 2007
[3] 叶枫, 陈莺莺, 等. 电子病历中命名实体的智能识别[J]. 中国生物医学工程学报,2011,30(2):256-262
[4] Doan A, Naughton JF, Ramakrishnan R, et al. Information extraction challengesin managing unstructured data[J]. ACM SIGMOD Record, 2008, 37(4): 14-20.