美国医疗数据分析现状及其数据标准化等问题

 

医疗数据可视化随着电子病历系统在医疗机构的迅速普及,大量医疗相关的重要信息以电子形式存储于医疗信息系统中。经...



医疗数据可视化

根据麦肯锡发布的全球医疗机构分析报告,到2020年,医疗大数据分析市场将为全球节约1900亿美元。但是,使用临床数据进行科学研究需要解决一系列有关医疗信息采集,信息安全,数据整合以及分析方法等重要问题。

美国医疗数据分析现状

临床电子病历数据是医疗大数据的最重要的组成部分。

电子病历系统在美国普及较早,很多大型医疗机构积累了长达10年以上的电子病历信息。除了医院积累的电子病历信息,美国的医疗大数据还包括保险公司索赔记录,药房记录,政府医疗救助等多种来源的医疗信息。医院,保险公司,政府医疗救助部门以及大学的科研机构等,都有科研人员和团队进行医疗大数据分析。另外,各大制药厂也通过医疗大数据进行药物效果分析和药物重定向研究。

(目前国内医疗数据来源比较单一,主要来自于各医疗机构自身)

2011年,为了推动使用医疗信息技术来提高医疗质量和减少医疗成本,美国医疗保障和医疗救助中心(Centers for Medicare & Medicaid Services,CMS) 起草并实施了“电子病历应用激励计划”。

CMS通过制定电子病历系统的功能规范,评估医疗机构是否达到有效使用的标准。达标的医疗机构可以从CMS获得电子病历应用专项推动资金。CMS寄希望于这项激励计划推动“有效使用 (meaningful use)”电子病历数据来提高医疗水平的效果。所谓“有效使用”是指通过使用电子病历数据来:

1)提高医疗的质量,安全性和效率;

2)使病人和病人家庭充分参与到医疗中;

3)提高医疗机构的协作能力;

4)提高公共医疗水平;

5)维护病人医疗信息的隐私和安全。

该计划通分三个阶段进行。

第一个阶段(2011-2012)旨在“加强数据采集和共享”,

第二阶段(2012-2014)目标是“优化临床服务流程”,

第三阶段(2014-2016)的最终目标是“提高医疗服务质量”。

美国国家卫生研究院(National Institute of Health)和其他政府机构也同时资助了一系列研究项目来推动使用电子病历进行临床医学的研究。

例如:

临床和转化医学项目(CTSA by NIH),

电子病历基因组计划(eMERGE by NIH),

战略性先进医疗信息研究计划(SHARP by ONC),

以及临床医学数据研究网络(CDRN by PCORI)等。

以此为契机,生物医学信息学在美国得到了快速发展.

(这一项,国内目前看是一片空白,有类似的机构来做,各学科也有较有实力的机构或者医院在从事这方便的研究,推动国内医学信息学的发展,但是从目前来看,交叉了从事临床数据研究人员和数据分析人员,但是未从系统的 宏观角度形成统一学科,没有完全的学科目录树。目前是产业推进研究的情况。)

生物医学信息学是一门以提高人类健康为目的的新兴交叉学科,它学习和追求对生物医学数据,信息,和知识的有效使用来解决科学问题和提供决策支持,是医疗数据分析的原动力。 目前,提供医学信息学学位的学校和研究机构在全美迅速普及。

在美国医学信息协会的主导下,生物医学信息学的研究逐渐成为当前的医学和计算机科学的研究热点。

医疗数据标准化面对的问题

对采集到的海量医疗数据进行分析存在许多挑战。首先,医疗信息系统通常不是为了科研和数据分析设计的。从数据分析的角度看,医疗数据通常比较复杂,数据的异构度较大,存在很多缺失信息和不一致信息。其次,理解医疗数据通常需要不同领域的知识,包括医学,生物统计学,流行病学和信息学等。在某些涉及基因疗法的医学数据中,还需要有基因学背景的领域专家。对于海量医疗数据,分布式计算平台的支持也必不可少。

因此,医疗大数据分析需要一系列技术和方法的支持。

1、医学术语和本体知识库

医学术语提供了标准化描述并减少歧义的医学术语,而医学本体知识库进一步提供了标准化且一致的医学本体词汇来描述医学概念和概念之间的关系。通过使用医学术语和本体知识库,复杂、异构的医疗数据之间可以相互交流, 使后续的科学分析得以进行。

在美国,常用的医学术语和医学本体知识库包括

“国际疾病分类(International Classification of Diseases)”,

“CPT医疗服务(操作)编码系统(Current Procedural Terminology)”

“医学系统命名法-临床术语(SNOMED CT)”

以及

“检测指标标识符逻辑命名与编码系统(LOINC)]”等。

一体化医学语言系统(The Unified Medical Language System-UMLS)是美国国立卫生研究院经过20年的积累和开发完成的一个大型医学本体知识库。它集成了大部分常用的医学术语词典和本体库 (137个), 是医学信息学领域最广泛使用的医学本体知识库之一。

2、医学自然语言处理

由于大量详细的病人信息以文本形式存储,而文本描述的信息通常存在歧义和很多非标准化描述,如何把这些非结构化数据转化为统一的结构化数据是医学信息处理的重要步骤。自然语言处理是解决方案之一。 将非结构化医疗数据转化为结构化数据需要一系列医学自然语言处理技术,

包括:

“医学名实体识别”,

“名实体自动编码”,

“名实体修饰词识别”,

“时间信息抽取”

等。

作为信息抽取的关键技术,医学信息抽取一直是医学自然语言处理的研究热点。美国国立卫生研究院资助的i2b2中心曾经组织了多次国际范围内的医学信息抽取测评任务,推动了电子病历语料标注和医学自然语言处理的发展。

医院系统的电子化积累了海量的医疗数据, 是支持临床医学研究的宝贵资源。但是快速而有效的医疗大数据分析还存着很多挑战和困难。生物医学信息学是支持医疗大数据分析的原动力。我们希望看到更多中文的基础性的医学信息学研究,尤其在标准化层面(比如中国的UMLS),从而为中国医疗大数据研究和产业化奠定坚实基础。

参考节选:中国数字医学 《自然语言处理(NLP)概念浅析及国内外学习资料盘点》

作者:徐华、吴永辉、朱珉

回复【视觉识别】 来看人的大脑是怎样处理识别视觉信息的

回复【数据工具】 了解有哪些工具可以为你提高数据分析手段

回复【数据来源】 看完这个你还觉得数据难找了吗?

回复【算法】 了解多种数据分析基础有用的方法

回复【脑洞】 看完这个你还觉得你的脑洞真的大么?

回复【行业】 看看医疗行业发生了点什么

回复【互联网医疗】 查看互联网医疗领域文章

回复【智能设备】 关于可穿戴硬件及其他医疗健康相关智能设备介绍

第一时间了解互联网及医疗方面的信息,请关注医疗数据可视化微信公众账号:DataMed


    关注 医疗数据可视化


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册