如何在挖掘数百万患者记录的同时保护隐私?

 

点击上方“IEEE电气电子工程师”即可订阅公众号。网罗全球科技前沿动态,为科研创业打开脑洞。Photo: i...



点击

上方“IEEE电气电子工程师”即可订阅公众号。网罗全球科技前沿动态,为科研创业打开脑洞。

Photo: iStockphoto

当英国人开始死于COVID-19时,研究人员认为迫切需要了解导致这种死亡的所有可能因素。因此,在六周内,一个由软件开发人员、临床医生和学者组成的团队创建了一个开源平台,旨在安全地分析数以百万计的电子健康记录,同时保护患者隐私。

新的OpenSSAFLE分析平台帮助实现了英国国家卫生服务(National Health Service,NHS)1700万多名成年患者中与COVID-19相关的医院死亡的最大研究。它还展示了大规模计算能力如何在公共卫生紧急情况下快速访问和分析患者信息,而不必从属于维护电子健康记录的软件公司的数据中心删除敏感信息。

通过这个新平台,只有一小部分受信任的分析人员可以直接访问患者数据,所有数据库查询都是出于安全原因而记录的。牛津大学(University of Oxford)的医生兼数据实验室主任Ben Goldacre表示:“从历史上看,访问这种规模的数据的主要障碍在于,我们在处理安全和隐私问题时,没有达到患者对隐私完全合理的要求。”

作为OpenSAFELY项目的联合首席研究员,Goldacre多年来一直希望提高电子健康记录(electronic health records,EHRs)的研究效率。这项新的研究发表在2020年5月6日发表在medRxiv上的一份预印本上,代表了他的团队劳动的第一个成果,但这仅仅是第一步而已。由于OpenSAFELY可以安全地使用任何大型NHS数据集,该团队已经能够通过分析来确定哪些治疗和药物会增加或减少COVID-19患者的风险,并更好地了解和预测疾病如何传播。

传统上,研究人员不得不花费大量的资金从原始数据库中提取相对有限的电子健康记录样本。从安全和隐私的角度来看,这种提取方法也有问题,因为许多研究表明,仍然可以从删除患者姓名、出生日期和家庭住址详细方面的假名记录中重新识别患者。

克利夫兰的凯斯西储大学(Case Western Reserve University)的安全和隐私研究员Erman Ayday表示:“问题是,将健康记录化名或匿名永远无法保证隐私。如果你有一些关于这些人的背景信息,你可以很容易地在匿名记录中重新确认其中一些人的身份。”

当大流行袭击了联合王国的家园,研究人员需要及时获取大数据,以便更好地了解新型冠状病毒时,这种严重依赖化名和较旧的安全措施似乎还不够。这就是为什么Goldacre和他的团队遍布牛津大学,伦敦卫生与热带医学院的EHR小组,TPP等电子健康记录软件公司主动向英国国家卫生局提供服务,为数百万人的健康信息找到一个安全的数据挖掘解决方案。

Goldacre说:“我们知道这是不可接受的,或者肯定是不可接受的,因为我们在安全方面有很高的标准,这就像一个提取服务,你发送数据,没有人知道接下来会发生什么。”在这样的服务中,他补充道,“没有日志记录,你信任那些你认为值得信任的人,但从根本上说,它依赖于信任,而不是证据。”

尽管在大流行之前他们还没有意识到这一点,但Goldacre和他的同事们在过去四年里一直在致力于为这个项目做准备。许多人以前曾在诸如OpenPrescribing这样的项目上合作 -- 这是一个在线工具,允许患者和临床医生在NHS中跟踪药物处方模式的变化。在这一过程中,他们不仅发表了学术论文,还提供了数据科学工具和服务。
“We bring the analytics to the place where the data is already being kept securely for routine care.”

—Ben Goldacre
从一开始,团队就知道他们需要一种比从电子健康记录数据库中提取数据更安全的方法来处理患者信息。因此,他们构建了OpenSAFELY析平台,在电子健康记录已经存在的安全认证数据中心内运行。

这些记录包含每个患者的所有化名初级保健数据,例如,化名地点的化名人员在七天内以特定剂量为特定药物开出处方。对患者信息的事件级数据访问仅限于极少数可信的数据分析人员,他们使用标准SQL查询来提取特定研究的任何相关数据。Goldacre说,对数据库的每一个查询都记录在这里,这样就没有人可以逃避不道德的行为,比如试图利用病历跟踪前伴侣。

下一层访问由一个患者级数据库组成,其中每个化名患者的条目都包含与特定研究相关的特征的少量信息。在这里,研究人员可以进行统计分析,以更好地了解可能导致COVID-19患者存活的因素。

Ayday说,OpenSAFELY对所有统计请求的日志记录代表了一种良好的安全方法。为了进一步降低风险,他建议此类系统可以使用差异隐私技术,以便更难重新确定患者身份。并且, “OpenSAFELY的好处是能够访问这些数据集的人很少,从一开始他们就计划通过保存这些日志和所有东西来提供非常可控的访问,所以这是一件好事。”

在现有的数据中心内执行所有数据分析的安全方法也避免了试图通过安全的在线网络连接提取和传输大量数据的后勤问题。后者在试图传输可能有数百万人的数据时可能会被证明是特别有问题的。

该团队正在更新OpenSAFELY平台,这样它甚至不需要任何人在事件级数据库上运行SQL查询。相反,更新后的平台将接受任何人用标准统计软件(如R或Stata)编写的分析查询,并自动从事件级数据库中提取相关数据,以生成用于分析的患者级数据。执行分析后,平台会将结果返回给请求者。

作为增加透明度和问责制的一个级别,所有未来的用户都必须公开地部署来自GitHub的代码和统计分析。这意味着人们可以看到是否有人试图对记录进行有问题的统计分析。
This project may be the latest example of how the pandemic forces health care systems to finally make changes long overdue. 
OpenSAFELY团队的GitHub存储库目前拥有45000多行开源代码,可供任何人查看、修改和重用。因为它被设计成可移植的软件,它可以运行在许多其他数据库的初级保健数据。Goldacre说:“我们希望它存储在最安全的地方,在我们看来,现在这个地方是(电子健康记录)供应商的数据中心。”

从Ayday的观点来看,OpenSAFELY的许多安全框架并不一定是新的。他还警告说,任何严重的数据泄露都有可能危及病人的隐私,而这在医疗界并不罕见。

但是,尽管面临着所有的安全挑战,他认为只要研究人员采取措施将隐私风险降到最低,这些努力都是值得的。Ayday说:“这些做法绝对是有益的,因为他们正试图找出与这种病毒相关的统计数据,希望能得出一些有价值的结果。”

这个项目可能是大流行病如何迫使医疗保健系统最终做出早该做出的改变的最新例子。Goldacre说,他欢迎来自联合王国以外的任何人的询问,或希望将该平台用于分析健康数据。同时,我们必须抓住机会好好建设,目的是为医疗领域的计算数据科学建设一个更美好的未来。
往期推荐


可再生能源取代了王牌煤炭
未来,空气传感器可以帮助探测COVID-19吗?
德国大学在冠状病毒大流行期间开放远程现场可编程门阵列实验室
生物传感器可能是进行大规模冠状病毒检测的关键
麻省理工学院让软体机器人拥有了更好的触觉和空间感知能力
点击

阅读原文

了解更多详情


    关注 IEEE电气电子工程师学会


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册