Fany第十一周:Big Data

 

已经第十一周了,也就是将近三个月,当然也迎来了另一个转折点,小编要翻译一本英文书,英文名叫Big Data:...



已经第十一周了,也就是将近三个月,当然也迎来了另一个转折点,小编要翻译一本英文书,英文名叫Big Data: A Revolution That Will Transform How We Live, Work, and Think。其实已经有中文版本了——《大数据时代:生活,工作与思维的大变革》,没有对比就没有伤害么,小编想学一学别人是怎么翻译的,以后自己也翻译翻译玩玩。粗略估计需要40周,也就是10个月时间,Woo!HaHa!

现在

2009年出现了一种新的流感病毒。这种病毒结合了禽流感和猪流感病毒的特点,称它为H1N1。在短短几周之内迅速传播开来,全球的公共卫生机构担心一场可怕的流行病即将来袭。一些评论家警告说,这场流感比1918年西班牙流感的规模更大,有5亿人口感染并夺走了数千万人的生命。更糟糕的是,还没有研发出有效的疫苗来对抗这种新型流感。公共卫生机构能作的只是减慢其传播速度。但要做到这一点,他们就必须先知道流感出现在哪里。

在美国,要求医生发现流感病例时上报给疾病预防与控制中心(CDC)。但由于人们可能患病多日才去看医生,同时信息传达回CDC也需要时间。因此,发现新流感病例时通常会有一两周延迟。而且,CDC每周只进行一次汇总。然而对于一种飞速传播的疾病,两周的延迟将是致命的。这种滞后导致公共卫生组织在流感爆发的关键时期反而束手无策。

在H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目(remarkable)的论文。它令公共卫生组织官员和计算机科学家感到震惊。作者解释了为什么Google能够预测冬季流感的传播。不仅是全美范围内的传播,可以具体到指定的州和地区。Google通过观察人们在网上的搜索记录来进行预测,而这种方法以前一直是被忽略的。Google保存了多年来的所有搜索记录,每天都会收到超过30亿条搜索指令,有如此庞大的数据源用来帮助它完成这项工作。

Google把5000万条美国人最频繁检索的词条和CDC在2003至2008年间的周期性流感病毒进行比较。他们希望通过分析人们的搜索记录来判断这些人是否患有流感。其他公司也试图通过搜索记录来进行预测,但是他们缺乏像Google这么庞大的数据、处理能力和统计技术。

虽然Google公司的员工(Googlers)猜测,人们可能通过搜索来获取关于流感的信息,如"治疗咳嗽和发热的药物"。但是找出这些词条并不是重点,他们也不知道哪些词条更重要,他们设计的系统对词条是什么并不关心。他们的系统唯一关注的是特定检索词条的频率与流感在时间和空间上的传播之间的联系。最后,为了测试这些检索词条,他们处理了4.5亿个不同的数学模型。将得出的预测与CDC在2007年、2008年记录的流感病例进行对比后,Google公司发现了45条检索词的组合,将他们用于一个特定的数学模型后,他们的预测和官方数据的相关性非常高。/* 小编震惊了,是因为中文版里面给出了97%这一精确的数字表示相关性,而在原作里面只写了strong relation,可能是因为版本问题吧,汗~ */。和CDC一样,他们也能判断出流感是从哪里传播出来的,而且判断非常及时,不会像CDC一样要在流感爆发后一两周才能做到。

所以,2009年流感爆发的时候,与习惯性滞后的官方报告相比,Google成为了一个更有效、及时的指示标。公共卫生组织获得了非常有价值的信息。惊人的是,Google公司的系统不需要分发口腔试纸和联系医生。相反,它建立在大数据基础之上——以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来袭的时候,实际将会拥有一种更好的预测工具,以预防流感的传播。


    关注 凡人浪子


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册