别说你不懂——数据科学(1)

 

1.1 大数据和数据科学的喧嚣让我们抛开炒作,因为很多人可能和我们一样,都对数据科学心存怀疑。之所以一上来就...



1.1 大数据和数据科学的喧嚣

让我们抛开炒作,因为很多人可能和我们一样,都对数据科学心存怀疑。之所以一上来就讲这些,是想让你知道:我们也和你一样!假如你也心存疑虑,说明你也很可能会贡献一份力量,推动数据科学的健康发展,使其对社会产生积极的影响,也使数据科学这门学科趋于正统,在众多学科中能占有一席之地。

让我们先来细数大数据和数据科学之所以这样让人如坠云里雾里的原因。

1. 大多数基本的术语都缺乏严格定义。究竟什么是大数据?数据科学又是什么意思?大数据和数据科学之间有什么关系?数据科学就是关于大数据的科学吗?只有像谷歌和Facebook这样的高科技企业才用得到数据科学吗?为什么有人认为大数据是一个交叉学科(比如天文学、金融学、科技等),但数据科学却只是科技界的事儿?大数据,多大才是大?这些术语及概念如此含混不清,简直毫无意义。

2. 对于数据科学领域的研究者,不管是在学术界还是工业界,公众都缺乏敬意。事实上,他们在这一领域内辛勤工作了很多年,而这些工作是继承了各个领域的前辈们数十年甚至数百年的工作成果,这些领域包括统计学、计算机科学、数学、工程学以及其他学科。而媒体传播给公众的信息却是这样的:机器学习算法是上个礼拜才发明出来的,谷歌出现之前都不存在所谓的大数据。这简直荒谬,很多正在使用的方法和技术,还有我们面临的挑战,都不过是在过去已有的方法、技术和挑战上演变而来的。我们并不否认新事物和新技术的出现,只是觉得应该对历史和前人的研究成果保持必要的敬意。

3. 媒体疯了。人们将各种各样的桂冠加诸数据科学家的头上,人们形容他们是掌握了宇宙奥秘的魔法师,其疯狂程度堪比金融危机之前。天花乱坠的宣传很容易掩盖真相、歪曲事实。这些宣传的噪声越多,真正有效的信息就越少。因此,若“大数据”被媒体吹得越久,公众越容易被误导,越难获知这一概念背后真正有益于社会的一面(如果有的话)。

4. 统计学家觉得他们正在干的事就是数据科学。换句话说,这本来就是他们的饭碗。亲爱的读者们,请设身处地替统计学家们想想,有人抢自己的饭碗是什么感受。媒体也常常将数据科学轻描淡写为统计学和机器学习在科技界的简单应用。我们会在书中阐明,不是说将统计学和机器学习这些“旧酒”装进新瓶里,就叫作数据科学。它绝对有资格作为一个独立的学科存在。

5. 所有自称为科学的都不是真正的科学。这句话或许有些道理,但不代表数据科学这一术语毫无意义,它代表的可能不是科学,而是某种技术。

1.2 冲出迷雾

Rachel取得统计学博士学位到她在谷歌工作的这段经历,或许能帮我们解答一些疑惑,她说:

进入谷歌之后,我很快就意识到工作中用到的东西和我读统计学博士学位时学到的东西差别很大。并不是说我的统计学知识毫无用武之地,相反,我在学校学到的东西为我思考问题提供了一个框架,统计学的很多知识都为我的日常工作提供了坚实的理论和实践基础。

在谷歌工作期间,我发现必须掌握很多在学校没学到的东西,比如计算、编程、数据可视化技能和许多领域知识。这种经验既特殊又普遍,我拥有统计背景,因此需要补充前面提到过的那些知识,而若换作一位计算机、社会学或者物理学背景的人,他们也需要根据自己的知识缺陷去补充相应的知识。每个人都拥有自己独特的知识结构,重要的是大家能够紧密合作,取长补短,组成一个团队去解决数据问题。

一般人对上述故事肯定会有这样一种想法:你走上工作岗位后就会发现,在学校学到的知识,远远不能满足实际工作的需要。

·为什么学校里的统计要和工业界的统计如此不同?为什么很多学校的课程要和现实如此脱节?

·这种差异不仅存在于学校里的统计和工业界的统计之间。很多数据科学家的一个共同感受是,工作时他们需要接触更多的知识、方法论和工序,而这些东西都是以统计学和计算机科学为基础的。

抛却这些媒体给予数据科学的光环,只有一件事是实在的:数据科学是一个新生事物。它刚刚诞生,却被赋予了太多荣耀,使人们对其充满了很多不切实际的幻想,而幻想最终是会破灭的。我们要保护数据科学,过分吹捧可能会让这个新兴领域过早夭折。

Rachel决定去研究数据科学这一文化现象,她想了解其他人对数据科学的感受。她开始和谷歌的人接触,和很多创业公司和高科技公司的人接触,和大学(特别是统计系)里的老师们接触。

从这些接触中,Rachel觉得数据科学的轮廓渐渐清晰起来,她进一步深入,决定在哥伦比亚大学开设一门数据科学导论课程,与此同时Cathy在博客上连载了该课程的讲义。我们期望在这门课程结束时,我们和学生们能对数据科学的本质有一个清晰的理解。

1.3 为什么是现在

现在,数据充斥在我们生活的方方面面。网络购物、网上通信、浏览新闻、收听在线音乐、搜索信息,或在网上表达观点,这些行为都会被记录。同时,我们拥有充足且廉价的计算能力。有数据,有计算能力,这为从事数据科学提供了良好的环境。

大家都知道,线上数据的收集正在经历一场革命(稍后会详细介绍),但他们所不知道的是,离线数据的采集同样也在革新。人们的日常行为也被“数据化”了。将二者结合起来,我们可以深入研究人类的行为,甚至从更高的物种角度,来研究人类行为区别于其他物种的特殊性。

数据也不局限于互联网产生的数据,金融、医疗、制药、生物信息、公共福利、政府、教育、零售等行业都会产生大量的数据,数据在各行各业的影响力在与日俱增。部分行业所储存的信息达到了“大数据”的程度,而另一些行业的信息量则没有那么多。

数据科学这一课题变得日益有趣(或提出了新的挑战),这不仅仅是因为数据的体量增大,更多的是因为数据本身(很多时候是实时数据)成了构建数据产品的关键要素。在互联网上,有亚马逊的推荐系统、Facebook的朋友推荐系统,还有其他的图书、电影、音乐等推荐系统;在金融业,有信用评级系统、交易算法和模型;在教育领域,可以实现教育对学生的量身定制,比如现在的网络培训公司Knewton和网络大学Khan Academy;在政府机构中,这意味着以数据为基础去制定公共政策。

我们正在见证一个时代的开始,这个时代是一个巨大的、充斥着人文特色的反馈环:我们的行为会改变产品,产品又反过来影响我们的行为。技术使这一切成为可能,我们拥有处理大数据的基础架构、更大的内存和更快的网络,而且社会公众也日渐认同技术是生活中必不可少的组成部分。在十年前,这一切我们还不敢想象。

由于这种基于反馈的循环对社会变革将产生不可小觑的影响力,我们认为,有必要认真考虑如何确保这种循环的良性运行,尤其是直接参与这一过程的人员,在实践中应保持哪些道德准则、应负何种责任。本书的目的之一就是针对这些话题开展一些抛砖引玉的探讨。

数据化

Foreign Affairs杂志在2013年5/6月期刊上发表了一篇由库克耶和迈尔-舍恩伯格共同撰写的文章“The Rise of Big Data”(大数据的崛起)。该文谈到了数据化的概念,以朋友之间的关系为例,他们将对朋友的喜欢程度转化为数值,这些数据被存储起来,用于日后研究,或者出售。将问题数据化,这是我们人类处理问题时经常采用的一种方式,不管是线上还是线下。

在文章中,数据化被定义为一种处理流程,它将生活的方方面面转化为数据。比如,谷歌眼镜将其所视范围内的景象转化成数据,Twitter将人们偶尔产生的想法转化成数据,LinkedIn将职业社交网络转化成数据。

数据化是一个很有趣的概念,我们在重视它的同时,必须尊重他人的意愿——是否自愿与人们分享自己的数据。比如,在网上为某个人或某件东西“点赞”时,人们要么是故意让自己的行为“被数据化”,要么最低限度上也清楚自己的行为会被记录下来。但有时却不然,我们只是随意浏览一些网站,我们的行为却被网站上的cookie记录下来;我们走进商店,或者只是走在大街上,会被各种传感器、摄像头监测,或者被谷歌眼镜拍摄,我们的行为被作为数据存储下来,而这种数据化并非出于我们的意愿。

数据化无所不在,从作为实验对象参与到社交媒体实验中,到接受全面调查,再到被人秘密跟踪,这些都是被数据化的典型案例,它们代表了数据化过程中个人意愿从高到低的各种情形,但其产生的结果却远不能如此简单地划分概括。

在文章中他们又说:

“一旦我们可将问题数据化,就能改变人们的意图,并在这些信息基础上产生新价值。”

本书会不时提出这样一个问题:究竟谁才算“我们”?“新的价值”是什么?在他们的文章中,“我们”显然指那些模型和企业,他们引导用户购买更多的产品,赚取更多的钱,“新价值”则指那些能提高效率的方法,比如通过自动化等。

如果将视野放得更大,将这里的“我们”指代更广泛的人类,那就有点逆潮流而行的意思了。在面对数据化的大潮时,我们或许会有所保留。

1.4 数据科学的现状和历史

那么,到底什么是数据科学?它是一门新生事物,还是统计学的旧瓶子里装了新酒?它是纯粹的炒作,还是确有其事?如果它是一门实实在在的新兴学科,它的意义何在?

让我们先上网看看业界关于这一问题的讨论,这不一定能直接回答我们的问题,但听听别人怎么说总是有益的。2010年,Quora网站有一个关于“什么是数据科学”的提问,Metamarket公司的CEO Mike Driscoll的回答如下。

研究数据科学,一方面需要如极客那般刻苦钻研,一方面需要像统计学家那样拥有完美的理论。

数据科学家不仅仅是极客——极客只关心如何调试一行Bash脚本或Pig脚本,没人会在意非欧氏距离矩阵。

数据科学家也不仅仅是统计学家——后者只关注如何完成一个理论的证明或构建出一个完美的模型,很少有人会使用R语言将数据文件读入系统,从而进行后续的分析。

数据科学是一门关于数据的工程,它需要同时具备理论基础和工程经验,需要掌握各种工具的用法。

Driscoll还引用了Nathan Yau 2009年的一个关于“数据科学家正在涌现”的帖子,其中介绍了数据科学家们应该具备的各种技能:

·统计学(做传统分析时需要的技能)

·数据处理(解析、提取和格式化数据)

·可视化(图表、工具等)

但是先别忙,如此说来,数据科学就是这些技术的一个简单的组合吗?抑或是诸如统计学、机器学习等学科的一个逻辑上的扩展?

Cosma Shalizi1和Cathy2分别就统计学家和数据科学家的区别这一问题发表了很多看法。Cosma认为,任何一个够格的统计部门都在从事数据科学的工作,数据科学只不过是统计学换了个新说法。

1http://goo.gl/SO7ceN和http://goo.gl/pXg1fU。

2http://goo.gl/F4K4hE和http://goo.gl/X9Bmxj。

持此观点的还有ASA主席Nancy Geller,她在2011年发表的一篇文章“Don't shun the 'S' word”中说:

我们要告诉人们:是统计学家揭示出数据的含义。在21世纪,各行各业都涌现出了海量的数据,无论是科学、工程还是医学,从文学史到动物学,人们在处理这些数据时都应用了统计学技术。这种数据大爆炸,为统计学者提出了源源不断的研究课题,因此在这个时代从事统计学工作是一件相当令人兴奋的事。

Nancy以为用“从文学史(Art history)到动物学(Zoology)”这种说法,就可以巧妙地暗喻“从头到尾”2的概念,代表了数据科学的应用无处不在。但她这种说法却是搬起石头砸了自己的脚,因为她所罗列的全是学术界的例子,恰恰不包含高新技术企业,而业界才是数据爆炸式增长最迅猛的地方,数据科学也是在这些高新技术企业里得到了长足的发展。在企业中,会有数据科学家的职位,但这一称号在学术界还很少见到(或许这点会慢慢改变)。

2froma to z,意即“完全、彻底”。——编者注

不久前DJ Patil和Jeff Hammerbacher讲述了2008年,他们是如何分别在LinkedIn和Facebook上定义了“数据科学家”这一称谓的。2008年,“数据科学家”成为一个职位,出现在这两家公司的招聘信息里(维基百科于2012年增加了数据科学的相关词条)。

当一组技术在谷歌得到追捧,而且这种势头蔓延到硅谷的其他高科技公司时,一个新的职位就会出现,而当这成为常态,人们就需要给它一个全新的名字,比如数据科学家。当这个新名字声名远播,所有人都希望自己成为一名数据科学家。《哈佛商业评论》( HarvardBusiness Review)把数据科学家誉为“21世纪最性感的工作”,这无疑是火上浇油。

社会学家在数据科学中的角色

LinkedIn和Facebook都是做社交网络的公司,他们所谓的数据科学家经常是对统计学家、软件工程师和社会学家的统称。这很好理解,因为他们的产品就是社交工具,主要处理的内容是个人(用户)行为。但是根据Drew Conway的韦恩图,数据科学所研究的问题经常是跨领域的,也就是需要大量的“实务知识”(见图1-1)。



图1-1:DrewConway的数据科学韦恩图

也就是说,数据科学家要用到哪些“实务知识”,就要具体问题具体分析了。如果你要解决的是跟社交网络相关的问题,比如说“好友推荐”“可能认识的人”以及“用户分类”等,那一定要把社会学家拉进来。社会学家大多都擅于提问,他们也热爱调查研究,如果他们再会定量分析和编程,肯定会成为优秀的数据科学家。

由于“历史”的原因(其实不过是2008年的事),人们认为数据科学家的工作只是负责分析在线用户的行为数据。而现在兴起了一个全新研究领域,它被称作“计算社会科学”,我们可以将其视作数据科学的一个子集。

让我们回到更早的2001年,当时William Cleveland写了一篇关于数据科学的文章“Data Science:An action plan to expand thefield of statistics”。

那么,是先有的数据科学还是先有的数据科学家?

这就引出了一系列问题:我们能通过数据科学家的工作来定义数据科学吗?谁有资格定义这个全新的学科?媒体制造了很多关于数据科学的时髦用语,但他们有资格定义吗?我们需要依赖于这些自诩的数据科学家吗?到底有没有这样一个权威机构?我们暂且不予回答。

数据科学的职位

在布隆伯格的帮助下,哥伦比亚大学决定成立一个新的研究所用于数据科学和工程方面的研究。据我们上一次统计,仅在纽约就有465个数据科学的就业机会。即使数据科学还算不上一个真正的领域,但它已经在产生实实在在的工作职位了。

在这些招聘职位的描述中我们发现,数据科学家被要求具备计算机科学、统计学、传播学、数据可视化等领域的知识,还要是一个“通才”。但事实上,没有人能如此面面俱到,因此组建一个具备多种技能的团队更为可行。通过组建团队让不同领域的专家通力合作,这基本上就可以达到数据科学家的“通才”的要求了。我们先来看看现今的数据科学家需要具备哪些素质。

1.5 数据科学的知识结构

在数据科学导论的课堂上,Rachel发给每个学生一张卡片,让他们根据在如下领域的技能水平填写自己的知识结构:

·计算机科学

·数学

·统计学

·机器学习

·某一领域的专业知识

·沟通和演讲的技巧

·数据可视化

图1-2显示了Rachel在数据科学方面的知识结构。



图1-2:Rachel的数据科学知识结构,她试图以此图描绘一个数据科学家应该具备的技能。她希望学生们和客座讲师们都能绘制自己的图谱,并且通过这样的自我检视来发现知识结构中存在的不足

我们把这些卡片钉在黑板上审视一番,发现个体之间技能上的差异还是很大的,这点让我们很满意。比如说,学生中很多都拥有社会学的教育背景。

你在数据科学方面的知识结构是什么样子的呢?你想它在几个月后变成什么样呢?几年后呢?

像我们早先提到的那样,最佳选择可能就是让拥有不同技能的人组成团队进行数据科学方面的工作,因为没人可以掌握所有的知识。于是,我们开始思考,相较于定义“数据科学家”,是否定义“数据科学团队”更有意义?图1-3定义了一个数据科学团队:



图1-3:数据科学团队的知识结构由每个成员的知识结构叠加而来,在组建团队时,要让团队技能与所解决的问题大致匹配

1.6 思维实验: 元定义

每一节课上都会有一个“思维实验”的环节,我们把学生分成小组来讨论问题。很多问题都是开放性的,我们只想借此引发学生就数据科学的相关问题展开更广泛的讨论。在第一节课上,我们的思维实验是:可以通过数据科学的手段来定义数据科学吗?

通过分组讨论,同学们提出了一些有意思的想法。

使用文本挖据模型首先在谷歌上搜索“data science”(数据科学),对搜索结果进行文本挖掘。但在语言的选用上,使用者从业者的原则是截然不同的。作为使用者,我们会采用大众的定义(所谓大众的定义,即通过谷歌搜索得来的结果)。而对于从业者而言,若能引用权威渠道(比如《牛津英语词典》)的说法来定义数据科学会更严谨一些,但可惜的是这些词汇恐怕尚未收入其中,而且我们也没有耐心去等待了。所以,我们不得不承认,数据科学的定义包罗万象,但目前没有一种定义能让各方都满意。

使用聚类算法何不考虑数据科学的从业者,看看他们是怎么形容自己的工作的(也许最开始是“单词云”的形式)?然后,我们再看看其他行业的从业者,比如统计学家、物理学家、经济学家,看看他们又是怎么形容自己的工作的。然后,我们使用聚类算法(将在第3章用到)或者其他模型,看看根据对工作内容的描述,是否可以预测出其从事的行业。

1.7 什么是数据科学家

也许定义数据科学最具体的方式是看它如何被使用,比如雇主们都花钱让数据科学家去做哪些工作。以此为目的,我们将会具体说说数据科学家究竟都在干什么,不过我们先来看看学术界。

1.7.1 学术界对数据科学家的定义

在学术界,现在还没人称自己是数据科学家,除非他们工作于某大学的“数据科学研究所”,或者在申请数据科学研究的经费,这时,他们才勉强将数据科学家作为自己的第二称谓。

不如我们问另外一个问题:在学术界,哪些人打算成为数据科学家?在哥伦比亚大学的数据科学导论课学习的有60名学生,Rachel打算开设此课时,估计这门课的学生主要来自统计学系、应用数学系和计算机科学系。事实上,后来学生背景的多样化大大超出了她的预想:除过上述三个领域之外,她的学生还有来自社会学、新闻学、政治学、生物医学信息学、建筑学、环境工程、纯数学和商业学院的,此外还有来自纽约市政府机构以及关注社会福利的非盈利性机构人员。其中不乏一些已经在从事数据科学工作的人。他们都很希望能使用数据去解决一些重要的问题,通常这些重要问题具有重要的社会价值。

想要使“数据科学”在学术界立得住脚,其所要研究的领域应该有更规范的定义。值得一提的是,现在数据科学领域已经有很多可以转化成博士论文的研究课题。

让我们试着定义数据科学家:一个学术界的数据科学家首先是个科学家,他接受了任何其他学科的训练(从社会学到生物学等各种学科),还要同大量的数据打交道,不管这些数据的结构、规模以及复杂程度如何,他都能挖掘出数据背后的意义,从而解决现实世界中的问题。

上述例子说明,在不同的学术领域人们面临的计算和深度数据问题都存在较大的共性。若不同机构的研究者通力合作,他们就可以解决各个领域的现实问题。

1.7.2 工业界对数据科学家的定义

那么工业界的数据科学家又在做些什么?这取决于数据科学家的资深程度以及是否将数据科学特别限定在互联网领域。数据科学家这个职位也不是只有科技界才有,但是数据科学这个词的确源自科技界,为了避免混淆,我们就将业界特指为科技界。

首席数据科学家将为公司设定数据策略,这包括筹建用于收集数据和记录日志的基础架构,确定如何在收集数据的同时保护隐私、哪些数据是面向用户的、如何使用数据做决策,又如何把这些数据反过来应用于产品设计,提升产品质量。他要管理一个由工程师、科学家和分析师组成的团队,还要负责和公司的管理层(如CEO、CTO等)进行沟通。他还负责为创新性的成果申请专利和设定研究目标。

更广泛地看,数据科学家是这样一种人,他懂得如何从数据中抽取信息并且解释数据背后的意义,这需要掌握统计学和机器学习中的工具和方法,还要具备人文主义精神。他要花费大量时间来采集、清理和处理数据,因为数据永远都不会是整齐规范到让人一眼可以读懂的。在这个过程中,他需要坚持不懈,需要统计学和软件工程的技巧,而这些也是理解数据的偏差、调试程序时所必备的技能。

当数据被整理成型后,他需要结合可视化和数据的意义对数据进行探索分析。他会找出模式,构建模型,设计算法——有些是为了了解产品的使用情况和整体质量,有些是为了搭建原型,将在这些原型上经过验证的东西重新揉入产品中,从而提升产品品质。他会设计实验,他是基于数据做出决策这一过程中的关键一环。他要使用明白无误的语言和图形同组内成员、工程师、领导层交流,即使有人对数据不是很敏感,也可以通过他知道这些数据背后的意义。


    关注 数据分析与处理


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册