13张图看6年来数据科学概念之争

 

数据科学是一个寻找定义的行业,人们进行着很多不同的尝试来定义它也不足为奇。作为一个充满着数据nerd而且对可视化情有独钟的领域,很多人在尝试定义时使用维恩图也是不足为奇。...

大数据文摘作品 转载具体要求见文末
原作者 | David Taylor
选文 | Aileen  翻译 | Aileen  校对 | 黄念
编者按:数据科学是个相当火爆但是定义始终模糊的概念,人人都在谈论,但是它到底是什么?或者这个学科与哪些领域相关?似乎并没有明确的说法。2010年起,Drew Conway开始用一张维恩图(即用不同的圆圈显示元素集合重叠区域的图示)表示数据科学,之后,不同的数据科学家也根据自己对数据科学的理解对这一维恩图进行了不同程度的删改和调整。Drew Conway的第一张维恩图至今依然是很多数据科学家最认可的对数据科学的基本描述,这张图清楚的显示了,数据科学最相关知识来自三大基础领域:数学和统计知识、计算机科学、行业应用知识。大数据文摘自2013年成立以来就把这张图作为选文和编辑重要指南,认真的读者可以发现我们的每一篇文章几乎都走不出这三大领域:数学和统计、计算机科学和相关行业的应用(我们的医疗、金融等专栏),受益匪浅,也希望这张图、这篇文章能给你一个数据科学更广袤全局的概念。本文用13张经典维恩图展示了数据科学这个领域,你最喜欢哪一张?你觉得哪张图最能代表你对数据科学的理解,在文末留言告诉我们吧。

◆ ◆ ◆

数据科学是一个定义相当模糊的词语。我听到的一些定义有——

“这是一项需要比大多数统计学家更多的编程技巧,和比程序员更多的统计数据技能的工作。”

“是应用统计,但在旧金山却不是。”

“有人突然决定在自己的名片上印上‘数据科学家’这几字,然后靠着这个涨了工资。”

就我个人而言,我最近决定称呼自己为数据矿工来避免争议。(无论如何,数据矿工并不时髦。)

数据科学是一个寻找定义的行业,人们进行着很多不同的尝试来定义它也不足为奇。

作为一个充满着数据书呆子而且对可视化情有独钟的领域,很多人在尝试定义时使用维恩图也是不足为奇。

1. 2010年·Drew Conway版

他的个人博客在2013年因为发表了数据科学维恩图而火了起来。对于Conway,图的中心是数据科学。关于下面的那个圈“实质性专业(Substantive Expertise)”的含义(我接下来会进一步解释)有过一些争议:我只能说,如果是Conway的意思不是我所说的领域知识(例如物理学)而是其他的东西,那么他选择的这个名字确实不怎么样。

因此,假如领域知识是他的意思,至少这个想法的一部分是:比如一个物理学家,本来具有物理和数学/统计的专业知识,但缺乏黑客知识(我见过不少物理学家也有黑客知识,故而这个现象现在并不那么普遍了);机器学习专家有时会在缺乏对要进行分析的事情所在领域知识情况下,对他们要分析的事情应用算法(这和我第一次在一个全新的产业里起步建立模型时的情况一模一样,我不得不作了很多知识补充);还有的人可以编程,并且知道自己领域内的知识,但却没办法知道什么时候是偶然,什么时候是一个统计上显著的结果,这样的人是很危险的;他们给出的解决办法可能会是非常错误的,导致他们公司大量的经济损失。

2. 2012年 Brendan Tierne版

这个图……确实看起来有点乱。顺便说一句,KDD代表知识发现和数据挖掘(Knowledge Discovery and Data Mining)。尽管如此,数据挖掘也有自己的圈。我欣赏他在这里的所作所为,这里为了说明数据科学是个多学科的领域,数据科学的价值在于其所需技能的广度。显然,这些技能中有一个是神经计算(Neurocomputing) ,这似乎也有点太.....具体了。



    关注 大数据文摘


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册