透过Facebook、Twitter了解数据科学家

 

数据科学家所需的技能数据科学家这一职业并没有固定的定义,但大体上指的是这样的人才。“所谓数据科学家,是指运用...





数据科学家所需的技能

数据科学家这一职业并没有固定的定义,但大体上指的是这样的人才。
“所谓数据科学家,是指运用统计分析、机器学习、分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才。”数据科学家所需的技能如下。

(1) 计算机科学

一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。

(2) 数学、统计、数据挖掘等

除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。

(3) 数据可视化(Visualization)

信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。
作为参考,下面节选了Facebook和Twitter的数据科学家招聘启事。对于现实中的企业需要怎样的技能,应该可以为大家提供一些更实际的体会。

Facebook对数据科学家的招聘信息

Facebook计划为数据科学团队招聘数据科学家。应聘该岗位的人,将担任软件工程师、量化研究员的工作。理想的候选人应对在线社交网络的研究有浓厚兴趣,能够找出创造最佳产品过程中所遇到的课题,并对解决这些课题拥有热情。

职务内容 确定重要的产品课题,并与产品工程团队密切合作寻求解决方案
 通过对数据运用合适的统计技术来解决课题
 将结论传达给产品经理和工程师
 推进新数据的收集以及对现有数据源的改良
 对产品的实验结果进行分析和解读
 找到测量、实验的最佳实践方法,传达给产品工程团队

必要条件 相关技术领域的硕士或博士学位,或者具备4年以上相关工作经验
 对使用定量手段解决分析性课题拥有丰富的经验
 能够轻松操作和分析来自各方的、复杂且大量的多维数据
 对实证性研究以及解决数据相关的难题拥有极大的热情
 能对各种精度级别的结果采用灵活的分析手段
 具备以实际、准确且可行的方法传达复杂定量分析的能力
 至少熟练掌握一种脚本语言,如Python、PHP等
 精通关系型数据库和SQL
 对R、MATLAB、SAS等分析工具具备专业知识
 具备处理大量数据集的经验,以及使用MapReduce、Hadoop、Hive等分布式计算工具的经验
来源:Facebook(中文翻译出自译者)

Twitter对数据科学家(负责增加用户数量)的招聘信息

关于业务内容Twitter计划招聘能够为增加Twitter用户数提供信息和方向性,具备行动力和高超技能的人才。应聘者需要具备统计和建模方面的专业背景,以及大规模数据集处理方面的丰富经验。 我们期待应聘者所具有的判断力能够在多个层面上决定Twitter产品群的方向性。

职责 使用Hadoop、Pig编写MapReduce格式的数据分析
 能够针对临时数据挖掘流程和标准数据挖掘流程编写复杂的SQL查询
 能够使用SQL、Pig、脚本语言、统计软件包编写代码
 以口头及书面形式对分析结果进行总结并做出报告
 每天对数TB规模、10亿条以上事务级别的大规模结构化及非结构化数据进行处理

必要条件 计算机科学、数学、统计学的硕士学位或者同等的经验
 2年以上数据分析经验
 大规模数据集及Hadoop等MapReduce架构方面的经验
 脚本语言及正则表达式等方面的经验
 对离散数学、统计、概率方面的兴趣
 将业务需求映射到工程系统方面的经验
来源:Twitter(中文翻译出自译者)

数据科学家所需的素质

这一节的内容与技能部分有所重叠,数据科学家所需要具备的素质有以下这些。

(1) 沟通能力

即便从大数据中得到了有用的信息,但如果无法将其在业务上实现的话,其价值就会大打折扣。为此,面对缺乏数据分析知识的业务部门员工以及经营管理层,将数据分析的结果有效传达给他们的能力是非常重要的。

(2) 创业精神(entrepreneuership)

以世界上尚不存在的数据为中心创造新型服务的创业精神,也是数据科学家所必需的一个重要素质。Google、Amazon、Facebook等通过数据催生出新型服务的企业,都是通过对庞大的数据到底能创造出怎样的服务进行艰苦的探索才获得成功的。

(3) 好奇心

庞大的数据背后到底隐藏着什么,要找出答案需要很强的好奇心。除此之外,成功的数据科学家都有一个共同点,即并非局限于艺术、技术、医疗、自然科学等特定领域,而是对各个领域都拥有旺盛的好奇心。通过对不同领域数据的整合和分析,就有可能发现以前从未发现过的有价值的观点。
美国的数据科学家大多拥有丰富的从业经历,如实验物理学家、计算机化学家、海洋学家,甚至是神经外科医生等等。也许有人认为这是人才流动性高的美国所特有的现象,但其实正如我们在第4章中所介绍的GREE一样,在日本也出现了一些积极招募不同职业背景人才的企业,这样的局面距离我们已经不再遥远。

严重的人才匮乏

      数据科学家需要具备广泛的技能和素质,因此预计这一职位将会陷入供不应求的状态,即遇到人手不足的困境。例如,麦肯锡全球研究院(MGI)在2011年5月发表的题为“Big data: The next frontier for innovation, competition and productivity”(大数据:未来创新、竞争、生产力的指向标)的报告中指出,在美国具备高度分析技能的人才(大学及研究生院中学习统计和机器学习专业的学生)供给量,2008年为15万人,预计到2018年将翻一番,达到30万人。然而,预计届时对这类人才的需求将超过供给,达到44万~49万人的规模,这意味着将产生14万~19万的人才缺口。
仅仅四、五年前,对数据科学家的需求还仅限于Google、Amazon等Web类企业中。然而在最近,重视数据分析的企业,无论是哪个行业,都在积极招募数据科学家,这也令人手不足的状况雪上加霜。
大型IT厂商EMC在2011年12月发表的一份关于数据科学家的调查报告“EMC Data Science Study”中提出了一些非常有意思的见解。
该调查的对象包括美国、英国、法国、德国、印度、中国的数据科学家,以及商业智能专家等IT部门的决策者,共计462人。除此之外,EMC还从2011年5月在拉斯维加斯召开的“数据科学家峰会”的参加者,以及在线数据科学家社区Kaggle中邀请了35人参加这项调查。该调查结果的要点如下。
首先,三分之二的参加者认为数据科学家供不应求。这一点与前面提到的麦肯锡的报告是相同的。 对于新的数据科学家供给来源,有三分之一的人期待“计算机科学专业的学生”,排名第一,而另一方面,期待现有商业智能专家的却只有12%,这一结果比较出人意料(图表8-6)。也就是说,大部分人认为,现在的商业智能专家无法满足对数据科学家的需求。
数据科学家与商业智能专家之间的区别在于,从包括公司外部数据在内的数据获取阶段,一直到基于数据最终产生业务上的决策,数据科学家大多会贯穿数据的整个生命周期。这一过程中也包括对数据的过滤、系统化、可视化等工作

数据人网主编:陆勤


    关注 R语言中文社区


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册