专题外行人看大数据 数据行业如何雇佣员工的几点建议(上)

 

大数据已经成为一项火热的新产业,想要涉足这个产业,你需要了解的技能和背景都有哪些呢?数据科学、数据工程还有数...


哇特机器人发现好用的机器人  

编辑:张良      校对排版:吴双
大数据已经成为一项火热的新产业,想要涉足这个产业,你需要了解的技能和背景都有哪些呢?数据科学、数据工程还有数据分析都广受瞩目。其中,数据科学被广泛地应用在各个不同机构,由于各个机构的差异性,想要列举出比较系统的、不具争议的数据科学所需的技能相对来说要求比较高。在高水准的数据分析领域,数据科学家常常需要掌握一系列较为复杂的工具和技能来获取、转换、分析并权衡数据。
如果一家公司想要雇佣数据分析师,对这家公司而言,它所需要的的人才不仅仅只是会分析数据而已。数据类工作所涵盖的范围远远超出数据本身,在数据类工作中,需要有专人来处理收集到的数据、存储数据、分析数据以及将数据拟合到商业用途上。最终,一个良好的数据化策略是集合了各大部门的通力配合下完成的,包括算法的编写、数据的归纳整理、数据编译等。

(一)数据的存储

数据的存储是数据管理重要的一步,因为你拥有越多的数据,就意味着越多的服务、硬件以及第三方服务需要处理。然而,数据的存储除了捕捉整理数据,还包括数据的转码编译,甚至包括做一些重要的决策以确保在数据的修复和分析过程中依旧能保留数据的有效性。
数据的存储在数据科学中的角色相对而言是显而易见,它主要涉及筛选、转换、装载(ETL)以及数据摄取。Ashish Thusoo是一家数据处理公司的联合创始人兼CEO,他表示在自己的数据科学事业生涯中,数据存储最重要的是“先搞清楚现有技术所能承载的容量和限制”。除此之外,他也指出了数据领域工作者要学会将商业性请求转换成SQL问句以及数据在需要的时候能及时被提取出来是很重要的。负责数据存储的工作人员没有成为该领域专家的必要,或者懂得如何创造,运营以及维持数据存储的独立性。但是他们必须要懂得如何检查数据,在需要的时候如何提取出有效的数据。

(二)数据收集

数据收集工作量巨大,而且一般来说,公司会收集比自己需要量更大的数据。因此,在数据收集之前,应该先搞清楚自己想要收集什么样的数据,拥有什么类型的客户群体。就银行而言,银行对数据的要求很高,不能容许数据的滞后和在数据修复过程中出现延迟,因此银行雇佣的数据工作人员必须适应在高压环境中工作。相反,社会媒体网络对数据的要求没有那么高,允许在数据修复过程中短暂的不连续性。这就意味着公司在雇佣员工的时候应该着重考虑:“契合自己的商业模式”或“能适应灵活的、创新的环境”。



但是随着商业面临着“4V”:volume(体积)、 variety (种类)、velocity(速率)以及veracity(真实性),数据收集过程中的问题也渐渐暴露出来。一个数据收集工作者不能同时兼顾这四个问题,举个例子,解决收集数据的速率和真实性问题是数据工程方面的工作,这类问题可能连数据科学家和数据分析师都无法解决。Thusoo表示,自己一般会雇佣那些能知晓数据收集中错综复杂的关系、哪些东西可能有问题的员工。在计算领域有一句谚语“Garbage in, garbage out”,这同样适用于数据。查阅应征者的简历不应该只是看是否有该领域的经验,更要看员工能否发现数据的质量问题并加以解决问题的能力。






    关注 哇特机器人


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册