【交易技术前沿】大数据分析的9大流言 / 庄汉嘉

本文选自《交易技术前沿》第22期（2016年3月）。

庄汉嘉
上交所技术有限公司规划部
Email:hjzhuang@sse.com.cn

报告部分节选自Gartner研究报告。中文摘要
如今大数据概念炙手可热，围绕其展开的讨论话题也层出不穷，其中当然不乏谬误。这些错误观念在大数据热潮下不断发酵，形成了许多流言和误区。比如，许多人觉得只要数据量够大就能消除数据的偏向性、质量、可预测性等固有问题，实际上并不能。笃信此类错误观念将阻碍人们制定有效的数据挖掘策略。为向读者澄清误区，我们将在此列举其中9大流言进行解释。

流言之一：80%的数据都是非结构化的

分析师：Mark A. Beye，Alexander Linden
流传最久、最广的流言之一是，在数据和信息领域80%的数据都是非结构化的。
现实：
这一流言有很大漏洞，可能导致各种错误的结论和进一步误解。任何数据都有其结构化的一面，只是也许不明显或不常用。如果数据没有结构，也就没有任何值得分析的特征了。IT专家们比较习惯关系型数据，往往因非关系型数据难以轻松塞进他们熟悉的关系型数据库，就把所有非关系型的数据都称为“非结构化”数据。
建议：

1.着手培养非关系型数据库人才，根据具体需求，选择图像数据库或其它NoSQL系列数据库。
2.避免此类观点“我们的数据80%都是非结构化的，那我们就该投入80%的精力”。相反，应努力理解所需解决问题的核心，然后将精力放在对解决问题帮助最大的数据源上。
3.不要轻信那些用此类错误观点推销“非结构化”解决方案的软件供应商。

流言之二：深度分析只是高级版的“基本”分析

分析师：Alexander Linden
许多Gartner的用户都认为，当他们掌握基本分析之后，只需要更多培训和软件工具就能开展深度分析了。
现实：
深度分析并不只是复杂版的基本分析。“基本”分析主要汇报发生了什么（描述性分析），而深度分析涉及预测分析和规范分析，旨在解决问题。预测分析是预测未来的事件和行为，比如消费者的购物行为或设备宕机。规范分析则更进一步，它能根据预测结论建议下一步行动。
比如，预测分析得出一台设备即将在未来某个工作阶段宕机，随后规范分析将建议企业在那个工作阶段到来前进行维护。以此预防计划外停机的损失。
深度分析与基本分析有本质上的区别且依赖不同技能。这些技能包括对统计学、机器学习和运筹学的深入理解。
尽管深度分析工具已越来越易用，但与基本分析工具间仍有较大差异。因此深度分析工具市场在市场定义上一般是同传统的商业智能（BI）分析市场分开的。
建议：

1.应了解到，深度分析与基本分析在技能、工具和用例上存在巨大差异，数据科学相关的技能非常稀缺。不具备深度分析相关技能和工具就很难设计可靠的战略。
2.传统IT部门通常没有动力实施深度分析项目，当然这也取决于公司文化。

流言之三：内嵌分析工具就够用了

分析师：Kimberly Harris-Ferrante，Mark A. Beyer
越来越多的行业特有应用和其它业务应用的供应商们都开始在其产品中内嵌分析模块。许多终端用户认为内嵌分析模块的产品就足以满足他们对商业智能（BI）和分析的需求，从而无需再投资企业级解决方案。
现实：
大部分企业既需要内嵌式也需要企业级的分析解决方案，以应对商业智能和分析需求。
典型的内嵌式分析模块只能覆盖特定业务流程或处理系统，它们额外提供的报告和指标也许只能为一个业务单元提供服务。然而，大部分企业拥有许多处理系统、流程系统和业务单元，它们需要整合分析以评估全企业范围的运营和表现。
许多内嵌分析工具只是个拥有漂亮界面的高级报告平台，缺乏有更大业务价值的预测建模能力。
企业往往会投资多个内嵌分析工具，因为业务部门总想拥有独立分析能力。这带来了数据标准和模型规范问题，如很难保证全公司用的指标都遵循同一规范。这对数据和分析治理提出了更高要求。
建议：

1.评估数据治理原则及新分析工具的采购流程。确保该原则突出了与企业数据仓库同步的重点需求。
2.对考虑购买分析工具的业务部门，应指导他们提出技术和数据上的需求，使之符合企业的数据战略。
3.建立基本的指标库，收集全公司范围内的常用及可能被内嵌分析工具用到的指标。规范化报告中涉及的数据和模型，让它们使用的指标保持一致。

流言之四：分析工具终将取代数据专家

分析师：Lisa Kart，Mark A. Beyer
许多提供深度分析解决方案的供应商都会标榜其数据分析功能简单易用，任何人无需编程经验、无需多年训练、无需预测算法知识都可以使用。这让不少企业有一种以后就不需要数据专家了的幻觉。
现实：
数据专家目前很紧缺。Gartner之前已预测到至2015年全球将有4400万份大数据相关工作，但其中只有1/3的岗位能招到合适的人。我们预期市场对数据专家的需求将越来越大。
数据专家工作涉及多个学科领域，包括：

深度分析
机器学习
计算机科学
运筹学
编程
数据管理

这些技术都必须结合实际业务和实操经验。如今，越来越多的大学正提供数据科学相关专业的培训和教学。数据挖掘领域的专家也将正将其数据挖掘、建模的实战经验引入这些领域。
近些年，深度分析平台产品已经愈发易用，拥有可视化接口，减少了对编程的依赖。但企业仍需要数据专家和它们的实战经验。
内嵌式分析和服务供应商的解决方案都帮助缓解了数据专家的缺口。尽管业务人员才是这些应用的主要用户，但内嵌模型也需要数据专家去构建。因此，分析工具的进步可以优化数据分析师配置，却不能代替数据专家。
建议：

1.不要轻信供应商关于“购买某产品后就不需要数据分析师或有经验的用户了”的论调。
2.如果存在深度分析或为业务用户提供大数据应用的需求，应在企业内部保有一定的大数据技能。如果做不到，那就应该打包购买大数据分析应用或从有经验的服务供应商处寻求帮助。
3.考虑组建一支大数据专家组，有选择地掌握数据科学所必须的相关技能。

流言之五：只有数据或运筹学博士才能当大数据专家

分析师：Noha Tohamy，Alexander Linden
这个流言一方面强调了博士学位的重要性，另一方面则传递了“没有数据学或运筹学博士学位就无法胜任大数据分析工作”这一观点。
现实：
在最顶尖的数据专家中，有些也没接受过数据或运筹学等专业的高等教育，更别说博士了。
顶尖数据专家所拥有的是在数据和运筹学领域的全面能力。他们理解业务流程，热衷于从数据感知现实，擅长为实际工作设定数据对标。他们充满好奇心，有能力提出关键问题并从数据中找到答案。他们有高超的分析能力，这种能力将得到软件的加强。
建议：
请记住你有三种解决数据方面需求的途径：自建、采购或外包。

自建数据解决方案：首先应认识到你手上的数据资源需要深度建模及数据或运筹学的高超能力。然后确保其它员工有能力与建模者一起维护模型与业务的持续匹配。
采购数据解决方案：在向供应商购买解决方案的同时，应寻找能与供应商配合的外部资源，提供员工培训及特定业务需求的工具配置。这一外部资源必须拥有数据分析经验，但无需从零开始构建数据解决方案。
外包数据解决方案：确保企业内部相关人员拥有高效的外包管理经验。组员要有很强的数据直觉，但无需实操经验。

流言之六：描述性分析关注过去，预测性分析关注未来

分析师：Alexander Linden
许多人认为描述性分析是针对过去的，而预测性分析针对未来。
现实：
所有类型的分析都是基于过去的数据，而其中大多数都针对未来。
各类分析结果都是通过分析过去收集的数据而获得的，因此分析的前提是被分析对象在未来的“行为”将和过去相似。有时这种前提是不成立的，比如遭遇特定的市场变化如通胀率变化、季节性调整、新营销策略或产品。一旦碰到这种事，就难以从过去的数据预知未来，可能得出不可靠的分析结论，并带来糟糕甚至有害的决策。
建议：

1.了解数据模型校准和管理的重要性，尤其要注意跟踪模型的表现。
2.理解需求与对应数据集的关联性。
3.尽量选择时间较近的数据集以增加关联性，有利于机器学习匹配当前模式。

流言之七：快速分析等同于实时分析

分析师：W. Roy Schulte
Hadoop、no-SQL DBMSs、内存数据库、内存数据块和其它大数据技术执行查询和分析模型的速度远超传统技术。许多人都称之为实时分析，即便分析的数据可能是几周前的。
现实：
除非分析用的所有输入数据都是几秒或几分钟前捕获的，否则就和实时分析完全不沾边。尽管基于陈旧数据的快速分析对某些决策非常有用，但这并不是实时分析，它无法满足用户对了解即时情况，如正在发生的新威胁或新机遇方面的需求。
严格地说，一个系统是否实时取决于其对即时数据的反应延迟。考虑到各个环节的延迟，通常一个系统能在一秒或数秒内完成任务。但也有系统可以接受分钟级的反应延迟，人们有时称这类系统为“业务实时”或“近实时”系统。
建议：

1.在调研客户对新系统的需求时，询问他们在决策时是否需要即时信息，还是说历史数据就足够了。
2.分析解决方案无需拘泥其反应是实时、近实时还是不实时。应根据具体的业务问题，设计“适时”反应的分析方案。
3.对大体量数据流的低延迟分析需求（亚毫秒、微秒或秒级），应使用事件流处理技术，如复杂事件处理或分布式流计算平台。其数据源可能包括传感器、市场数据供应商、交易处理系统、网站等。
4.为获得基于即时数据的近实时（分钟级）分析能力，可使用业务活动监控平台、电子表格工具、数据发现和商业智能报表等工具。也可以使用预测或规范分析。

流言之八：大数据几乎可以预测一切

分析师：Alexander Linden、Gareth Herschel
市场上到处都是“只要数据给够，什么都能预测”的论调，许多像《大数据时代》那样的书都在畅想大数据的无限可能。
现实：
在拥有更多数据、拓展更多数据源后，我们确实能够预测更多的事情。比如在飞行界，通过数据分析能够提前预警发动机故障，预防安全事故的发生。但还有很多事，尤其在复杂领域，是我们难以预测的，诸如司法问题、政治问题、地震等自然问题。
预测是件很难的事，即使拥有同质、高度结构化、源源不断的数据流。以网络营销为例，现在网络广告的点击率极低，大约在0.2%到0.3%，然而没有一个分析方案能够预测何种广告对特定个体能产生最高的点击率。点击率数据干扰较大且不稳定，通常只能反应个体在特定时间的情绪或需求。
以下列出我们为何很难预测一些事物的原因：

1.任意单个机构所掌握的信息都不足以预测个体的动机和欲望。
2.不是每个用户行为或事件背后的原因都能从数据中提取。
3.只有当预测对象人数够多，如包含至少1000到5000个个体，预测性分析才能取得有效结论。

建议：

1.不要认为将来一切皆可预测，这不可能。即使相关数据的量会大幅增加，预测的误差范围仍将大的惊人。在影响因素变量较多的领域尤为如此。
2.了解哪些问题是数据越多预测就越准的。数据都有其内在的重复性，因此拥有许多数据未必会增加预测的准确性。

流言之九：大数据没有偏见

分析师：Carol Rozwell，Alexander Linden
许多人相信，考虑到大数据的绝对体量之大及其数据源之丰富，大数据是公正的，不存在偏见。
事实：
不管体量多大，只要是数据就一定有偏向性。数据是抱着特定目的的测量的结果，而数据采集的机制本身就带有偏向性。
在处理有偏向性的数据时应格外小心，只有确保你所选择的样本足够有代表性才能得出有意义的结论。你必须保证样本池中没有哪一部分被过度或过少代表了，否则得出的结论就无法推广到更广泛群体中。
以社交媒体为例，社交媒体能为其数据分析师提供海量的数据集进行各种类型的分析，如情绪、潮流、安全威胁和热门话题。然而，社交媒体产生的数据本身就是个带偏向性的样本，比如社交网站用户一般都是年轻人。
建议：

1.以社交媒体为例，应将社交媒体监控数据与其它用户交互渠道结合，以更好的利用样本在年龄上的偏向性。
2.应认识到不论数据源是什么、有多少，任何产生数据的机制都带有一定的偏向性。
3.引导数据专家发现数据中的偏向性，并减少这些偏向性对结论的影响。

免责声明

本公众号内容仅供参考。对任何因直接或间接使用本公众号内容而造成的损失，包括但不限于因有关内容不准确、不完整而导致的损失，本公众号不承担任何法律责任。如有问题请反馈至tech_support@sse.com.cn。

--------------------------
上海证券交易所为证券公司、基金管理公司等市场参与者及相关行业机构提供交易技术支持与服务，包括日常交易技术支持、技术交流研讨、市场调查反馈、证券信息技术知识库、测试等服务。