【御数图书馆】十步获取高质量数据之七:步骤3.5-3.12
上期分享中,我们一起学习了“十步法”第三步——评估数据质量的前四个子步骤,在今天的内容中,我们将完成第三步全部内容的学习,小伙伴们准备好了吗?开始喽~~...
上期分享中,我们一起学习了“十步法”第三步——评估数据质量的前四个子步骤,在今天的内容中,我们将完成第三步全部内容的学习,小伙伴们准备好了吗?开始喽~~~O(∩_∩)O~
步骤三:评估数据质量(二)
◆ ◆ ◆
步骤3.5 一致性和同步性
1、业务效益及背景(1)一致性和同步性:是指对在各种数据仓库、应用和系统中存储或使用的信息等价性的测量标准,以及使数据等价的过程。
(2)此类评估判断的是当信息在各种数据仓库、应用、流程及其他类似环境中存储或使用时,整个信息生命周期过程中的相似信息,并确定信息是否一致。
2、方法
(1)确定冗余存储数据的数据库。参考步骤2.6—定义信息生命周期的结果,确定存储数据的各种位置。
(2)对每个感兴趣的字段,确定其驻留的每一数据库的细节。这是当相同数据存储在每个数据库中时的详细映射。参考步骤2.2—了解相关数据和规范。
(3)从第一个数据库中抽取数据,并从每个冗余数据库中选择相应的记录。使用第五章“数据捕获”一节,确保正在抽取正确的数据。
(4)将每个冗余数据库中的数据和原始数据库中的数据相比较。确定是否有一个数据库被看成权威性参考源。
(5)分析和报告一致性结果。注意存在不必要冗余的地方。
(6)对结果和所建议的行动归档。包括所了解的经验、如准确性结果对业务的潜在影响、可疑的根本原因,以及初步建议。
3、样本输出及模板
(1)形势:
- 背景——该信息最终经过各种流程,最后进入客户主数据库,在那里,该信息再进一步被移动,并用于交易和报告系统中。
- 焦点——测试客户主数据库与使用客户数据的一个交易系统——服务和维修应用软件(SRA)的数据一致性。
- 调查”覆写“标志——项目组想了解”覆写“标志为“是”的那些记录之间的差异大小,以及数据差异的本质。
- 抽取记录——项目组在”覆写“标志为“是”处从SRA中抽取数据,然后从客户数据库中抽取相关记录。在进行比较时,客户主数据库被认为是记录的系统。项目组使用数据剖析工具来对两个数据进行内容剖析,然后对数据进行等价性比较。
- 方法——随机采样和人工比较——对某些数据元素的比较时人工进行的。选择对每个地区进行剖析所得数据总体的随机采样。
图10 人工一致性比较的结果
◆ ◆ ◆
步骤3.6 及时性和有效性
1、业务效益及背景(1)及时性和有效性:是数据在预期时段内对特定应用的及时程度和可用程度的测量标准。
(2)如果数据是最新的,而且是一个及时信息链的正常结果,数据就是及时的。
(3)“特定应用”是指在业务需要数据时有数据可用。
2、方法
(1)确定信息生命周期。参考步骤2.6—定义信息生命周期,并进行必要的修正。
(2)确定需评估及时性和有效性的信息生命周期阶段。
(3)确定在整个流程中测量信息传递时间的流程。与信息技术小组一起了解数据库的更新和加载时间表。
(4)选择记录的一个随机样本在信息生命周期中进行跟踪。在生命周期中,不是向前移动就是向后移动。
(5)确定在每个记录流程中步骤之间的移动。将流程中每一步骤的开始时间、停止时间和实耗时间归档。
(6)汇编和分析及时性测试结果。考虑以下问题:
- 什么是及时性的必要条件,在流程的每一个步骤,何时需要信息是可用的。
- 流程和职责是否以一个及时的方式完成,如果不是,为什么。
- 是否有可提供帮助的、可用变更的因素。
3、样本输出及模板
(1)形势:该实例是步骤3.5的继续,假设一次一致性评估已完成,随着数据在信息生命周期内的移动,企业想了解该过程中事件的时间安排,为了及时性和有效性,仔细检查了一个地区生命周期的子集。
(2)需求:对客户信息的改动必须反映在客户主数据库中,并在知道变更的24h内使其对交易应用可用。在整个流程中跟踪一个记录的结果如图11所示。
图11 跟踪和记录及时性
图12 及时性结果和初步建议
◆ ◆ ◆
步骤3.7 易用性和可维护性
1、业务效益及背景
(1)易用性和可维护性:是数据在能够被访问和使用的程度以及能够被更新、维护和管理的程度的测量标准。
(2)易用性和可维护性受数据模型的影响,合适的数据结构可以确保数据的重用性和有效性。
2、方法
(1)确定要评估哪些数据或信息的易用性,为什么。可能已完成重复评估,并发现因创建一个新纪录比发现一个已有记录更容易,因此创造了重复。
(2)评估数据的易用性。
- 参考信息生命周期中与易用性相关的所有线索。
- 最需要做的是采访知识工作者,并让他们演示流程。
- 确保知识工作者和管理人员都同意在会谈上花费时间。
- 归档并安排流程步骤。
(4)将结果和所建议的行动归档。包括所了解的经验、对业务的可能影响、可疑的根本原因以及初步建议。
◆ ◆ ◆
步骤3.8 数据覆盖
1、业务效益及背景(1)数据覆盖:指相对于感兴趣数据总体或数据全体,数据的可用性和全面性的测量标准。
(2)覆盖的思想也用于确定什么总体应该或不应该包括在特定的评估、流程或项目中。
2、方法
(1)因关系到业务需求,请在工程项目的背景中定义覆盖、数据总体和目标。以下是在特定项目中,对覆盖和数据总体的定义实例:
a.覆盖——对客户数据库中所收集的有源安装设备的百分比估计。
- 数据总体:某地区安装基础市场(客户或已安装的产品)
- 目标:确定如何更好地测量数据库,以捕获和反映该地区内安装市场基地的全体。
- 数据总体:一个购买公司产品的特定战略客户的所有美国地点。
- 目标:确定被测数据库捕获和反映该特定战略客户地点的程度。
(3)测量数据库总体的规模。对反映兴趣总体的记录进行记录计数。
(4)计算覆盖。将从执行步骤3获得的记录总数与估计的数据总体相除,提供数据库的覆盖百分比。
(5)分析结果。确定覆盖是否足以满足业务需求。大于100%,表明问题多半是因为数据资料非常少或有其他数据质量问题,比如重复记录。
(6)将结果和所建议的行动归档。包括评估结果、所了解的经验、对业务的可能影响、可疑的根本原因以及初步建议。
◆ ◆ ◆
步骤3.9 表达质量
1、业务效益及背景(1)表达质量:指如何进行有效信息表达,以及如何从用户中收集信息的测量标准。
(2)评价表达质量涉及评价者的观点和信息使用者的观点,为了使评价者了解信息使用者的观点,必须熟悉信息的应用方式(其目的)以及该用法的上下文背景。如存在不一致、错误或容易误解的设计,评价者可建议改进表达质量。
(3)重要提示:从信息使用者的观点出发,以一种简单、有效的方式表达信息(供采集和报告)可增加整体信息质量。
2、方法
(1)定义信息和关联的表达媒体。媒体是指沟通的各种手段,包括(但不限于)用户指南、网络调查、硬拷贝形式、数据库输入界面。
- 确定哪些信息需检查表达质量。
- 发现何时何地表达信息,以及与它的表达相关联的媒体。
- 找出谁应用该信息。
- 那些数据被获取的各种途径是什么。
- 什么是原始来源。
- 什么时候表达信息。
- 什么人使用信息,其原因是什么。
(3)分析信息和格式的质量。
- 采访用户,发现他们是否在正确使用媒体方面有困难。
- 比较通过几个媒体收集的信息,以确保是否每一个媒体正在影响信息的收集。
- 正在被请求的数据是否定义清晰。
- 问题是否清楚,回答者是否理解被询问的问题。
- 是否在适当的地方有可能答案的列表。
- 是否存在冗余的问题。
- 可能的答案是否完整,是否覆盖了所有的潜在答案。
- 可能的答案是否相互冲突,一个问题是否只有一个正确的回答。
- 表达质量是否需要可能引入错误的说明。
- 是否有完整的流程指南。
- 报告标题是否简洁并能体现报告的内容。
- 如果使用表格,列标题和行标题是否简洁并能体现内容。
3、样本输出及模板
(1)实例1:如图13所示,公司执行了一项数据剖析评估,并发现了一些质量问题。通过分析,确定其中的一些数据质量问题是因为具有许多不同的采集客户信息的方法,各个媒体都提出问题,并以不同的方式提供可能的回答。没有标准化回答和改进问题的流程。
图13 表达质量比较
图14 表达质量——采集信息卡信息
◆ ◆ ◆
步骤3.10 可理解性、相关性和可信度
1、业务效益及背景
(1)可理解性、相关性和可信度:是数据质量的可理解性和数据质量中置信度的测量标准,也指数据对业务需求的重要性、实用性和相关性。
(2)该评估从信息使用者的角度评估数据的质量,可用于:
- 了解哪些数据对业务最有价值,进而了解哪些数据在管理和维护时具有最高优先级。
- 了解影响信息使用者的数据质量问题,以便在重点数据质量项目中对它们划分优先级。
- 从信息使用者的角度,了解劣质数据对工作职责的影响。
- 了解信息使用者对数据的直觉,将他们的看法与实际数据质量评估结果相比较。
- 通过沟通解决理解与现实之间的落差。
准备
(1)定义调查目标。确定将支持什么决策以及需获取什么答案。
(2)确定调查参与人员。选择有代表性的信息使用者参与调查。
(3)决定使用哪种调查方法。如电话、邮寄、网页、电邮和小组讨论。
(4)开发调查工具。调查工具指的是问题和可能答案的标准列表,使用该列表课捕获调查答复。格式可采用硬拷贝或软拷贝。
如果以更规范的形式提出更多的问题,参考以下建议:
- 介绍——应有一个客服中心,描述对回答者或对回答者代表的组织的益处。
- 主体——问答部分。设计得全面而简洁。回答应使用便于回答者完成,并便于采集数据的人存储和归档的格式。问题应能提取出支持目标所需要的信息。
- 结束语——应给予回答者提供其他信息、洞察力或反馈的能力。应以一句诚挚的感谢语结束。
要衡量的一般问题陈述可能包括:
- 该信息对于履行职责是重要的。(表示相关性或实用性)
- 在我看来,该信息是可靠的。(表示质量的可理解性)
(6)测试调查流程。进行清晰度测试以确保回答者理解并能够做出适当的回答。
(7)创建或抽取要调查的列表。一个项目决定调查使用某一特定应用软件的信息使用者。结果将用于划分要解决数据质量问题的优先等级。
实施:执行调查时请注意以下几点
(1)采集结果。
(2)在整个调查期间对问答情况进行监测,以确定调查正常进行。
(3)当已调查了预定数量的信息使用者或时间期限已到,请停止调查。
分析
(1)确定所有回答都已录入和归档。
(2)分析结果。将质量的可理解性与来自其他数据质量评估中的实际质量结果相比较。
最佳实践:鼓励坦率回答,当进行面对面调查时,通过记录来捕捉结果,稍后再将其录入到调查工具中,这种方式产生的干扰较小。
(3)对结果和所建议的行动归档。包括调查的复制、被调查的人、执行调查的人、所使用的流程,以及回答者的数量,还包括调查结果,所了解的经验,对业务的影响、可疑的根本原因以及初步建议。
(4)沟通。向参与调查的人员反馈信息。
3、样本输出及模板
(1)将来自信息使用者的实例和事例汇编进一个文档。借助于信息使用者执行公司工作流程的能力,他们最能描述信息质量的影响。
(2)归档可以达到以下目的:
有助于为各种数据质量提高项目建立行动案例。
通常而言,有助于巩固数据质量流程的广泛支持。
◆ ◆ ◆
步骤3.11 数据衰变
1、业务效益及背景(1)数据衰变:是数据负面变化率的一个测量标准。
(2)数据衰变也成为数据风化,是最高优先级数据的一个有用的测量标准,受系统控制以外事件结果的变化支配。
(3)导致数据衰变的五个流程:没捕捉的变更、系统更新、新的数据使用、专门知识的遗失、流程自动化。
2、方法
(1)针对导致数据衰变的流程和已知在快速衰变的数据而快速检查环境。
(2)使用先前的评估结果以确定数据衰变。
- 参考数据评估随时间而变化的统计结果,如数据完整性准则、准确性、并行性和及时性。
- 从外部源中寻找关于变化率的信息。
- 当数据衰变强调数据负变化率的同时,也要从数据创建节点的角度考虑变化率。
(4)分析结果。
(5)对评估结果和所建议的行动归档。包括所了解的经验、对业务的可能影响、可疑的根本原因以及初步建议。
3、样本输出及模板
如图16所示,比较了同一应用软件在两个地区的更新结果。
(1)该应用有一个成为客户联系有效日期的字段,该字段应在客户信息管理者联系客户时进行更新,通过查看该字段,可以做关于客户数据衰变速率的假设。
图16 使用客户联系有效日期字段分析数据衰变
(3)改变用户显示(表达质量),使客户联系有效日期字段能够供那些正在联系客户的人使用。
◆ ◆ ◆
步骤3.12 效用性
1、业务效益及背景(1)效用性:是数据将产生期望的业务交易或结果的程度的测量标准。
(2)通常作为测试的组成部分,包括在一个标准的项目生命周期内。
(3)需注意:开发需求、创建转换规则、清洗源数据的人员需要参与测试那些他们帮助清洗或创建的数据。如果业务流程不能很好地完成,标准或需求就没有用处。
2、方法
(1)获得项目测试组的支持。
(2)确保正在测试的数据是满足需求的数据。
- 使用数据剖析的好时机。
- 在整个流程中使用数据之前评判数据。
(4)基于结果更新数据需求,并进行再测试。
(5)对评估结果和所建议的行动归档。应在该步骤迅速采取行动,因为它应存在于任何标准测试周期中,确保将任何所需变更都生成转换规则,或作为项目组成部分的源数据清洗行动。
◆ ◆ ◆
小结
1、沟通:
(1)质量评估结果、对业务的初步影响、可疑的根本原因以及初步建议是否已通知了利益相关者,利益相关者对了解的经验以及当前的行动计划的反应如何?
(2)项目组所有成员是否都知道了同样的信息,项目组成员的反应如何?
(3)根据在数据质量评估中所了解的经验,是否对项目范围、时间期限和资源的可能影响或变更进行过沟通?
2、检查点:如何才能判断是否准备进入下一个步骤?以下是几条确定该步骤完整性的原则:
(1)相关数据质量评估是否已完成?
(2)分析所必需的追踪调查是否已完成?
(3)每项质量评估的结果是否已得到分析并归档?
(4)对每项质量评估,包括对业务的初步影响、可疑的根本原因以及初步建议在内的资料是否已归档?
(5)如果执行多个评估,对来自所有评估的结果是否进行了汇总和综合?
(6)沟通方案是否已更新?
(7)该节点所需的沟通是否已完成?
关注 御数坊
微信扫一扫关注公众号