【御数图书馆】十步获取高质量数据之六:步骤3.1-3.4

 

今天我们就一起来学习步骤三:评估数据质量的前四个子步骤,Comeon!...







通过前几期的学习,小伙伴儿们对有关信息和数据质量的基本概念,及“十步法”中的步骤一:定义业务需求和方法、步骤二:分析信息环境都有了比较清晰的理解,那么,今天我们就一起来学习步骤三:评估数据质量的前四个子步骤,Come on!

步骤三:评估数据质量(一)
◆ ◆ ◆
引言



如图1所示,评估数据质量提供了一个子步骤,该子步骤中包括对图2中所列的12个质量维度的详细说明。评估提供了对数据和信息实际质量的一个写照。数据质量维度评估的最优价值的收益是作为问题的具体依据,这些问题将成为在步骤一——定义业务需求和方法中确定的业务问题的构成基础。评估结果也为调查根本原因、纠正数据错误和预防未来数据错误提出了所需的信息背景。在质量评估之前获取一些背景将使评估更有效。




图1 步骤3—评估数据质量




图2 数据质量维度


问题1:多个数据质量维度会使评估更复杂吗?

鉴于以下原因,多个维度实际上会使评估具有更低的复杂度:

  • 匹配行动与业务优先级——只选择那些支持优先级的维度。
  • 以最高效的顺序执行任务——以最有效的次序评估维度。
结果如下:

  • 在时间和资源的约束条件下,有更好的行动定义和管理顺序。
  • 了解从各种质量评估中将能获取什么或无法获取什么。


问题1:如何选择要评估的质量维度?

当选择要评估的质量维度时,请自问以下问题:

  • 我应该访问该数据吗?当希望评估结果能给业务需求相关的行动信息时,才花时间进行测量。
  • 我能访问该数据吗?评判该质量维度是可能的或可行的吗?有时无法访问或测量该数据,或这么做的代价过高。
只有对这两个问题的问题都是肯定的,才能评估这些维度!
◆ ◆ ◆
步骤3.1 数据规范


1、业务效益及背景

(1)数据规范维度的评估是指收集、估计规范和规则的集中努力。数据规范提供诠释数据质量评估结果的上下文背景,并提供人工录入数据、设计数据加载程序、更新信息和开发应用软件的说明。

(2)使用该步骤的途径:

  • 收集在其他数据质量维度中使用的数据规范——为应该实施的数据质量测量提供输入,并提供用于其他数据质量评估结果比较的标准。
  • 评估数据规范本身的质量——数据标准、数据模型、业务规则、元数据和参考数据。不存在的或劣质的数据规范本身经常是数据质量问题的原因。
  • 评估数据规范文档资料的质量——文档资料是否是可用的、可访问的和易于理解的。文档资料的质量也是数据质量问题的一个原因。


2、方法:

(1)确定数据规范评估的范围。确定是否将收集在其他评估中应用的规范,是否评估规范本身的质量,或是否评估规范文件的质量。

(2)开发和执行收集或创建数据规范的流程。

  • 如果规范已存在,将收集哪些规范,由谁、在什么时间收集它们?
  • 如果规范不存在,哪些规范需要专门撰写或创建,由谁来撰写以及截止时间。
  • 无论哪种情况,规范需要以什么格式归档?谁将在其他数据质量维度中使用以及如何使用这些规范?
(3)开发和执行评价数据规范质量的流程。

  • 确定比较要参考的来源——是否正在将数据库自身的数据规范与组织单位或企业范围内的规范相比较,或与公司外部的其他参考来源相比较?
  • 确定由谁来评价——合适的评价者是来自数据正在被评估的业务单位的内部审计人员、数据管理人员或者数据质量专业人士,也可能是业务单位以外的人士。评价者不应对正在评价的规范有既定的利益。
  • 完成数据规范评估——当评价数据规范的质量时,请根据图3的内容来考虑问题。




图3 数据规范质量


(4)开发和执行评价文档资料质量的流程。确定由什么人以及何时对文档资料进行评价,收集或获取访问各种文档资料列项的方法,完成评估请根据图4的内容来考虑问题。


图4 文档资料质量
(5)分析数据规范和文档资料质量评估的结果。大多数结果将是定性的,如果可能,则对结果进行量化。该步骤的知识是否会影响工程项目时间表、所需资源或交付使用的输出?如果是,如何影响?是否已经沟通?

(6)跟踪收集或创建数据规范的进程。确保工作按计划进行,并确保已存档的规范达到预期要求。参考图3所示,可有助于创建高质量数据规范。

(7)对结果和建议的行动归档。标出将在其他数据质量维度中予以测量,以赞成或者反对假定的那些规范,包括所了解的经验、对数据质量和业务的潜在影响、初始根本原因及初步建议。

3、样本输出及模板:这是决定数据规范工作范围的起点(参见图5)。


图5  数据规范范围模板
◆ ◆ ◆
步骤3.2 数据完整性准则


1、业务效益及背景

(1)数据完整性准则:是对数据的存在性、有效性、结构、内容和其他基本特性的测量标准。

(2)数据剖析指以发现数据的结构、内容和质量为目的的分析技术的使用,数据剖析用于该步骤以阐明数据完整性准则维度的评估,建议将“数据完整性准则”作为首先评估的维度之一。

(3)数据剖析的使用:

  • 创建或验证数据模型。
  • 数据资产的存货清单。
  • 检查来自外部数据源的数据。
  • 改进源—目标映射。
  • 发现特殊数据质量问题。
  • 确认选择标准。
  • 确定记录系统。
  • 比较、分析并理解来源、目标和交易数据仓库。
  • 确定转换规则。
  • 控制和测量数据。
  • 发现根本原因的起始步骤。
  • 支持持续的数据质量检测。
(4)数据剖析的益处:

  • 提高工程项目时间表的预见性。
  • 将资源和努力集中于真正需要的地方。
  • 确定公司是否已拥有所需数据或是需要购买外部数据。
  • 支持数据集成和迁移测试。
  • 支持符合性和审计需求。
  • 提高支持业务决策的数据质量的可视性,对注定产生严重影响的数据,确定在何处评价其业务影响以及在何处集中进行根本原因分析。
(5)典型的剖析功能:(如下图所示)


图6  典型的剖析功能
(6)剖析的最佳实践:

  • 异常现象和决策的归档。
  • 在流程的所有阶段都有主题专家提供服务,以确保对问题进行迅速回答,以及对一些公开议题给出解决方案。
  • 因为实际数据反映所发生的真实情况,如果当前存在不同的观点,请参考真实数据。


2、方法:

(1)最终确定数据捕获和评估方案。参加步骤2.7以及第5章“数据捕获”。

(2)评估或抽取数据。

(3)剖析数据。购买剖析工具,接受适当的培训,使用来自该工具卖方的最佳可用实践。同时考虑数据能承担的风险。

(4)分析结果。使用工具,参考图7所示内容进行分析。






图7  数据完整性准则——测试、分析和行动
(5)将结果和建议的行动归档。捕获剖析评估结果和所了解的经验,包括通过分析发现的对业务的影响、潜在的根本原因以及解决所发现问题的初步建议。
如果说夏是一场浪漫,
则秋,注定是诗意飘摇。
◆ ◆ ◆
步骤3.3 重复
1、业务效益及背景

(1)重复是指对存在于系统内或系统之间的特定字段、记录或数据集意外重复的测量标准。

(2)检查重复是确定唯一性的过程,唯一性是指记录、实体或交易本身所存在的一个且是唯一的一个版本——无重复版本。

(3)“匹配”有时用于指“消除重复”,有时用于指“链接”。

(4)“保留”或“匹配—合并”:一旦潜在的重复被识别,就得决定哪些重复是真的,哪个记录应保留,哪些记录内容应带进新合并的记录。

匹配定义

(1)真是世界。

匹配——两个或多个记录表示同一个实物。

不匹配——一个唯一记录,数据总体中没有其他记录表示同一实物。

(2)通过业务规则和使用工具来描述真实世界。

  • 真正匹配——工具中执行的业务规则已识别出的、由业务检查确认的匹配。
  • 不匹配——工具中执行的业务规则已识别出的、由业务检查证实的唯一记录。
  • 负误识别——分类为不匹配的案例,但事实上应该是匹配的——遗漏匹配。结果受业务规则和使用工具的影响。
  • 正误识别——被错误地分类为匹配的案例,但事实上不匹配——错误匹配。结果受业务规则和使用工具的影响。
  • 匹配和不匹配重叠的地方显示灰色区域(如图8所示),越是远离灰色区域,越能确信匹配是真正的匹配,而且不匹配是真正的不匹配。


图8  匹配结果:匹配、不匹配和灰色区域


  • 如图9所示,仔细观察便能发现负误识别和正误识别的不同。


图9  匹配
:负误识别和正误识别


(3)平衡法。设定阈值:

  • 向左移动阈值可最大化匹配,但在减少遗漏匹配的同时,增加了不正确匹配。
  • 向右移动阈值在增加遗漏匹配的同时,将不正确匹配的数量最小化。
  • 如果不想遗漏真正匹配,记得忍受更多的不正确匹配。
2、方法

(1)指定消除重复行动的预期目标。

(2)确定企业如何评判唯一性并列出规则。

(3)确定用于发现重复和测试唯一性的工具。这是最有可能使用第三方工具的地方——发现重复的流程是最具自动化的。

(4)分析要消除重复的数据。对数据了解的越多,就越能更好的定制工具所需的标准和匹配程序。需将业务需求转换成工具所需的规则和算法:

  • 确定要比较的字段和匹配标准。
  • 确定标准化规则、消除重复算法、权重和阈值。
  • 要求几轮测试以使标准化和匹配程序达到可接受的水平。
  • 处理数据的录入方式、参考点和数据录入人知识上的差异。
(5)设计重复评估流程。

  • (业务和技术方面)感兴趣的总体和相关的选择标准是什么。
  • 将由谁以及何时抽取数据,需要什么样的输出格式。
  • 将由谁在消除重复工具中操作数据,何时进行。
  • 将由谁审查消除重复的结果,何时进行。
  • 将由谁报告测试和分析的结果,何时进行。
  • 将收集什么测量标准,需要什么报表。
(6)抽取数据。

(7)测试重复数据。

(8)分析结果并确定下一步骤。需考虑以下问题:

  • 发现的重复在什么层面,重复是否因地区、地理区域或对公司有意义的一些其他分类不同而不同。
  • 发现的重复的层面是否重要,重复对业务的影响是什么,在评估中所了解的经验能否提供足够的影响信息,以确定是否值得继续解决重复问题。
  • 是否希望这只是一个一次性评估,已对重复的了解是否将变更评估方案。
  • 将如何处理重复记录的清理,将如何处理仍为处理完的交易记录,并将其与已被识别为重复的主记录链接。
  • 如何防止创建重复记录。
  • 未来的消除重复将得到如何处理,作为一项预定的批量作业,是不定期的还是定期地被整合进另一个应用软件并实时使用。
  • 流程的多大比例将是自动化的。
(9)对结果和所建议的行动归档。包括所了解的经验,决定是否继续使用数据清洗工具等。
◆ ◆ ◆
步骤3.4 准确性
1、业务效益及背景

(1)准确性是指数据内容正确性的测量标准(需要一个确定的、可访问的权威参考源)。

(2)当决定在何处评估准确性时,考虑以下问题:

什么是权威参考源——对存货量来说,准确性只是通过产品存货的实际数量来核实。公司名称和领导层的准确性,可决定通过业内来源来核实。

参考源是否是可能的和可访问的——经常无法验证过去某段时间收集的数据。另一个问题是,为了核实用户在数据库中的信息而需面临的,限制与客户直接接触的规章。

是否知道企业为检查准确性可提供的记录数据量——使用剖析工具可经常检查所有记录。

2、方法:通过准备检验或调查、完成检验以及对结果进行打分和分析进行准确性评估。准备

(1)确定哪些数据原色可进行准确性评估。是否有权威性参考源,发现什么是或谁是数据的权威性参考源。该参考源是否可以访问,是否有防止为进行准确性比较而访问来源的约束。

(2)确定使用哪种评估方法。电话、邮件、对目标的物理观察、对数据库中的数据和打印出的参考源进行人工比较。当最终确定评估方法时,参考因素包括:文化、答复、时间表、约束、成本。

(3)确定谁将进行准确性评估。包括熟悉正在评估的数据但对数据不承担责任的人。

(4)确定采样方法。两个用于确定样本如何能够代表数据总体的特征:

  • 与数据总体相关的大小——为了提供数据总体的有效统计结果,需检查和完成的最小记录是多少。
  • 稳定性——如果一个样本的大小产生了一个结果,而且如果该样本大小的增加能产生同样的结果,该样本就具有稳定性。
(5)制定调查工具、调查想定、记录处置和更新原因。

  • 调查想定是调查人员在整个调查期间可能遇到的情形。
  • 更新原因解释了数据库中的信息与参考源提供的信息之间的比较结果。可能要跟踪准确性比较的每个字段的更新原因。
(6)制定调查或检验流程。用来比较数据与参考源,并捕获结果,确定如下事项:

  • 总流程——如果要发送调查,确定在哪里以及如何分发、返还和处理。如果准确性评估涉及检验,则确定何时以及如何进行检验。
  • 整体时间安排——任何重要的依赖关系。
  • 更新原因、打分准则、调查想定和记录处置被最终确定和归档。
  • 任一选项列表和相应编码都是正确的。
(7)开发报告和报告结果的流程。

  • 至少包括显示每个数据元素前后描述的每个记录的输出。
  • 每个记录处置的记录号码和百分比。
  • 确保报告的实体模型与报告的信息内容和格式一致。
  • 报告的最终确定。
(8)准备为准确性打分的流程。遵循以下步骤:

  • 排定数据优先级并对其加权。
  • 创建打分准则。
  • 创建积分器。
(9)为评估抽取合适的记录和字段。

(10)对即将执行评估的人员进行培训。多人实施评估时必须协调一致。

(11)自始至终运行和测试检验或调查流程。

执行

(1)收集结果。在整个调查期间捕获评估结果。(2)在整个调查期间检测评估进展。确定工作是否按时进展,是否在正确和协调一致地进行。必要时,停止工作并对调查工具进行调整,对调查人员提供另外的培训,以及采取其他相应措施。

(3)当达到期望完整(全部核对)记录数时停止评估。

分析

(1)获取最终报告。(2)根据打分准则为调查打分。打分旨在评估数据库中原有的数据与在评估中发现的数据之间的差异,打一个分数,并计算其准确性水平。

(3)分析调查结果。评判数据元素和记录层的准确性,也评判全部样本的准确性。分析记录处置统计数据——每一种处置记录的数量和百分比。其他考虑有:

  • 什么是准确性标准
  • 如果将结果于期望结果相比较,是否有始料未及的情况。
  • 准确性结果是否会因地区、地理区域或对公司有意义的其他一些分类的不同而不同。
  • 在评估中所得到的结果能否提供足够的影响信息,以确定是否值得继续讨论准确性问题。
  • 是否希望这只是一次性评估,是否已了解到将变更评估方案的有关准确性的知识。
  • 如何处理所发现的不准确记录的修正问题,谁来处理,何时处理?
  • 如何防止不准确记录的创建,对其根本原因有何看法?
(4)对结果和所建议的行动归档。包括所了解的经验,如准确性结果对业务的潜在影响、可能的根本原因以及初步建议。
◆ ◆ ◆
好了,今天的分享就到这里了,同学们系统地学习了步骤三——评估数据质量的前四个子步骤,分别是数据规范、数据完整性规则、重复和准确性评估,在下周二的“御数图书馆”中,我们将完成步骤三的全部内容,大家不要缺课哦O(∩_∩)O~


    关注 御数坊


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册