检察信息化人必看:三步,教你整合检察系统的外部数据

 

作者:宋啸天,江苏省镇江市人民检察院检察技术局信息研判中心新形势下检察工作如何顺利开展、如何做到创新的重要因...



作者:宋啸天,江苏省镇江市人民检察院检察技术局信息研判中心

新形势下检察工作如何顺利开展、如何做到创新的重要因素之一是能否合理有效的运用各领域数据资源。但由于检察工作覆盖面广、纵深程度高,所以只要是包含价值的数据,都应纳入检察数据中,确保查无所缺、用无所漏。

数据的广泛性与分散性也是身为检察技术人员的我们不得不考虑到的一点,而正巧本文为大家提出了一种面向检察工作的数据整合方法,能够较好的服务于各项检察监督工作,快来随小编我一同看看究竟。
外部数据来源


除法院等司法机关的法律文书等外部数据外,2017年2月10日国务院办公厅印发了《推进行政执法公示制度执法全过程记录制度重大执法决定法制审核制度试点工作方案》,确定在国土部、住建部、税务总局、江苏省等32个部门和地方开展试点。试点单位将通过规范化的文字、音像等记录方式对行政执法行文进行记录,实现全程留痕和可回溯管理。随着该工作方案的试点,此类数据量将成指数上升,这些数据将成为检察机关进行检察监督的一个重要数据来源。
外部数据整合步骤
数据的整合主要步骤如下数据的标准化整合、数据的规范化清洗、数据的智能化标记
数据的标准化整合
由于检察数据的采集时间、采集人员、采集方式等内容各不相同,导致同一类型的数据在格式上也有所区别,例如字段内容、字段数量、字段含义上的变化等。若将此类数据直接导入数据库之中,极有可能无法直接将其运用于实战之中,且会使数据库的关联关系、有效数据量受到影响,不利于数据库长期稳定可靠的运行。

例如,在某案件的监督过程中,我们从某行政单位获取到王某某的个人基本信息,采集到的数据可能随着时间在内容字段上出现差异。如下图所示,为各采集时间点的数据内容。
图1 数据采集内容示意图


通过上图可以看出,不同时间点采集的王某个人基本信息均发生了一定的变化,主要分为以下三点变化:
(一)内容变化

即采集的数据内容在字段的数量上出现变化。如2012年至2015年采集的数据包含6个字段,但是2016年采集的数据却包含了7个字段,若数据库仅预设了6个字段,将导致数据导入后发生第7个字段遗漏的现象,浪费了宝贵的数据价值。若数据库不预设足够多的字段,则可能出现数据遗漏的情况。
(二)属性变化

即采集的数据属性以隐性的方式显示。如2012年的“性别”字段为“0”。性别一般包含“男”、“女”、“未知”三种结果,此时我们采集的性别为“0”,则说明数据提供方对真实性别进行了字典索引,如“0”对应“男”,“1”对应“女”,当我们不清楚字典规则时,导入“年龄”这个字段将使得检察人员丈二和尚摸不着头脑,无从展开进一步的分析。
(三)长度变化

即数据包含的内容长度发生变化。如2013年的“服务处所”为“一处”,包含2个字符,而2016年的“服务处所”为“一局一处”,包含4个字符。这就导致数据库为了最大程度保存数据的价值必须不断扩充自身的存储库大小,不利于后期进行数据库管理。

为此,需要我们对采集到的原始数据展开标准化整合。标准化整合可分为以下三步:
(一)内容整合

采集数据字段内容数量的标准化整合是指在容括当前采集到的数据字段数量的前提下,应着眼于未来,提前设立一切可能发生变化的字段。

例如,采集的原始数据中有10个字段(姓名、性别、联系方式等),但是从检察工作实际应用的角度出发,数据中应当包含证件类型、证件号码等数据,那我们在创建数据库表格时应提前设立此类字段,字段值在不存在相关内容时可以设为NULL(为空),后期在采集过程中一旦出现相关内容,即可完成填充,从而确保数据的无障碍导入及价值的完全存储。
(二)属性整合

在采集数据时,原始表格中可能存在大量的特有属性字段,如我们采集到的王某的性别为“0”,当我们不清楚具体的字典转换策略时,其用于检察工作的价值趋近于零。

所以从数据库的设计合理性和实战的有效性出发,应该以人工的方式对原始数据进行字段价值的筛选,通过采集对应的字典数据对隐性内容进行显性转换,并使机器智能的记住相关筛选规则,确保后期遇到同种类数据时可以自动进行价值筛选,提升入库效率。
(三)长度整合

标准化整合最后需要进行的工作是字段长度的整合。如上图所示,如2013年的“服务处所”为“一处”,包含2个字符,而2016年的“服务处所”为“一局一处”,包含4个字符。若是在设计数据表时将“服务处所”的字符数上限设置为2个,则会导致2016年的“服务处所”内容溢出,造成数据库存储错误或内容缺失问题。

因此,本文针对此情况设计了一种数据字段长度设置方法。在设定数据的字段长度时,首先向上取历史数据字段长度最大值,利用历史的数据内容确定字段长度的基数值,随后根据字段长度的浮动情况在基数值上增加辅助溢出值,最后将三个值的累加结果作为字段的最终长度。

例:采集某数据时,对其中某项字段进行长度整合,字段的历史长度如下表所示。
表1 数据字段长度表


根表1可以得出,在历史的采集过程中,字段长度最大值为230字符,相邻字段差异最大值为150字符,平均差异值为65,则最终入库时该字段的长度应定义为445。

通过长度整合即确保数据资源的完整性和可靠性,也为后续的数据采集提供了支撑,在一定程度上能够有效的控制数据库的字段长度的改动频率。
数据的规范化清洗
本文认为,检察数据的核心用途之一是为上层的各类应用提供信息支撑,在经过标准化整合后,还需要对其进行规范化清洗,使之更加符合上层应用的流程习惯,确保数据发挥出自身的最大价值。规范化清洗依据不同的角度,可以分为三类:
第一类
从清洗的方式出发


定义为“方式清洗”,可以分为人工清洗和机器清洗;
(一)方式清洗

 1、人工清洗

人工清洗是指主要运用人力的形式对原始数据进行规范化操作,并在机器的辅助下实现数据的价值。通常情况下,原始数据包含的内容是全面的、不清晰的。为了使入库的数据能够切实有效的应用于实战之中,需要依据各类因素对其进行人工清洗,由于影响因素大多是指区域因素、重点关注因素、人为因素等不可量化的因素,只有依靠人力对原始数据进行初步清洗。

例如,某数据中显示人员甲的居住地为“香山大道”,但根据调查发现本地并无“香山大道”,仅存在“象山大道”,说明原始数据在登记时出现差错,而此问题无法在初始情况下由机器自行判断并修改,需要通过人工的形式进行清洗,从而确保数据的正确性。

 2、机器清洗

机器清洗则是人工清洗在技术上的升华,随着数据的采集量越来越大,单纯的依靠人工进行规范化清洗是一件异常艰难的工作,不仅耗时长,而且工作效率低下。在此情况下,可以由机器针对人工清洗的操作建立适当的清洗规则库,从而实现批量、快速、高效的规范化清洗。

例如,当通过人工将“香山大道”清洗为“象山大道”后,机器自行记忆此清洗规则,并通过代码实现库中数据的智能清洗,一旦建立完成对应的数据清洗规则,在后期再次遇到类似问题时即可以在入库过程中进行实施机器清洗自动整改,从根本上避免了人工干预,进一步提升数据的可靠性及有效性。
第二类
从清洗的对象出发


定义为“对象清洗”,可以分为结构化清洗和非结构化清洗;
(二)对象清洗

在原始数据的采集过程中,我们会发现数据的种类千变万化,不光是WORD、EXCEL等较为标准的文件,还会采集到各类音视频等非标准文件。针对采集文件的种类,我们可以将清洗方式分为“结构化清洗”和“非结构化清洗”。

 1、结构化清洗

结构化清洗是指对同一格式的同种类文件进行较为统一的清洗工作,如均为doc格式的某一类文书,我们可以筛选出其中的相同元素(如姓名、联系方式等字段)进行清洗,并通过在数据库中建立对应的关系文件表实施索引工作,这样即可在上层应用中快速定位到相关文件,提升检察工作的时效性。

 2、非结构化清洗

非结构化清洗是指对于一些不是由标准的、有一定规律文字组成的文件进行规范量化操作。在非结构化清洗中,需要针对每种格式的文件建立独立的清洗原则,如音频文件清洗规则、视频文件清洗规则、图片文件清洗规则等。这是由于文件格式的不同,其中包含的内容也各不相同,必须根据实际检察工作的需要进行清洗。

例如,音频文件中应该重视音频内容的文字转换、声音对象的区分、音色音调的分析、背景音分离等操作;而视频文件中又需要对每帧画面加入视频图像处理工作,从而实现视频文件的价值深度挖掘;图片文件除了对图片内容的构造方法、显性标识进行清洗外,还应对文件格式进行转换分析(如隐写:将文字经过格式隐藏于图片之中)。

不论是结构化清洗还是非结构化清洗,都应注意以下两点问题:

一是建立索引。

随着文件数量的上升,文件的搜索耗时也会随之增长,只有针对每个文件的特殊关键字建立对应的索引标记,才能进行文件的快速定位,在检察工作中切实的发挥数据的作用。

二是优化算法。

数据的应用过程会对文件的全部内容进行读取,当存在非结构化数据时,必须建立性能良好、工作高效、反应快速的文件检索算法,在不影响其他应用正常运行的前提下,从而能够对文件进行有效可靠的检索工作。
第三类
从清洗的内容出发


定义为“内容清洗”,可以分为直接清洗和内涵清洗;
(三)内容清洗

◆  1、直接清洗

直接清洗又可以称为表象清洗,即对那些可以由人眼直接识别的、具备通用性的错误(错别字、特殊字符)进行的清洗。

例如,身份证号显示为“321119990909101零”,则应将其中最后一个字符由机器自动清洗为数字“0”,从而满足上层应用的数据要求。又例如“XX小区11-206”,其中特殊字符“-”代表楼宇和楼层的分隔,应当由机器自动清洗为“XX小区11幢206室”。另外,当数据中对数据的描述进行了分类,如性别通过“0”、“1”、“2”进行代码标记,则需要在数据库中建立字典项,并在上层应用中实施清洗,性别字典表如下所示。
表2 性别字典示意表


 2、内涵清洗

内涵清洗是指对具备地域特殊性、必须经由人工进行初次清洗的数据进行清洗。在实际的检察工作中,我们经常会遇到上层应用显示结果与实际结果存在偏差的情况,其中一个主要原因就是数据的时间跨度较大,导致在描述方式、描述内容上发生变化,但其实质上仍保持一致。

例如,某检察人员对某生效的民事裁判进行监督,通过采集到的数据发现判决中涉及到一个关键地址“A”,其与民事证人所在的地址“B”关联性较弱。但是经由人工核实,两个地址实际表示同一地理位置,只是在时间上发生过更名。由于该数据潜在价值的重新体现,可以更加有效的协助法院进行民事裁判。当出现此类显性关联性较弱、隐性关联性极强的数据时,机器无法直接实施清洗操作,只有通过人工进行初步清洗,并让机器进行内涵清洗的格式学习,这样即确保了数据录入的准确率,也提高了数据的可用性,同时也极大程度的降低了检察人员的工作量,提高了检察工作的效率。
数据的智能化标记
为强化对检察数据的入库及运用管理,我们在数据的存储过程中采取了智能化标记的措施,在不修改数据原有内容的基础上,对其进行标记字段的添加,使得数据库的管理、使用更加清晰。

智能化标记主要分为“类别标记”、“时间标记”和“人员标记”。
(一)类别标记

类别标记是指根据特定的分类规则对数据进行存储,将同种类的数据存放于同一空间内,而将不同种类的数据在逻辑上进行隔离,并通过交叉索引(如姓名、身份证号码等)建立数据与数据之间的联系。

如下图所示,不同种类的数据通过逻辑隔离使得内容的读写更加便捷,同时通过关键字段的交叉索引可以实现数据之间的联动,确保数据的运用无所遗漏。
图2 类别标记方法示意图
(二)时间标记

时间标记是指在数据实施导入、修改、删除、导出等操作时,对受影响的数据添加时间标识,注明具体的操作时间及操作方法。增加时间标记一是可以与数据库日志相辅相成,对数据的各项操作进行严格管控;二是明确数据采集时间点,在后续的数据采集过程中,可以依据上一次的采集时间标记来确认该次采集数据的时间范围,避免数据的重复采集及数据重复。
(三)人员标记

人员标记与时间标记类似,但是更加侧重于对“人”的管理,也是对执行各项操作的数据添加人员标识,注明具体的操作人员账号、操作时间及操作方法,使得数据的操作有据可查,杜绝权限滥用。
数据整合平台的重要性
如上文所述,检察工作涉及到的外部数据具备多样性、大量性等多重特点,若是仅依靠U盘、电脑终端进行数据的存储

◆  一是数据容易丢失,

◆  二是容易造成泄密,

◆  三是无法进行深层次的价值发掘。

所以本文认为,针对各项检察工作的特殊性,建立一个“统分结合”的数据整合分析平台显得格外重要。

◆  将数据整合纳入平台的功能之中,可以确保数据的实时导入;

◆  通过数据库进行维护管理及冗余备份,可以强化数据资源的有效性及可靠性;

◆  将数据交由平台管理,也提升了数据的安全性,并可通过日志审计等形式建立检察人员的自监督模式。

在这里,我们提到的不是“整合平台”,而是“整合分析”平台。因为整合只是提升数据的可读性,间接的提升检察工作的时效性,但这只是数据应用的初级阶段,为了切实发挥数据的价值,需要由机器根据检察工作的具体需求对数据进行“智能分析”。

平台可以采用“统分结合”的方式加以建设,即以综合平台为底层,在其之上针对各项检察工作创建分支平台,这样即保证了各项检察工作的相对独立性,也提供了检察工作之间协作共享、交流沟通的通道,操作灵活、管理完善,能够满足各项检察工作的实际需求。


    关注 检察技术与信息化


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册