数据处理

 

数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意...



数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(data processing)是对数据的采集、存储、检索、加工、变换和传输。

数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。

基本信息

处理软件

数据处理离不开软件的支持,数据处理软件包括:用以书写处理程序的各种程序设计语言及其编译程序,管理数据的文件系统和数据库系统,以及各种数据处理方法的应用软件包。为了保证数据安全可靠,还有一整套数据安全保密的技术。

方式

根据处理设备的结构方式、工作方式,以及数据的时间空间分布方式的不同,数据处理有不同的方式。不同的处理方式要求不同的硬件和软件支持。每种处理方式都有自己的特点,应当根据应用问题的实际环境选择合适的处理方式。

数据处理主要有四种分类方式

①根据处理设备的结构方式区分,有联机处理方式和脱机处理方式。

②根据数据处理时间的分配方式区分,有批处理方式、分时处理方式和实时处理方式。

③根据数据处理空间的分布方式区分,有集中式处理方式和分布处理方式。

④根据计算机中央处理器的工作方式区分,有单道作业处理方式、多道作业处理方式和交互式处理方式。

数据处理对数据(包括数值的和非数值的)进行分析和加工的技术过程。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。比数据分析含义广。随着计算机的日益普及,在计算机应用领域中,数值计算所占比重很小,通过计算机数据处理进行信息管理已成为主要的应用。如测绘制图管理、仓库管理、财会管理、交通运输管理,技术情报管理、办公室自动化等。在地理数据方面既有大量自然环境数据(土地、水、气候、生物等各类资源数据),也有大量社会经济数据(人口、交通、工农业等),常要求进行综合性数据处理。故需建立地理数据库,系统地整理和存储地理数据减少冗余,发展数据处理软件,充分利用数据库技术进行数据管理和处理。

相关信息

数据处理

用计算机收集、记录数据,经加工产生新的信息形式的技术。数据指数字、符号、字母和各种文字的集合。数据处理涉及的加工处理比一般的算术运算要广泛得多。

计算机数据处理主要包括8个方面。

①数据采集:采集所需的信息。

②数据转换:把信息转换成机器能够接收的形式。

③数据分组:指定编码,按有关信息进行有效的分组。

④数据组织:整理数据或用某些方法安排数据,以便进行处理。

⑤数据计算:进行各种算术和逻辑运算,以便得到进一步的信息。

⑥数据存储:将原始数据或计算的结果保存起来,供以后使用。

⑦数据检索:按用户的要求找出有用的信息。

⑧数据排序:把数据按一定要求排成次序。

数据处理的过程大致分为数据的准备、处理和输出3个阶段。在数据准备阶段,将数据脱机输入到穿孔卡片、穿孔纸带、磁带或磁盘。这个阶段也可以称为数据的录入阶段。数据录入以后,就要由计算机对数据进行处理,为此预先要由用户编制程序并把程序输入到计算机中,计算机是按程序的指示和要求对数据进行处理的。所谓处理,就是指上述8个方面工作中的一个或若干个的组合。最后输出的是各种文字和数字的表格和报表。

数据处理系统已广泛地用于各种企业和事业,内容涉及薪金支付,票据收发、信贷和库存管理、生产调度、计划管理、销售分析等。它能产生操作报告、金融分析报告和统计报告等。数据处理技术涉及到文卷系统、数据库管理系统、分布式数据处理系统等方面的技术。

此外,由于数据或信息大量地应用于各种各样的企业和事业机构,工业化社会中已形成一个独立的信息处理业。数据和信息,本身已经成为人类社会中极其宝贵的资源。信息处理业对这些资源进行整理和开发,借以推动信息化社会的发展。

数据处理工具

根据数据处理的不同阶段,有不同的专业工具来对数据进行不同阶段的处理。

在数据转换部分,有专业的ETL工具来帮助完成数据的提取、转换和加载,相应的工具有Informatica和开源的Kettle。

在数据存储和计算部分,指的数据库和数据仓库等工具,有Oracle,DB2,MySQL等知名厂商,列式数据库在大数据的背景下发展也非常快。

在数据可视化部分,需要对数据的计算结果进行分析和展现,有BIEE,Microstrategy,Yonghong的Z-Suite等工具。

数据处理的软件有EXCEL MATLAB Origin等等,当前流行的图形可视化和数据分析软件有Matlab,Mathmatica和Maple等。这些软件功能强大,可满足科技工作中的许多需要,但使用这些软件需要一定的计算机编程知识和矩阵知识,并熟悉其中大量的函数和命令。而使用Origin就像使用Excel和Word那样简单,只需点击鼠标,选择菜单命令就可以完成大部分工作,获得满意的结果。

大数据时代,需要可以解决大量数据、异构数据等多种问题带来的数据处理难题,Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统 Hadoop DistributedFile System,HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。

本文转自:http://baike.baidu.com/link?url=lIjwPsZQEdIQo3LmD_kFYokdG0GJZrv19bMHDOQm2rLODs5Xh57Bb2eqGMyHn33-Pfx4vCyUJq3LJgQXVWOUeK


    关注 数据分析与处理


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册