数据挖掘一百天(3)

 

数据挖掘一百天,只要有网我就更...



分布分析

分布分析能揭示分布特征和分布类型。对于定量数据,欲了解其分布形式对臣还是非对称发现某些特大或者特小的可疑值,可通过绘制频率分布表,绘制频率分布直方图,绘制茎叶图进行直观的分析,对于定性分类数据,可用饼图和条形图直观的显示分布情况。

1定量数据的分布分析

对于定量变量而言,选择组数和组宽是做频率分布分析时最主要的问题,一般按照以下步骤:

1求极差

2决定组距与组数

3决定分点

4列出频率分布表

5绘制频率分布直方图

遵循主要原则如下:

1各组之间必须是相互排斥的

2各组必须将所有的数据包含在内。

3各组的组宽最好相等

定性数据分布分析

对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。

饼图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一部分的大小与每一类型的频数成正比,条形图的高度代表每一类型的百分比或频数。条形图的宽度没有意义。

对比分析

对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模大小,水平高低速度快慢,以及各种关系的协调与否。特别适用于指标间的的横纵向比较,时间序列的比较分析。再对比分析中,选择合适的对比标准是十分关键的步骤,只有选择合适,才能做出客观的评价,选择不合适,评价可能得出错误结论。

对比分析主要有以下两种形式。

1绝对数比较

绝对数比较是利用绝对数进行对比,从而寻找差异的一种方法。

2相对数比较

相对数比较是有两个有联系的指标对比计算的,用以反映客观现象之间联系程度的综合指标,其数值表现为相对数。由于研究目的和对比基础不同,相对数可以分为以下几种:

1)结构相对数:将同一总体内的部分数值与全部数值对比求得比重,用以说明事物的性质,结构或质量。如居民食品支出额占消费支出总额的比重,产品合格率等。

2)比例相对数:将同一总体内不同部分的数值进行对比,表明总体内部各部分的比例关系。如人口性别比例,投资与消费比例等。

3)比较相对数:将同一时期两个性质相同的指标数值进行对比,说明同类现象在不同空间条件下数量的对比。如不同地区商品价格对比。不同行业不同企业间某项指标对比等。

4)强度相对数:将两个性质不同但有一定联系的总量指标进行对比,用以说明现象的强度,密度和普遍程度。如人均国内生产总值用“元/人”,人口密度用“人/平方公里”表示,也有用百分数或千分数表示的,如人口出生率用‰表示。

5)计划完成度相对数:使某一时期实际完成数与计划完成数的对比,用以说明计划完成程度。

6)动态相对数:将统一现象在不同时期的指标数值进行对比,用以说明发展方向和变化的速度。如发展速度,增长速度等。

今天有活,所以少更新点······熬夜加班中


    关注 应心学习


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册