1 分布分析
分布分析能揭示数据的分布特征和分布类型。对于定量数据,欲了解其分布形式是对称的还是非对称的,发现某些特大或特小的可疑值,可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图进行直观地分析;对于定性分类数据,可用饼图和条形图直观地显示分布情况。
1.1 定量数据分布分析
对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最需要考虑的问题。
1.1.1 步骤求极差 max-min
决定组距与组数 组数*组距=极差
决定分点
列出频率分布表
绘制频率分布直方图
1.1.2 原则各组之间必须互斥
各组必须将所有数据包含在内
各组的组宽最后相等
一个数据不能同时属于两个组且分点也要包含在内,所以一般都是一致的半闭区间
直方图绘制
plt.hist(x,y) //x为待绘制直方图的一维数组,y为分成多少组
//也可以是列表,手动指定分界点
1.2 定性数据的分布分析
对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。
饼状图绘制
plt.pie(size)
2 对比分析
适用于指标间的横纵向比较、时间序列的比较分析(一般都是画折线图)。选择合适的对比标准十分重要。
2.1 形式
2.1.1 绝对数比较
利用现有的数值直接比较,寻找差异。
2.1.2 相对数比较
由两个有联系的指标对比计算,用以反映客观现象之间数量联系程度的综合指标。其数值表现为相对数。由于研究目的和对比基础不同,相对数可以分为以下几种。
结构相对数
将同一总体内部分数值与全部数值对比求得比重,用以说明事物的性质、结构或质量。如居民视频支出额占消费支出总额比重、产品合格率。
比例相对数
将同一总体内不同部分的数值进行对比,表明总体内各部分的关系。如人口性别比例、投资与消费比例。
比较相对数
将同一时期两个性质相同的指标数值进行对比,说明同类现象在不同空间条件下的数量对比关系。如不同地区商品价格对比,不同行业、不同企业间某项指标对比等。
强度相对数
将两个性质不同但有一定联系的总量指标进行对比,用以说明现象的强度、密度和普遍程度。如人均国内生产总值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分数或千分数表示的,如人口出生率用%。表示。
计划完成程度相对数
是某一时期实际完成数与计划数的对比,用以说明计划完成程度。
动态相对数
将同一现象在不同时期的指标数值对比,用以说明发展方向和变化的速度,如发展速度,增长速度等。
3 统计量分析
用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。
3.1 集中趋势度量
3.1.1 均值
有时为了去掉极端值的影响,会选择截断均值(去掉高低极端值的平均数)。
3.1.2 中位数
3.1.3 众数
3.2 离中趋势度量
3.2.1 极差
num=max-min
但是忽略了中间数据时的分布情况。
3.2.2 标准差
3.2.3 变异系数
主要用来比较两个或多个具有不同单位或不同波动幅度的数据集的离中趋势。
3.2.4 四分位数间距
其值越大,说明数据变异程度越大。
上传的附件