对于一组庞大的数据,我们无法分析所有数据,就需要选取合适的代表值来表达这组数据的特征,平均数无疑是最重要的代表值,它可以直观、简明地表示数据情况。平均数不仅可以用来反映一组数据的一般情况,还可以用它进行不同组数据的比较,得出组与组之间的差别。统计学上的平均数有数值平均数和位置平均数,前者包括算术平均数和几何平均数,后者包括中位数、众数。日常应用中, 以“平均数”指代数值平均数,“中位数”作为位置平均数应用较多。
一、平均数
(一)算术平均数。
算术平均数分为简单算术平均数、加权算术平均数。
1. 简单算术平均数。主要用于处理未分组整理的数据。设一组数据为 X1, X2,...,Xn,简单算术平均数的计算公式为:
2.加权算术平均数。主要用于处理经分组整理的数据。设原始数据被分成K 组,各组的组中值为 X1,X2,...,Xk,各组的频数分别为 f1,f2,...,fk,加权算术平均数的计算公式为:
(二)几何平均数。
几何平均数是指 n 个观察值连乘积的 n 次方根,适用于对比率数据的平均, 主要用于计算数据平均增长(变化)率。几何平均数分为简单几何平均数与加权几何平均数。
简单几何平均数的计算公式:
加权几何平均数的计算公式:
具体实例如下:
假定某地储蓄年利率(按复利计算)分别是 5% 持续 1.5 年,3% 持续 2.5 年,2.2% 持续 1 年,则 5 年内该地平均储蓄年利率为
(三)平均数的作用。
平均数既可以用它来反映一组数据的一般情况和平均水平,也可以用它进行不同组数据的比较,分析组与组之间的差别。用平均数能直观简明表示一组数据的情况,如平均速度、平均身高、平均产量、平均成绩、平均收入等等。例如, 我们要比较北京和山西两地居民收入水平,无法将这两个地方的每一个家庭的收入一一进行比较,最简单直接的方法就是比较两地居民的平均收入水平。
算术平均数是最常用的一种平均指标,几何平均数多用于计算比率平均数 ,它受极端值影响较算术平均数小。
二、中位数
中位数,又称中值,指按顺序排列的一组数据中居于中间位置的数。也就是说,一组数据中,有一半的数据比中位数大,有一半的数据比中位数小。这里用来表示中位数。
(一)计算方法。
将一组数据按照大小的顺序排列。如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那 2 个数据的算术平均值就是这群数据的中位数。
(二)具体实例。
例 1:找出这组数据:23、29、20、32、23、21、33、25 的中位数。
先将该组数据进行排列(这里按从小到大的顺序),得到:20、21、23、23、25、29、32、33。因为该组数据一共由 8 个数据组成,n 为偶数,中位数是第四个数和第五个数的平均数即 (23+25)/2=24。
例 2:找出这组数据:10、20、20、20、30 的中位数。
先将该组数据进行排列(这里按从小到大的顺序),得到:10、20、20、20、30。因为该组数据一共由 5 个数据组成,n 为奇数,中位数为第3 个数即20。
(三)中位数的作用。
中位数不易受一组数据中极端数值的影响,常用它来描述一组数据的集中趋势。假设比尔 ? 盖茨和十几个穷人在一个房间里,这个房间里十几个人的平均收入就都超过亿元。因为比尔 ? 盖茨和穷人的收入差距过大,导致平均数值缺乏实际参考意义。但如果用中位数来衡量,就知道这房间里起码有一半人是穷人,有助于了解普通民众的收入水平。
三、平均数与中位数的局限性
平均数易受一组数据中极端数值的影响。比如,某地有五个人,某月工资分别是 1000 元,1000 元,1300 元,1700 元,20000 元。那么,月工资 1300 元就是五个人工资的中位数;而该五个人的平均工资为 5000 元。下个月,最高工资者工资大幅度下降变为 5000 元,这五个人工资中位数不受最大值变化的影响还是1300 元,但五个人该月的平均工资则受最大值变动影响非常大,从原来的 5000元下降到 2000 元。
中位数也有局限性,主要是中位数不能推算总量和结构。比如我们要核算居民消费总量时,需要居民消费的平均数与人口规模相结合。
四、平均数和中位数结合使用
中位数可以和平均数一起使用分析一组数据的平均情况。当数列是正态分布, 中位数与平均数具有相同的值;当数列是正偏态分布,中位数位于平均数的左侧, 小于平均数;当数列是负偏态分布时,中位数位于平均数的右侧,大于平均数。因此,我们可以根据居民人均可支配收入的中位数、平均数的大小判断分布形态。2019 年,我国居民人均可支配收入是30733 元,中位数26523 元,呈现正偏态分布。