平均数(算术平均数)是指在一组数据中所有数据之和再除以数据的个数.它是反映数据集中趋势的一项指标.
众数(Mode),在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个).
修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个.用M表示.
理性理简单的说,就是一组数据中占比例最多的那个数.
用众数代表一组数据,可靠性较差,不过,众数不受极端数据的影响,并且求法简便.在一组数据中,如果个别数据有很大的变动,选择中位数表示这组数据的“集中趋势”就比较适合.
应用举例:当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用,由于可能无法良好定义算术平均数和中位数.例子:{鸡、鸭、鱼、鱼、鸡、鱼}的众数是鱼.
中位数(Median),将数据排序后,位置在最中间的数值.即将数据分成两部分,一部分大于该数值,一部分小于该数值.
中位数的位置:当样本数为奇数时,中位数=第(N+1)/2个数据 ; 当样本数为偶数时,中位数为第N/2个数据与第N/2+1个数据的算术平均值 .
理性认识:把一组数据按从小到大的数序排列,在中间的一个数字(或两个数字的平均值)叫做这组数据的中位数.
中位数算出来可避免极端数据,代表着数据总体的中等情况.
应用举例:在物价涨幅攀升的时候,适当提高企业退休人员养老金标准以及在职职工的工资,有利于保障他们的基本生活,并逐步提高生活质量.但是,只提供一个“平均数”让人心里总是有点不大踏实.一个平均数会掩盖很多的问题,不久前网友还创作了这样的打油诗:“张村有个张千万,隔壁九个穷光蛋,平均起来算一算,人人都是张百万.”对于这样的问题,不是“平均数”的错,也不是统计学的错,统计学中有现成解决的办法,就是计算“中位数”.所谓“中位数”,以一个51人的企业为例,把所有人员年收入从大到小排列,正中间的一位,即第26位的年收入就是这家企业年收入的中位数.打油诗里的“张村”个人财产中位数就是“零”.这个时候平均数不能说明的问题,中位数就说清楚了.
注意:是从小到大,不是随意乱排.
极差(range),是一组数据中最大数据与最小数据的差,在统计中常用极差来刻画一组数据的离散程度,又称全距或范围误差.反映的是变量分布的变异范围和离散幅度,在总体中任何两个单位的标准值之差都不能超过极差.同时,它能体现一组数据波动的范围.
如
12 12 13 14 16 21
这组数的极差就是
21-12=9
极差只指明了测定值的最大离散范围,而未能利用全部测量值的信息,不能细致地反映测量值彼此相符合的程度,极差是总体标准偏差的有偏估计值,当乘以校正系数之后,可以作为总体标准偏差的无偏估计值,它的优点是计算简单,含义直观,运用方便,故在数据统计处理中仍有着相当广泛的应用. 但是,它仅仅取决于两个极端值得水平,不能反映其间的变量分布情况,同时易受极端值的影响.
方差(variation)和标准差(standard deviation),样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差.样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大.
方差和标准差是测算离散趋势最重要、最常用的指标.方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法.标准差为方差的平方根,用S表示.
标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差.
应用举例:某校初三年级甲、乙两班举行电脑汉字输入速度比赛,两个班参加比赛的学生每分钟输入汉字的个数,经统计和计算后结果如下表所示:
班级 参加人数 平均字数 中位数 方差
甲 55 135 149 191
乙 55 135 151 110
有一位同学根据上表得出如下结论:
①甲、乙两班学生的平均水平相同;
②乙班优秀的人数比甲班优秀的人数多(每分钟输入汉字达150个以上为优秀);
③甲班学生比赛成绩的波动比乙班学生比赛成绩的波动大.上述结论正确的是________(填序号).
填①、②、③,显然①、③是正确的是.对于第②个结论,因为甲的中位数为149,表明甲班优秀人数未过半,而乙的中位数为151,表明乙班优秀人数在半数以上,故乙班优秀的人数比甲班优秀人数多,∴ ②正确.