加权平均数=(k1*a1+k2*a2+k3*a3+....+kn*an)/(k1+k2+k3+...+kn)),其中的系数(k1,k2,k3,....kn)称为权,表明系数后面的数据在整个统计数据中占的比重,也说明这个数据对统计结果的影响程度。
1、平均数与中位数和众数
平均数在数据分析的过程中发挥着重要的作用,与中位数和众数有着密切的联系。在日常学习和生活中处理的数据大部分是对称的数据,数据符合或者近似符合正态分布,这时平均数、中位数和众数是一样的。如果数据偏态分布, 三者才会有所区别。
平均数易受极端数据的影响,但是与中位数和众数相比,平均数能更多地利用所有数据的信息。另外,还有一个原因:假设x和y的平均数为a,利用中学的知识可以证明a是与x,y这两个数据差的平方和达到最小的实数,即对任意的实数有(x-a)2+(y-a)2≤(y-b)2(a≠b)。这说明平均数使平方和达到最小,也就是说用平均数代表数据,可以使二次损损失最小。而利用中位数和众数,可以使一次损失(误差绝对值的和)最小。
2、算术平均数与加权平均数
过去小学数学把算术平均数叫作“简单平均数”,把加权平均数叫作“较复杂的平均数”。在小学阶段,权重主要指数据出现的频率。如果一组数据中每个数据都只出现一次,也就是每个数据的重要性相同,则计算的结果为算术平均数。所谓加权平均数,是指各个数据的“分
量”不同,有的重要些,有的轻些,将它们的重要性用权重表示,即一组数据中每个数据出现的次数不止一次,则计算出的平均数就是加权平均数。