人工智能中文网
  • 主页
  • 线代考研视频
  • 线性代数
  • Python机器学习与算法
  • 大数据与机器学习
  • Python基础入门教程
  • 人工智能中文网
    教程目录
    阅读:

    标准差及其公式和意义详解

    < 上一篇:平均值 下一篇:众数 >
    我们先上公式,标准差公式如下:


    下面解释一下这个公式的含义。

    我们以一年级一班所有 40 个学生为例,那么 3 门考试的情况下全班就有 120 个分数参与统计,也就是 n=120。把每个学生每门课的成绩减去全班的 3 个学科总的平均分 80 分,这样得到 120 个差值,再把这些差值分别平方(主要是为了去掉负数,因为在分数差距里面,不管是比这个平均值多,还是比这个平均值少,都被视为偏差),将这些平方的结果再加和,之后除以参与统计的学科数量 120,最后开平方,这个数字只可能是一个大于等于零的数字。用汉字描述起来很啰嗦,但是一旦变成一个标准差的指标以后,由于是约定俗成的,所以只需要“标准差”这 3 个字就能表示了。

    这个数字表示的是什么含义?从这个数字得到的过程其实不难看出来。

    如果所有的人的所有课程成绩都是和平均分一样,那么算出来的标准差就是 0,因为每一个


    肯定都是 02;反之,如果所有的人的课程成绩与平均分的差距都很大,好的很好,差的很差,那么结果就是这个值会很大。如果一个班级成绩标准差比另一个班级成绩的标准差小,说明学生之间的考试成绩水平差不多,标准差大则说明学生之间的考试成绩水平相差比较大。

    需要说明的是,一般来说为了在教学战术指导层面让平均值和标准差更有针对性,通常是不会像例子里这样来操作的。更多的是以一个班为单位,求班里某一个学科成绩的平均值和标准差,或者求某一个学生所有学科的平均值和标准差。这两种计算分别用来描述一个教师教学的成果和某个学生的成绩以及偏科的程度。

    例如,“一年级三班有50名学生,英语考试平均分为 80 分,标准差为 4.25”,“张三同学,语文、数学、英语三门课的平均分为 90 分”。

    前者能够反映教授这个班的英语教师的教学情况,后者能够反映张三这名学生的各学科学习情况——当然都是粗犷的概述性描述。

    加和值(总和值)、平均值、标准差,这几个值是在生产生活中大量应用的统计学指标。不过在此需要强调的是,也是很容易被人误读的地方。那就是,平均值、标准差是客观的计算结果,是描述性的说明,但是绝非对比和评价的标准。

    不少人认为,某学校某老师的学生的高考平均分比另一学校另一老师的学生平均分要高,这一定说明这个学校这个老师的教学水平要高。这个因果关系不一定是正确的,因为一旦在生活中应用,客观场景的细节会让这种对比变得毫无意义。虽然从广大家长的视角去看,不管怎么样,只要有选择的余地,比较两个班的平均成绩来判断自己的孩子进入哪个班未来会更有利是有道理的。

    举个反例。如果这两个学校的老师的生源本身就有很悬殊的差距:一个老师的学生平均分都在 80 分左右,只能上一般的大学;另一个老师则有不少 85 分以上的学生,还有大量 60、70 分的“关系户”学生,如图 3 所示。那么或许后者的班级里诞生清华北大的学生的可能性还会比前一个班更大也未可知。



    图 3 学生水平悬殊

    所以,请读者注意,平均分、标准差只能做描述用,只是一种简洁的描述方法,最多只能帮助我们让数据宏观的“画面感”更饱满。它们既不是对比的标尺,也不是用来具体做规则制定用的硬性尺度,更不能用来孤立地评价好坏,因为“好坏”这种含有大量主观判断色彩以及个性化好恶的东西本身就很抽象而且标准繁多。
    < 上一篇:平均值 下一篇:众数 >