人工智能中文网
  • 主页
  • 线代考研视频
  • 线性代数
  • Python机器学习与算法
  • 大数据与机器学习
  • Python基础入门教程
  • 人工智能中文网
    教程目录
    阅读:

    平均值及其计算公式

    < 上一篇:加和值 下一篇:标准差 >
    平均值的计算方法大家肯定很熟悉,我们在学生时代就已经经历过无数的例子,就是以班级为单位把每个人的每门课程加在一起除以总的学生数量,再除以课程数量。

    “一年级一班有 40 名学生,3 门课程平均分为 80 分”。

    “一年级二班有 60 名学生,3 门课程平均分为 75 分”。

    “一年级三班有 50 名学生,3 门课程平均分为 80 分”。

    从这里基本还是能得到一个清晰的感性认识,那就是一年级一班和一年级三班的总体水平是“一样的”,而且他们比一年级二班的水平高。因为在使用平均值进行比较时,实际直观感觉是在对比 3 个班级中每一个学生个体。

    所有这类用单一的数据定义来概括性描述一些抽象或复杂数据的方式方法都叫做“指标”。平均分在这里就是一个很好的指标,因为它用一个简洁的数据定义概括了众多数据的特性。平均值和样本数量(学生数)这两个值就基本可以描述清楚学生分数的高低情况了。在上述例子里,平均分这种指标恐怕不是由某个数学家或者智商殊绝于人的家伙特意发明出来的,而是在生活中由于要进行对象数据的宏观描述而自然而然产生的一种方便的数值计算和描述方法。

    另外,指标在很多企事业单位、学术技术领域都有广泛的应用。如证券交易中有很多价格指标——用来描述价格震荡的剧烈程度、价格变化的趋势等;环保领域有 PM2.5 浓度指标;以及交通警察在测量司机是否酒驾时使用的血液酒精浓度——BAC 指标等。图 1 所示为家用多功能环境测量仪器的各种污染指标显示,有甲醛、PM2.5、PM10、VOC 和电磁辐射,这些数值化的读数都是指标。


    图 1 污染指标显示

    指标的使用有助于我们简练地描述对象。再回到班级成绩统计的例子。

    “一年级一班有 40 名学生,3 门课程平均分为 80 分”。

    “一年级二班有 60 名学生,3 门课程平均分为 75 分”。

    “一年级三班有 50 名学生,3 门课程平均分为 80 分”。

    从这组数据来看,基本可以得到一个印象,就是一年级一班的成绩“普遍”比一年级二班“好”,至少是从“宏观体现”上看比二班好,它和一年级三班“一样好”。但是一年级一班和一年级三班这两个班的每个人的成绩都是一样的吗?至少人数是不一样的。那么也许还需要进一步地描述这平均下来的 80 分和每个学生具体的课程分数之间的差异性有多大,这就涉及另一个描述的需求——标准差,后续章节会详细介绍。
    < 上一篇:加和值 下一篇:标准差 >