人工智能中文网
  • 主页
  • 线代考研视频
  • 线性代数
  • Python机器学习与算法
  • 大数据与机器学习
  • Python基础入门教程
  • 人工智能中文网
    教程目录
    阅读:

    泊松分布及计算公式详解

    < 上一篇:高斯分布 下一篇:伯努利分布 >
    泊松(Poisson)分布是一种统计与概率学中常见的离散概率分布,由法国数学家西莫恩·德尼·泊松(Simeon-Denis Poisson)(图 1)在 1838 年发表。


    图 1 西莫恩·德尼·泊松
     
    泊松分布是概率论中最重要的概念之一。其概率函数如下:


    泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。其中 k! 是指 k 的阶乘,也就是 k×(k-1)×(k-2)×…×2×1,k 取非负整数。

    泊松分布概率密度函数如图 2 所示。


    图 2 泊松分布概率密度函数

    还是根据认识高斯分布的经验来认识一下泊松分布。也就是说在一个标准的时间里,发生这件事的发生率是 λ 次(注意,这是一个具体的次数,不是一个概率值),那发生 k 次的概率是多少。

    泊松分布适用的事件需要满足以下 3 个条件。
    1. 这个事件是一个小概率事件。
    2. 事件的每次发生是独立的不会相互影响。
    3. 并且概率是稳定的。

    下面举一个公共汽车到站的例子。假设在一个公共汽车站上有很多不同线路的公交车,而且平均每 5 分钟会来 2 辆公交车。求 5 分钟内来 5 辆公交车的概率有多大(这里 λ 为 2,k 为 5)。


     
    概率仅 3.61%。

    还有一个比较经典的例子:已知有一个书店,售卖许多图书,其中工具书销售一直较为稳定而且数量较少(概率较小的事件),新华字典平均每周卖出4套。作为书店老板,新华字典应该备多少本为宜?

    所有生产中解决的都是“为宜”的问题,也就是做投入产出的权衡。本例中,在没有做计算之前我们先想一下,如果备货过少,那么每周很可能都会有用户“流失”掉去买别的书店的新字典或者由于无法满足客户的购书需求而引起客户的忠诚度下降等问题,而如果备货过多,那么就会占用大量的库存空间导致库存成本过高。

    这是一个典型的泊松分布问题,因为在条件叙述里它是满足这三个前置条件的。这里 λ 是4,求 k 是多少“为宜”。

    这里需要用到“累积概率”,其实“累积概率”的用法在前面高斯分布的研究中已经用过了,就是指自变量取值在一个区间内的所有概率的加和,在高斯分布的例子里从 μ-σ 到 μ+σ 之间的自变量取值会涵盖 68.2% 的样本空间,这就是“累积概率”,即有 68.2% 的样本都存在于 x 的 μ-σ 到 μ+σ 的区间内。

    在这个例子里,也求一下累积概率。由于是离散概率函数,可以先求出k所对应的各个概率的大小,再计算累积概率的大小。


    对应的表格如下表所示。
    表 3 不同 k 值对应的累积概率
    k 值 概率 累积概率 k 值 概率 累积概率
    1 7.33% 7.33% 6 10.4% 87.03%
    2 14.7% 22.03% 7 5.95% 92.98%
    3 19.5% 41.53% 8 2.98% 95.96%
    4 19.5% 61.03% 9 1.32% 97.28%
    5 15.6% 76.63%      

    对应的概率图如图 4 所示。


    图 4 对应的概率图

    表 3 表示 k 的取值,即每周备货多少本新华字典,以及销售周有多大概率会有 k 本的销售数量。最后一列的累积概率指的是备货为k本的情况下,会有多少个销售周的销售数量小于等于备货数量。这里只算到 k=9 的情况,其他情况读者有兴趣可以自己再算。

    图 4 所示的概率图中,横轴为次数 k,纵轴为概率 %。因为 k 是离散值所以画成离散的点即可,在有的资料上会曲线把每个点顺序连接起来,这种画法也没有问题,只要读者知道 k 的取值为正整数即可。

    当 k=5 时,新华字典备货为5件的情况下,大概有 76.63% 的销售周不会有供不应求的情况,这些销售周内会有 7.33% 的销售周卖出1本,14.7% 的销售周卖出 2 本,19.5% 的销售周卖出 3 本,19.5% 销售周卖出 4 本,15.6% 销售周卖出 5 本,总之不会超过5本,也就是一年的 52 周里有 40 周可以满足消费者需求,还有 12 周会脱销。

    当选择 k=7 时,新华字典备货为 7 件的情况下,大概有 92.98% 的销售周不会有供不应求的情况,也就是一年的 52 周里有 48 周可以满足消费者需求,还有 4 周会脱销。

    在泊松分布的例子里,可以看到一个现象,就是 k 每增加 1,在 k 小于 λ 的时候,累积函数增加是很快的,而且每次增加的量比上一次增加的要多;而在 k 越过 λ 之后,虽然开始还在增加,但是每次增加的量比上一次增加的要少,然后越来越少。所以这个技巧在解决类似的问题时请根据实际情况斟酌采纳。
    < 上一篇:高斯分布 下一篇:伯努利分布 >