人工智能中文网
  • 主页
  • 线代考研视频
  • 线性代数
  • Python机器学习与算法
  • 大数据与机器学习
  • Python基础入门教程
  • 人工智能中文网
    教程目录
    阅读:

    高斯分布(正态分布)函数用法详解

    < 上一篇:同比和环比 下一篇:泊松分布 >
    前面的章节曾经提到过一个概念,叫做“正态分布”。

    正态分布(Normal Distribution),又名高斯分布(Gaussian Distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

    约翰·卡尔·弗里德里希·高斯(Johann Carl Friedrich Gauss)是德国著名数学家、物理学家、天文学家、大地测量学家,他是近代数学奠基者之一,被认为是历史上最重要的数学家之一,并享有“数学王子”的美誉。他的头像也被印在以前德国的官方货币(德国马克 10 马克)上,如图 1 所示。


    图 1 10 德国马克上的高斯头像

    有一种说法认为,高斯和阿基米德、牛顿并列为世界三大数学家,虽然这个说法没有得到书面和史料方面的支持。但是客观地评价,高斯、阿基米德、牛顿这3位科学家对于数学发展的贡献确实都是丰碑性质的,这点毋庸置疑。

    先来看一下高斯分布的概率密度函数:


    图 2 所示为高斯密度函数的函数曲线。


    图 2 高斯密度函数的函数曲线

    熟悉高斯分布的人自然觉得非常亲切,不熟悉高斯分布的朋友估计会感觉有些不知所云,这里简单介绍一下。

    先介绍一下什么是概率密度函数,大家知道,y=f(x) 这种表达式是以前在中学学习函数时使用的一种表达式,表示函数值 y 和自变量 x 函数关系,f(x) 展开之后就具体解释了 x 参与运算的过程。而概率密度实际指的是 y=f(x),x 是样本特性自变量,y 是 x 在这个样本特性上的数量比例。exp 指的是自然常数 e 的幂函数,即 e 的多少次幂的概念(e 是一个无理数,也就是无限不循环小数,e≈2.71828…)。这个函数的峰值在 x=μ 的位置,此时对应的函数值 y 为:


    其实,这里样本数量的计算用的是定积分的定义,即整个函数曲线在其下方围住的与 y=0(x 轴)所围成的面积占比。它在 x=μ 左右两侧的函数是对称的:
    • x 在 μ-σ 和 μ+σ 之间的样本数量占到整个样本数量的 68.2%;
    • x 在 μ-2σ 和 μ+2σ 之间的样本数量占到整个样本数量的 95.4%;
    • x 在 μ-3σ 和 μ+3σ 之间的样本数量占到整个样本数量的99.6%;
    高斯分布作为分布特性的一种,首先是用来描述统计对象的,如果统计对象的分布特性符合高斯分布,那么所有针对高斯分布的定理和“经验值”就能够直接套用。而高斯分布本身在自然界的应用是非常广泛的,用一句话解释高斯分布所表现的分布特点就是“一般般的很多,极端的很少”。

    这里举一个具体的例子,假如对某一地区的男性身高做了一个随机抽样,一共 1000 人,结果发现他们的身高是一个 μ=175cm 的高斯分布,σ=10cm。那么首先,这样一个描述就已经能够清晰地说明这个抽样检查的结果了,而以下结论也就随之成立(图 3 )。
    • 身高 165~175cm 的人(大约)有 341 名。
    • 身高 175~185cm 的人(大约)有 341 名。
    • 身高 155~165cm 的人(大约)有 136 名。
    • 身高 185~195cm 的人(大约)有 136 名。
    • 身高 145~155cm 的人(大约)有 21 名。
    • 身高 195~205cm 的人(大约)有 21 名。

    图 3 1000人的身高分布

    这些数量基本已经涵盖了统计总人数的 99.6 %。需要注意的是,根据统计的情况在不同的条件下 μ 和 σ 的值可能会不同:
    • μ 较大,则整个函数图像的中轴向右挪动比较多。
    • μ 较小,则函数图像的中轴向左挪动比较多。
    • σ 较大,则整个曲线绵延比较长,整个坡度显得平缓。
    • σ 较小,整个曲线窄而立陡。
    符合高斯分布特性的对象是非常多的,平时也会看到很多这种“一般般的很多,极端的很少”的现象。如平时小区里的汽车,其中中档的比较多,高级的比较少,特别破的也比较少(在不同档次的社区注意 μ 可能会不同,就是平均水平在不同小区之间可能偏差很多,高档小区的车普遍比较好,μ 就比较大;低档小区的车普遍不大好,μ 就比较小)。如某小区如图 4 所示,大部分人买的汽车都 30 万左右,价格高的和低的汽车数量都随着与 30 万的距离变大而渐变少。


    图 4 汽车的价格与数量关系

    我们平时接触的人里,智慧一般的人很多,非常聪明的人较少,非常愚笨的人也较少(在一些大公司或者重点学校里虽然整体的聪明程度提高,但是还是存在这个小范围内的高斯分布,即 μ 比较偏右,而 σ 比较小)。如某公司全体员工集体做了一次 IQ 测试(智商测试),测试结果表明智商在 110 附近的人最多,智商在 90 到 100 之间的较少,同时智商在 120 到 130 之间的较少,而智商在 80 到 90 之间以及 130 到 140 之间的就更少了(图 5)。这也符合人们一般性的认知。


    图 5 智商与人数关系

    再如,全社会范围内的收入,中档次收入的人比较多,特别贫穷和特别富裕的人较少,但是他们在地域上的分布和职业类别上的分布可能就不那么均匀了。诸如此类的例子还有很多。

    高斯分布有什么用呢?

    首先刚才说过,如果在统计过程中发现一个样本呈现高斯分布的特性,只需要把样本总数量、μ 和 σ 表述出来,就已经能够形成一个完整的画面感了。这对人们描述对象是有很大帮助的。

    还有一个好处,就是我们发现了这样一个特性以后,在生产制造、商业等领域会有很多对应性的用法能够减少不必要的投入或损失。

    例如,在设计一款服装后,S/M/L/XL 这些号码怎么设计比较合理呢?设计完了制造多少较合理呢?这时就可以在抽样后在高斯分布曲线上找到这些合适的点。既然 μ-σ 和 μ+σ 之间已经占 68.2%了,那么如果没有足够的预算或者精力,可以只先尝试做一个以 μ 为标准的板式,针对一部分人打板做市场推广。因为再做 μ-σ 和 μ+σ 这两个如此不同的板式,打板成本将会再提高 2 倍,但是增益仅有不到 50%(这从概率密度函数上就可以看出来)。这其实就是一种针对市场迎合的分析和尝试,即优先做那些受众情况最一般、人数最集中的部分。

    再如,常常会听到“二八法则”这种说法,在不同的场景里这可能是高斯分布的一种形式。假设正在经营一家游戏公司,公司有一款刚起步不久的产品 A 游戏,A 游戏有 1 万用户,如果想做这一款游戏的用户拓展工作应该怎么去考虑呢?

    或许可以尝试这样:先看看这 1 万用户中每个用户平均在游戏里充值花多少钱,做一个排名。不花钱玩的人会不少,还有一些花极多的钱来玩游戏的玩家,中间的是中坚力量(用户数量大),每个人花费的额度适中,持续周期较长,这样的一群人更值得关注。对于这些用户,如果能够知道他们加入游戏的渠道的分布比例,就有理由相信这些渠道的特点和它们覆盖这些用户的特点是有相关性的。

    例如,这些表活跃的用户究竟是经由在大学校园里做宣传活动加入的,还是由于在某些游戏门户网站发的广告加入的,还是通过某些免费软件的推广渠道加入的。那么如果想扩大这部分用户的数量可以对应地加大这部分渠道的流量。至少直观上看,这比盲目地进行全方位立体交叉的广告投放效果要好。
    < 上一篇:同比和环比 下一篇:泊松分布 >