正态分布公式为什么长这样?

正态分布是最常见的连续概率分布,在日常生活和科学研究中都起到重要作用。正态分布的密度函数具有数学美感,但很多人并不知道它是如何得到的,本文介绍两种推导方法。

撰文 | Long Luo

图片

图片

图1. 68-95-99.7 Rule

什么是正态分布?

数据可以用不同的方式“分布”,比如数据可以向左散布的多一些,也可以向右散布的多一些,或者分布的乱七八糟,如下图 2 - 4 所示,

图片

图2. 数据偏向左散布

图片

图3. 数据偏向右散布

图片

图4. 数据随机分布

但数据经常会集中在一个中心值的附近,而不向左或右偏斜,像一个钟形,如下图 5 所示。

图片

图5. 数据正态分布

正态分布,又称高斯分布,是一种重要的概率分布,是由数学王子高斯[4]在 19 世纪初提出的。有很多日常现象都符合这种分布,如人的身高、考试成绩等。正因为它几乎无处不在,所以叫 Normal Distribution 。德国曾经发行的一款 10 马克的纸币上就印着高斯和正态分布曲线,如下图 6 所示。(编者注:正态分布可能最早出现于棣莫弗关于n的阶乘工作中。)

图片

图6. 高斯和正态分布曲线

这个曲线的数学公式大家在中学里都早已见过,如下所示:

图片

图片


正态分布公式怎么来的?

有很多种方法都可以推导出正态分布公式,这里将介绍一种既优雅又直观的推导方式,由天文学家赫歇尔(John Herschel) [5]在 1850 年给出的。3Blue1Brown 的视频 Why π is in the normal distribution (beyond integral tricks) 中详细介绍了这种方式。不过视频中有一些不够严谨的地方,下面会先介绍视频中的推导方法,然后再介绍严谨的数学分析法。

图片

图片

3Blue1Brown Herschel 推导方法

图片

图片

图片

图10. 落点概率密度函数只与半径有关

图片

图片

图片

图片

更严谨的数学分析法

上一节我们使用了不那么严谨的方法得到了正态分布的概率密度函数,下面我们使用另外一种方法求出正态分布的概率密度函数。

图片

图12. 落点概率密度函数

图片

图片

图片

图片

图片

正态分布公式的几何意义

图片

参考文献

[1] 六西格玛
https://en.wikipedia.org/wiki/Six_Sigma

[2] 正态分布 Normal distribution
https://en.wikipedia.org/wiki/Normal_distribution

[3] 68-95-99.7 法则
https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule

[4] 高斯 Gauss
https://en.wikipedia.org/wiki/Carl_Friedrich_Gauss

[5] 天文学家赫歇尔 John Herschel
https://en.wikipedia.org/wiki/John_Herschel

[6] 函数方程
https://en.wikipedia.org/wiki/Functional_equation

[7] 指数函数 Exponential function
https://en.wikipedia.org/wiki/Exponential_function

[8] 高斯积分 Gaussian integral
https://en.wikipedia.org/wiki/Gaussian_integral

[9] 中心极限定理 Central limit theorem
https://en.wikipedia.org/wiki/Central_limit_theorem

本文经授权转载自微信公众号“好奇的程序员”。

特 别 提 示

1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。

2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。