正態(tài)分布知識點(正態(tài)分布)
來源:好上學 ??時間:2022-08-16
從身高分布到馬太效應
正態(tài)分布無處不在
上一年超模君在高考的前一天,押中了高考作文題。
現(xiàn)在距離緊張又刺激的高考,只剩下2天了。
看樣子又到超模君蒙題的時刻,以下內(nèi)容有可能是考試重點,請做好筆記:
某位不愿透露姓名的考生問到超模君,他現(xiàn)在考上清華還有希望嗎?
超模君看了看他的近期成績,Emmm...
這位考生近期模擬考的分數(shù)分別為580,600,680,620,四次考試的平均值為620分,標準差為37.4,而一個學生的成績可以近似看做正態(tài)分布。
清華大學的分數(shù)線是680分,把它在上圖標出來:
上圖陰影的面積為0.03,也就是說考上清華大學的概率為3%。
所以超模君的建議是:
其實除了高考成績外,我們的生活中還有許多這樣的例子,比如:
身高
人的IQ分布
正態(tài)分布的前世今生
正態(tài)分布概念是由德國的數(shù)學家和天文學家棣莫弗(Moivre)于1733年首次提出,但當時他并沒有正態(tài)分布更多的應用成果,所以并沒有什么名氣。
后來,德國數(shù)學家高斯(Gauss)率先將其應用于天文學家研究,這時候正態(tài)分布才引起了人們的廣泛重視,因此正態(tài)分布又叫高斯分布。
左:棣莫弗 右:高斯
到了19世紀,高爾頓和凱特勒把正態(tài)分布用在了其他學科上,他們用實際的行動開拓了應用統(tǒng)計學,為數(shù)理統(tǒng)計學的產(chǎn)生奠定了基礎(chǔ)。
在他們兩人的影響下,正態(tài)分布獲得了普遍認可和廣泛應用(甚至是濫用)。
左:高爾頓 右:凱特勒
那么這么厲害的正態(tài)分布到底講的是什么呢?別急,我們先來看看高爾頓是怎么研究的。
1877 年,高爾頓設(shè)計了一個叫高爾頓釘板的實驗,模擬正態(tài)分布的性質(zhì):
實驗視頻只需14秒!
高爾頓釘板試驗內(nèi)容:
有一塊貼在墻上的木板,木板上有一些水平釘子,它們彼此的距離均相等。讓一些小球從木板上方的入口處自由落體,經(jīng)過一次次碰撞后,這些小球最終掉落到下方的豎槽中。
知道了實驗內(nèi)容后,我們來看看高爾頓釘板實驗的細節(jié):
彈珠往下滾的時候,撞到釘子就會隨機選擇往左邊走,還是往右邊走:
這些小球最終的分布位置如下圖:
像這種左右對稱,兩頭低,中間高的曲線我們稱它為正態(tài)分布,又因其曲線呈鐘形,人們又經(jīng)常叫它鐘形曲線。
為什么正態(tài)分布會如此常見呢?
咳咳,接下來就是今天內(nèi)容的重點了(敲黑板)!
這個問題可以用中心定理(central limit theorem)來回答:在適當?shù)臈l件下,大量相互獨立隨機變量的均值經(jīng)適當標準化后依分布收斂于正態(tài)分布。
中心極限定理提出者——棣莫弗
這個定理可以這么理解:
生活中各種各樣的因素就像高爾頓釘板實驗中的釘子一樣,對我們各個方面產(chǎn)生了大大小小的影響,使得最后的結(jié)果分布趨近于正態(tài)分布;
但中心定理并不是萬能的,他擁有兩個很重要的前提:
首先,第一個前提就是取樣需要隨機。
這個前提相信大家可以很好地理解,如果我們抽取的人的時候,只抽抽長的高的或者只抽取長得矮的人,那么結(jié)果自然不符合正態(tài)分布。
第二,影響結(jié)果的因素是相互獨立或者是相互影響比較小的。
也就是說,如果影響結(jié)果的因素之間并沒有太大的關(guān)系,那么這些因素可以看成是相互獨立的,這樣結(jié)果才能符合正態(tài)分布。
以身高為例,影響一個人長高的因素有很多,例如:
父母長得高還是矮
營養(yǎng)是否跟得上
是否熱愛運動
......
等等
父母長得高還是矮對營養(yǎng)的補充沒有很大的關(guān)系,跟是否熱愛運動也沒有關(guān)系,所以可以看成是相互獨立的因素,所以身高的人群分布曲線自然就符合正態(tài)分布。
這時刻可能有人會問,如果這些因素不獨立,甚至是有緊密的聯(lián)系會怎么樣呢?
我們來看看下面這個例子:人均財富分布(馬太效應)。
從下圖可以發(fā)現(xiàn):富人的有錢程度(可以一直向x軸右端延伸)遠遠超出窮人的貧窮程度,即財富分布曲線有右側(cè)的長尾。
人均財富分布圖
這是因為導致財富差距的因素比如教育資源,家庭背景,工作單位相互影響,并不獨立。
如果一個人家庭背景不錯,那么他大有機會獲得好的教育資源,從而選擇更好的工作。
這么來看的話,家庭,教育,工作3個因素產(chǎn)生了1 1 1>3的結(jié)果;而相互獨立的因素應該是1 1 1=3(加法)。
這就導致圖像并沒有出現(xiàn)正態(tài)分布。
但是后來統(tǒng)計學家們發(fā)現(xiàn),既然這些因素相互影響,那么完全可以把這些相互影響的因素看做乘法,接下來我們通過對數(shù)把乘法轉(zhuǎn)換為加法。
這里需要補一點高中的數(shù)學識:
大家在高中的時候都學過對數(shù),對數(shù)有一個獨特的性質(zhì)——可以把乘法變成加法。(如下圖所示)
把乘法變成加法后,不就可以看成結(jié)果是是由一個個獨立的因素影響的嗎?
因此我們對之前的數(shù)據(jù)取自然對數(shù),結(jié)果就接近于正態(tài)分布了:
這就是正態(tài)分布的一個衍生——對數(shù)正態(tài)分布。
總的來說,正態(tài)分布解釋了自然界中大部分常見的分布問題,但事情的結(jié)果往往還是由自己決定的。
3%離100%的成功還差了32倍的汗水和付出。
如果想在高考(或者考研,國考)這個戰(zhàn)場上取得更好的成績,走進更好的學術(shù)殿堂,那么還是需要不斷地提升自己,減小隨機性(標準差)。