正態(tài)分布

1.什么是正態(tài)分布

正態(tài)分布是一種概率分布。正態(tài)分布是具有兩個參數(shù)μ和σ2的連續(xù)型隨機變量的分布，第一參數(shù)μ是遵從正態(tài)分布的隨機變量的均值，第二個參數(shù)σ2是此隨機變量的方差，所以正態(tài)分布記作N(μ，σ2 )。遵從正態(tài)分布的隨機變量的概率規(guī)律為取 μ鄰近的值的概率大，而取離μ越遠的值的概率越??；σ越小，分布越集中在μ附近，σ越大，分布越分散。正態(tài)分布的密度函數(shù)的特點是：關于μ對稱，在μ處達到最大值，在正（負）無窮遠處取值為0，在μ±σ處有拐點。它的形狀是中間高兩邊低，圖像是一條位于x 軸上方的鐘形曲線。當μ＝0，σ2 ＝1時，稱為標準正態(tài)分布，記為N（0，1）。μ維隨機向量具有類似的概率規(guī)律時，稱此隨機向量遵從多維正態(tài)分布。多元正態(tài)分布有很好的性質(zhì)，例如，多元正態(tài)分布的邊緣分布仍為正態(tài)分布，它經(jīng)任何線性變換得到的隨機向量仍為多維正態(tài)分布，特別它的線性組合為一元正態(tài)分布。

2.正態(tài)分布的發(fā)展

正態(tài)分布是最重要的一種概率分布。正態(tài)分布概念是由德國的數(shù)學家和天文學家Moivre于1733年首次提出的，但由于德國數(shù)學家Gauss率先將其應用于天文學家研究，故正態(tài)分布又叫高斯分布。高斯這項工作對后世的影響極大，他使正態(tài)分布同時有了“高斯分布”的名稱，后世之所以多將最小二乘法的發(fā)明權(quán)歸之于他，也是出于這一工作。高斯是一個偉大的數(shù)學家，重要的貢獻不勝枚舉。但現(xiàn)今德國10馬克的印有高斯頭像的鈔票，其上還印有正態(tài)分布的密度曲線。這傳達了一種想法：在高斯的一切科學貢獻中，其對人類文明影響最大者，就是這一項。在高斯剛作出這個發(fā)現(xiàn)之初，也許人們還只能從其理論的簡化上來評價其優(yōu)越性，其全部影響還不能充分看出來。這要到20世紀正態(tài)小樣本理論充分發(fā)展起來以后。皮埃爾-西蒙·拉普拉斯很快得知高斯的工作，并馬上將其與他發(fā)現(xiàn)的中心極限定理聯(lián)系起來，為此，他在即將發(fā)表的一篇文章(發(fā)表于1810年）上加上了一點補充，指出如若誤差可看成許多量的疊加，根據(jù)他的中心極限定理，誤差理應有高斯分布。這是歷史上第一次提到所謂“元誤差學說”——誤差是由大量的、由種種原因產(chǎn)生的元誤差疊加而成。后來到1837年，海根(G.Hagen)在一篇論文中正式提出了這個學說。

其實，他提出的形式有相當大的局限性：海根把誤差設想成個數(shù)很多的、獨立同分布的“元誤差” 之和，每只取兩值，其概率都是1/2，由此出發(fā)，按狄莫佛的中心極限定理，立即就得出誤差(近似地)服從正態(tài)分布。皮埃爾-西蒙·拉普拉斯所指出的這一點有重大的意義，在于他給誤差的正態(tài)理論一個更自然合理、更令人信服的解釋。因為，高斯的說法有一點循環(huán)論證的氣味：由于算術(shù)平均是優(yōu)良的，推出誤差必須服從正態(tài)分布；反過來，由后一結(jié)論又推出算術(shù)平均及最小二乘估計的優(yōu)良性，故必須認定這二者之一(算術(shù)平均的優(yōu)良性，誤差的正態(tài)性) 為出發(fā)點。但算術(shù)平均到底并沒有自行成立的理由，以它作為理論中一個預設的出發(fā)點，終覺有其不足之處。拉普拉斯的理把這斷裂的一環(huán)連接起來，使之成為一個和諧的整體，實有著極重大的意義。

3.正態(tài)分布的主要特征

1、集中性：正態(tài)曲線的高峰位于正中央，即均數(shù)所在的位置。

2、對稱性：正態(tài)曲線以均數(shù)為中心，左右對稱，曲線兩端永遠不與橫軸相交。

3、均勻變動性：正態(tài)曲線由均數(shù)所在處開始，分別向左右兩側(cè)逐漸均勻下降。

4、正態(tài)分布有兩個參數(shù)，即均數(shù)μ和標準差σ，可記作N（μ，σ）：均數(shù)μ決定正態(tài)曲線的中心位置；標準差σ決定正態(tài)曲線的陡峭或扁平程度。σ越小，曲線越陡峭；σ越大，曲線越扁平。

5、u變換：為了便于描述和應用，常將正態(tài)變量作數(shù)據(jù)轉(zhuǎn)換。

4.數(shù)據(jù)正態(tài)分布檢驗 Q-Q圖[1]

要觀察某一屬性的一組數(shù)據(jù)是否符合正態(tài)分布，可以有兩種方法（目前我知道這兩種，并且這兩種方法只是直觀觀察，不是定量的正態(tài)分布檢驗）：

1：在spss(Statistical Package for the Social Sciences，即“社會科學統(tǒng)計軟件包”)里的基本統(tǒng)計分析功能里的頻數(shù)統(tǒng)計功能里有對某個變量各個觀測值的頻數(shù)直方圖中可以選擇繪制正態(tài)曲線。具體如下：Analyze-----Descriptive Statistics-----Frequencies，打開頻數(shù)統(tǒng)計對話框，在Statistics里可以選擇獲得各種描述性的統(tǒng)計量，如：均值、方差、分位數(shù)、峰度、標準差等各種描述性統(tǒng)計量。在Charts里可以選擇顯示的圖形類型，其中Histograms選項為柱狀圖也就是我們說的直方圖，同時可以選擇是否繪制該組數(shù)據(jù)的正態(tài)曲線（With norma curve），這樣我們可以直觀觀察該組數(shù)據(jù)是否大致符合正態(tài)分布。如下圖：

數(shù)據(jù)正態(tài)分布柱狀圖

從上圖中可以看出，該組數(shù)據(jù)基本符合正態(tài)分布。

2：正態(tài)分布的Q-Q圖：在spss里的基本統(tǒng)計分析功能里的探索性分析里面可以通過觀察數(shù)據(jù)的q-q圖來判斷數(shù)據(jù)是否服從正態(tài)分布。

具體步驟如下：Analyze-----Descriptive Statistics-----Explore打開對話框，選擇Plots選項，選擇Normality plots with tests選項，可以繪制該組數(shù)據(jù)的q-q圖。圖的橫坐標為改變量的觀測值，縱坐標為分位數(shù)。若該組數(shù)據(jù)服從正態(tài)分布，則圖中的點應該靠近圖中直線。

縱坐標為分位數(shù)，是根據(jù)分布函數(shù)公式F(x)=i/n+1得出的.i為把一組數(shù)從小到大排序后第i個數(shù)據(jù)的位置，n為樣本容量。若該數(shù)組服從正態(tài)分布則其q-q圖應該與理論的q-q圖（也就是圖中的直線）基本符合。對于理論的標準正態(tài)分布，其q-q圖為y=x直線。非標準正態(tài)分布的斜率為樣本標準差，截距為樣本均值。

如下圖：

spss正態(tài)分布Q-Q圖

5.正態(tài)分布的應用

1．估計正態(tài)分布資料的頻數(shù)分布

　　例1.某地1993年抽樣調(diào)查了100名18歲男大學生身高（cm），其均數(shù)=172.70cm，標準差s=4.01cm，

　?、俟烙嬙摰?8歲男大學生身高在168cm以下者占該地18歲男大學生總數(shù)的百分數(shù)；

　?、诜謩e求 $bar{X}pm 1s$ 、 $bar{X}pm 1.96s$ 、 $bar{X}pm 2.58s$ 范圍內(nèi)18歲男大學生占該地18歲男大學生總數(shù)的實際百分數(shù)，并與理論百分數(shù)比較。

　　本例，μ、σ未知但樣本含量n較大，按式 $u=frac{X-mu}{sigma}$ 用樣本均數(shù) $bar{X}$ 和標準差S分別代替μ和σ，求得u值，u=(168-172.70)/4.01=-1.17。查附表標準正態(tài)曲線下的面積，在表的左側(cè)找到-1.1，表的上方找到0.07，兩者相交處為0.1210=12.10%。該地18歲男大學生身高在168cm以下者，約占總數(shù)12.10%。其它計算結(jié)果見表-1。

　　表-1：1100名18歲男大學生身高的實際分布與理論分布

　　正態(tài)分布13.jpg

　　2．制定醫(yī)學參考值范圍：亦稱醫(yī)學正常值范圍。

它是指所謂“正常人”的解剖、生理、生化等指標的波動范圍。制定正常值范圍時，首先要確定一批樣本含量足夠大的 “正常人”，所謂“正常人”不是指“健康人”，而是指排除了影響所研究指標的疾病和有關因素的同質(zhì)人群；其次需根據(jù)研究目的和使用要求選定適當?shù)陌俜纸缰?，?0%，90%，95%和99%，常用95%；根據(jù)指標的實際用途確定單側(cè)或雙側(cè)界值，如白細胞計數(shù)過高過低皆屬不正常須確定雙側(cè)界值，又如肝功中轉(zhuǎn)氨酶過高屬不正常須確定單側(cè)上界，肺活量過低屬不正常須確定單側(cè)下界。另外，還要根據(jù)資料的分布特點，選用恰當?shù)挠嬎惴椒?。常用方法有?/p>

　　（1）正態(tài)分布法：適用于正態(tài)或近似正態(tài)分布的資料。

　　雙側(cè)界值： $bar{X}pm u_aS$ 單側(cè)上界： $bar{X}+u_aS$ ，或單側(cè)下界： $bar{X}-u_aS$

　?。?）對數(shù)正態(tài)分布法：適用于對數(shù)正態(tài)分布資料。

　　雙側(cè)界值： $lg^{-1}(bar{X}_{lgx}pm u_{a}S_{lgx})$ ；單側(cè)上界： $lg^{-1}(bar{X}_{lgx}+u_{a}S_{lgx})$ ，或單側(cè)下界： $lg^{-1}(bar{X}_{lgx}-u_{a}S_{lgx})$ 。

　　常用u值可根據(jù)要求由表-2查出。

　　（3）百分位數(shù)法：常用于偏態(tài)分布資料以及資料中一端或兩端無確切數(shù)值的資料。

　　雙側(cè)界值：P2.5和P97.5；單側(cè)上界：P95，或單側(cè)下界：P5。

　　表-2：常用u值表

參考值范圍(%)	單側(cè)	雙側(cè)
80	0.842	1.282
90	1.282	1.645
95	1.645	1.960
99	2.326	2.576

　　3．正態(tài)分布是許多統(tǒng)計方法的理論基礎：如t分布、F分布、 $x 2$ 分布都是在正態(tài)分布的基礎上推導出來的，u檢驗也是以正態(tài)分布為基礎的。此外，t分布、二項分布、Poisson分布的極限為正態(tài)分布，在一定條件下，可以按正態(tài)分布原理來處理。

評論 | 0條評論

評論

經(jīng)理人分享