正態(tài)分布
目錄
1.什么是正態(tài)分布
正態(tài)分布是一種概率分布。正態(tài)分布是具有兩個(gè)參數(shù)μ和σ2的連續(xù)型隨機(jī)變量的分布,第一參數(shù)μ是遵從正態(tài)分布的隨機(jī)變量的均值,第二個(gè)參數(shù)σ2是此隨機(jī)變量的方差,所以正態(tài)分布記作N(μ,σ2 )。遵從正態(tài)分布的隨機(jī)變量的概率規(guī)律為取 μ鄰近的值的概率大 ,而取離μ越遠(yuǎn)的值的概率越??;σ越小,分布越集中在μ附近,σ越大,分布越分散。正態(tài)分布的密度函數(shù)的特點(diǎn)是:關(guān)于μ對(duì)稱,在μ處達(dá)到最大值,在正(負(fù))無(wú)窮遠(yuǎn)處取值為0,在μ±σ處有拐點(diǎn)。它的形狀是中間高兩邊低 ,圖像是一條位于x 軸上方的鐘形曲線。當(dāng)μ=0,σ2 =1時(shí),稱為標(biāo)準(zhǔn)正態(tài)分布,記為N(0,1)。μ維隨機(jī)向量具有類似的概率規(guī)律時(shí),稱此隨機(jī)向量遵從多維正態(tài)分布。多元正態(tài)分布有很好的性質(zhì),例如,多元正態(tài)分布的邊緣分布仍為正態(tài)分布,它經(jīng)任何線性變換得到的隨機(jī)向量仍為多維正態(tài)分布,特別它的線性組合為一元正態(tài)分布。
2.正態(tài)分布的發(fā)展
正態(tài)分布是最重要的一種概率分布。正態(tài)分布概念是由德國(guó)的數(shù)學(xué)家和天文學(xué)家Moivre于1733年首次提出的,但由于德國(guó)數(shù)學(xué)家Gauss率先將其應(yīng)用于天文學(xué)家研究,故正態(tài)分布又叫高斯分布。高斯這項(xiàng)工作對(duì)后世的影響極大,他使正態(tài)分布同時(shí)有了“高斯分布”的名稱,后世之所以多將最小二乘法的發(fā)明權(quán)歸之于他,也是出于這一工作。高斯是一個(gè)偉大的數(shù)學(xué)家,重要的貢獻(xiàn)不勝枚舉。但現(xiàn)今德國(guó)10馬克的印有高斯頭像的鈔票,其上還印有正態(tài)分布的密度曲線。這傳達(dá)了一種想法:在高斯的一切科學(xué)貢獻(xiàn)中,其對(duì)人類文明影響最大者,就是這一項(xiàng)。在高斯剛作出這個(gè)發(fā)現(xiàn)之初,也許人們還只能從其理論的簡(jiǎn)化上來(lái)評(píng)價(jià)其優(yōu)越性,其全部影響還不能充分看出來(lái)。這要到20世紀(jì)正態(tài)小樣本理論充分發(fā)展起來(lái)以后。皮埃爾-西蒙·拉普拉斯很快得知高斯的工作,并馬上將其與他發(fā)現(xiàn)的中心極限定理聯(lián)系起來(lái),為此,他在即將發(fā)表的一篇文章(發(fā)表于1810年)上加上了一點(diǎn)補(bǔ)充,指出如若誤差可看成許多量的疊加,根據(jù)他的中心極限定理,誤差理應(yīng)有高斯分布。這是歷史上第一次提到所謂“元誤差學(xué)說(shuō)”——誤差是由大量的、由種種原因產(chǎn)生的元誤差疊加而成。后來(lái)到1837年,海根(G.Hagen)在一篇論文中正式提出了這個(gè)學(xué)說(shuō)。
其實(shí),他提出的形式有相當(dāng)大的局限性:海根把誤差設(shè)想成個(gè)數(shù)很多的、獨(dú)立同分布的“元誤差” 之和,每只取兩值,其概率都是1/2,由此出發(fā),按狄莫佛的中心極限定理,立即就得出誤差(近似地)服從正態(tài)分布。皮埃爾-西蒙·拉普拉斯所指出的這一點(diǎn)有重大的意義,在于他給誤差的正態(tài)理論一個(gè)更自然合理、更令人信服的解釋。因?yàn)?,高斯的說(shuō)法有一點(diǎn)循環(huán)論證的氣味:由于算術(shù)平均是優(yōu)良的,推出誤差必須服從正態(tài)分布;反過(guò)來(lái),由后一結(jié)論又推出算術(shù)平均及最小二乘估計(jì)的優(yōu)良性,故必須認(rèn)定這二者之一(算術(shù)平均的優(yōu)良性,誤差的正態(tài)性) 為出發(fā)點(diǎn)。但算術(shù)平均到底并沒(méi)有自行成立的理由,以它作為理論中一個(gè)預(yù)設(shè)的出發(fā)點(diǎn),終覺(jué)有其不足之處。拉普拉斯的理把這斷裂的一環(huán)連接起來(lái),使之成為一個(gè)和諧的整體,實(shí)有著極重大的意義。
3.正態(tài)分布的主要特征
1、集中性:正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置。
2、對(duì)稱性:正態(tài)曲線以均數(shù)為中心,左右對(duì)稱,曲線兩端永遠(yuǎn)不與橫軸相交。
3、均勻變動(dòng)性:正態(tài)曲線由均數(shù)所在處開(kāi)始,分別向左右兩側(cè)逐漸均勻下降。
4、正態(tài)分布有兩個(gè)參數(shù),即均數(shù)μ和標(biāo)準(zhǔn)差σ,可記作N(μ,σ):均數(shù)μ決定正態(tài)曲線的中心位置;標(biāo)準(zhǔn)差σ決定正態(tài)曲線的陡峭或扁平程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。
5、u變換:為了便于描述和應(yīng)用,常將正態(tài)變量作數(shù)據(jù)轉(zhuǎn)換。
4.數(shù)據(jù)正態(tài)分布檢驗(yàn) Q-Q圖[1]
要觀察某一屬性的一組數(shù)據(jù)是否符合正態(tài)分布,可以有兩種方法(目前我知道這兩種,并且這兩種方法只是直觀觀察,不是定量的正態(tài)分布檢驗(yàn)):
1:在spss(Statistical Package for the Social Sciences,即“社會(huì)科學(xué)統(tǒng)計(jì)軟件包”)里的基本統(tǒng)計(jì)分析功能里的頻數(shù)統(tǒng)計(jì)功能里有對(duì)某個(gè)變量各個(gè)觀測(cè)值的頻數(shù)直方圖中可以選擇繪制正態(tài)曲線。具體如下:Analyze-----Descriptive Statistics-----Frequencies,打開(kāi)頻數(shù)統(tǒng)計(jì)對(duì)話框,在Statistics里可以選擇獲得各種描述性的統(tǒng)計(jì)量,如:均值、方差、分位數(shù)、峰度、標(biāo)準(zhǔn)差等各種描述性統(tǒng)計(jì)量。在Charts里可以選擇顯示的圖形類型,其中Histograms選項(xiàng)為柱狀圖也就是我們說(shuō)的直方圖,同時(shí)可以選擇是否繪制該組數(shù)據(jù)的正態(tài)曲線(With norma curve),這樣我們可以直觀觀察該組數(shù)據(jù)是否大致符合正態(tài)分布。如下圖:
從上圖中可以看出,該組數(shù)據(jù)基本符合正態(tài)分布。
2:正態(tài)分布的Q-Q圖:在spss里的基本統(tǒng)計(jì)分析功能里的探索性分析里面可以通過(guò)觀察數(shù)據(jù)的q-q圖來(lái)判斷數(shù)據(jù)是否服從正態(tài)分布。
具體步驟如下:Analyze-----Descriptive Statistics-----Explore打開(kāi)對(duì)話框,選擇Plots選項(xiàng),選擇Normality plots with tests選項(xiàng),可以繪制該組數(shù)據(jù)的q-q圖。圖的橫坐標(biāo)為改變量的觀測(cè)值,縱坐標(biāo)為分位數(shù)。若該組數(shù)據(jù)服從正態(tài)分布,則圖中的點(diǎn)應(yīng)該靠近圖中直線。
縱坐標(biāo)為分位數(shù),是根據(jù)分布函數(shù)公式F(x)=i/n+1得出的.i為把一組數(shù)從小到大排序后第i個(gè)數(shù)據(jù)的位置,n為樣本容量。若該數(shù)組服從正態(tài)分布則其q-q圖應(yīng)該與理論的q-q圖(也就是圖中的直線)基本符合。對(duì)于理論的標(biāo)準(zhǔn)正態(tài)分布,其q-q圖為y=x直線。非標(biāo)準(zhǔn)正態(tài)分布的斜率為樣本標(biāo)準(zhǔn)差,截距為樣本均值。
如下圖:
5.正態(tài)分布的應(yīng)用
1.估計(jì)正態(tài)分布資料的頻數(shù)分布
例1.某地1993年抽樣調(diào)查了100名18歲男大學(xué)生身高(cm),其均數(shù)=172.70cm,標(biāo)準(zhǔn)差s=4.01cm,
?、俟烙?jì)該地18歲男大學(xué)生身高在168cm以下者占該地18歲男大學(xué)生總數(shù)的百分?jǐn)?shù);
?、诜謩e求、、范圍內(nèi)18歲男大學(xué)生占該地18歲男大學(xué)生總數(shù)的實(shí)際百分?jǐn)?shù),并與理論百分?jǐn)?shù)比較。
本例,μ、σ未知但樣本含量n較大,按式用樣本均數(shù)和標(biāo)準(zhǔn)差S分別代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表標(biāo)準(zhǔn)正態(tài)曲線下的面積,在表的左側(cè)找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大學(xué)生身高在168cm以下者,約占總數(shù)12.10%。其它計(jì)算結(jié)果見(jiàn)表-1。
表-1:1100名18歲男大學(xué)生身高的實(shí)際分布與理論分布
2.制定醫(yī)學(xué)參考值范圍:亦稱醫(yī)學(xué)正常值范圍。
它是指所謂“正常人”的解剖、生理、生化等指標(biāo)的波動(dòng)范圍。制定正常值范圍時(shí),首先要確定一批樣本含量足夠大的 “正常人”,所謂“正常人”不是指“健康人”,而是指排除了影響所研究指標(biāo)的疾病和有關(guān)因素的同質(zhì)人群;其次需根據(jù)研究目的和使用要求選定適當(dāng)?shù)陌俜纸缰?,?0%,90%,95%和99%,常用95%;根據(jù)指標(biāo)的實(shí)際用途確定單側(cè)或雙側(cè)界值,如白細(xì)胞計(jì)數(shù)過(guò)高過(guò)低皆屬不正常須確定雙側(cè)界值,又如肝功中轉(zhuǎn)氨酶過(guò)高屬不正常須確定單側(cè)上界,肺活量過(guò)低屬不正常須確定單側(cè)下界。另外,還要根據(jù)資料的分布特點(diǎn),選用恰當(dāng)?shù)挠?jì)算方法。常用方法有:
?。?)正態(tài)分布法:適用于正態(tài)或近似正態(tài)分布的資料。
雙側(cè)界值:單側(cè)上界:,或單側(cè)下界:
(2)對(duì)數(shù)正態(tài)分布法:適用于對(duì)數(shù)正態(tài)分布資料。
雙側(cè)界值:;單側(cè)上界:,或單側(cè)下界:。
常用u值可根據(jù)要求由表-2查出。
?。?)百分位數(shù)法:常用于偏態(tài)分布資料以及資料中一端或兩端無(wú)確切數(shù)值的資料。
雙側(cè)界值:P2.5和P97.5;單側(cè)上界:P95,或單側(cè)下界:P5。
表-2:常用u值表
參考值范圍(%) | 單側(cè) | 雙側(cè) |
80 | 0.842 | 1.282 |
90 | 1.282 | 1.645 |
95 | 1.645 | 1.960 |
99 | 2.326 | 2.576 |
3.正態(tài)分布是許多統(tǒng)計(jì)方法的理論基礎(chǔ):如t分布、F分布、x2分布都是在正態(tài)分布的基礎(chǔ)上推導(dǎo)出來(lái)的,u檢驗(yàn)也是以正態(tài)分布為基礎(chǔ)的。此外,t分布、二項(xiàng)分布、Poisson分布的極限為正態(tài)分布,在一定條件下,可以按正態(tài)分布原理來(lái)處理。