登錄

正態(tài)分布

百科 > 經(jīng)濟術(shù)語 > 正態(tài)分布

1.什么是正態(tài)分布

正態(tài)分布是一種概率分布。正態(tài)分布是具有兩個參數(shù)μ和σ2的連續(xù)型隨機變量的分布,第一參數(shù)μ是遵從正態(tài)分布的隨機變量的均值,第二個參數(shù)σ2是此隨機變量的方差,所以正態(tài)分布記作N(μ,σ2 )。遵從正態(tài)分布的隨機變量的概率規(guī)律為取 μ鄰近的值的概率大 ,而取離μ越遠的值的概率越??;σ越小,分布越集中在μ附近,σ越大,分布越分散。正態(tài)分布的密度函數(shù)的特點是:關(guān)于μ對稱,在μ處達到最大值,在正(負)無窮遠處取值為0,在μ±σ處有拐點。它的形狀是中間高兩邊低 ,圖像是一條位于x 軸上方的鐘形曲線。當(dāng)μ=0,σ2 =1時,稱為標(biāo)準(zhǔn)正態(tài)分布,記為N(0,1)。μ維隨機向量具有類似的概率規(guī)律時,稱此隨機向量遵從多維正態(tài)分布。多元正態(tài)分布有很好的性質(zhì),例如,多元正態(tài)分布的邊緣分布仍為正態(tài)分布,它經(jīng)任何線性變換得到的隨機向量仍為多維正態(tài)分布,特別它的線性組合為一元正態(tài)分布。

2.正態(tài)分布的發(fā)展

正態(tài)分布是最重要的一種概率分布。正態(tài)分布概念是由德國的數(shù)學(xué)家和天文學(xué)家Moivre于1733年首次提出的,但由于德國數(shù)學(xué)家Gauss率先將其應(yīng)用于天文學(xué)家研究,故正態(tài)分布又叫高斯分布。高斯這項工作對后世的影響極大,他使正態(tài)分布同時有了“高斯分布”的名稱,后世之所以多將最小二乘法的發(fā)明權(quán)歸之于他,也是出于這一工作。高斯是一個偉大的數(shù)學(xué)家,重要的貢獻不勝枚舉。但現(xiàn)今德國10馬克的印有高斯頭像的鈔票,其上還印有正態(tài)分布的密度曲線。這傳達了一種想法:在高斯的一切科學(xué)貢獻中,其對人類文明影響最大者,就是這一項。在高斯剛作出這個發(fā)現(xiàn)之初,也許人們還只能從其理論的簡化上來評價其優(yōu)越性,其全部影響還不能充分看出來。這要到20世紀(jì)正態(tài)小樣本理論充分發(fā)展起來以后。皮埃爾-西蒙·拉普拉斯很快得知高斯的工作,并馬上將其與他發(fā)現(xiàn)的中心極限定理聯(lián)系起來,為此,他在即將發(fā)表的一篇文章(發(fā)表于1810年)上加上了一點補充,指出如若誤差可看成許多量的疊加,根據(jù)他的中心極限定理,誤差理應(yīng)有高斯分布。這是歷史上第一次提到所謂“元誤差學(xué)說”——誤差是由大量的、由種種原因產(chǎn)生的元誤差疊加而成。后來到1837年,海根(G.Hagen)在一篇論文中正式提出了這個學(xué)說。

其實,他提出的形式有相當(dāng)大的局限性:海根把誤差設(shè)想成個數(shù)很多的、獨立同分布的“元誤差” 之和,每只取兩值,其概率都是1/2,由此出發(fā),按狄莫佛的中心極限定理,立即就得出誤差(近似地)服從正態(tài)分布。皮埃爾-西蒙·拉普拉斯所指出的這一點有重大的意義,在于他給誤差的正態(tài)理論一個更自然合理、更令人信服的解釋。因為,高斯的說法有一點循環(huán)論證的氣味:由于算術(shù)平均是優(yōu)良的,推出誤差必須服從正態(tài)分布;反過來,由后一結(jié)論又推出算術(shù)平均及最小二乘估計的優(yōu)良性,故必須認定這二者之一(算術(shù)平均的優(yōu)良性,誤差的正態(tài)性) 為出發(fā)點。但算術(shù)平均到底并沒有自行成立的理由,以它作為理論中一個預(yù)設(shè)的出發(fā)點,終覺有其不足之處。拉普拉斯的理把這斷裂的一環(huán)連接起來,使之成為一個和諧的整體,實有著極重大的意義。

3.正態(tài)分布的主要特征

1、集中性:正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置。

2、對稱性:正態(tài)曲線以均數(shù)為中心,左右對稱,曲線兩端永遠不與橫軸相交。

3、均勻變動性:正態(tài)曲線由均數(shù)所在處開始,分別向左右兩側(cè)逐漸均勻下降。

4、正態(tài)分布有兩個參數(shù),即均數(shù)μ和標(biāo)準(zhǔn)差σ,可記作N(μ,σ):均數(shù)μ決定正態(tài)曲線的中心位置;標(biāo)準(zhǔn)差σ決定正態(tài)曲線的陡峭或扁平程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。

5、u變換:為了便于描述和應(yīng)用,常將正態(tài)變量作數(shù)據(jù)轉(zhuǎn)換。

4.數(shù)據(jù)正態(tài)分布檢驗 Q-Q圖[1]

要觀察某一屬性的一組數(shù)據(jù)是否符合正態(tài)分布,可以有兩種方法(目前我知道這兩種,并且這兩種方法只是直觀觀察,不是定量的正態(tài)分布檢驗):

1:在spss(Statistical Package for the Social Sciences,即“社會科學(xué)統(tǒng)計軟件包”)里的基本統(tǒng)計分析功能里的頻數(shù)統(tǒng)計功能里有對某個變量各個觀測值的頻數(shù)直方圖中可以選擇繪制正態(tài)曲線。具體如下:Analyze-----Descriptive Statistics-----Frequencies,打開頻數(shù)統(tǒng)計對話框,在Statistics里可以選擇獲得各種描述性的統(tǒng)計量,如:均值、方差、分位數(shù)、峰度、標(biāo)準(zhǔn)差等各種描述性統(tǒng)計量。在Charts里可以選擇顯示的圖形類型,其中Histograms選項為柱狀圖也就是我們說的直方圖,同時可以選擇是否繪制該組數(shù)據(jù)的正態(tài)曲線(With norma curve),這樣我們可以直觀觀察該組數(shù)據(jù)是否大致符合正態(tài)分布。如下圖:

數(shù)據(jù)正態(tài)分布柱狀圖

從上圖中可以看出,該組數(shù)據(jù)基本符合正態(tài)分布。

2:正態(tài)分布的Q-Q圖:在spss里的基本統(tǒng)計分析功能里的探索性分析里面可以通過觀察數(shù)據(jù)的q-q圖來判斷數(shù)據(jù)是否服從正態(tài)分布。

具體步驟如下:Analyze-----Descriptive Statistics-----Explore打開對話框,選擇Plots選項,選擇Normality plots with tests選項,可以繪制該組數(shù)據(jù)的q-q圖。圖的橫坐標(biāo)為改變量的觀測值,縱坐標(biāo)為分位數(shù)。若該組數(shù)據(jù)服從正態(tài)分布,則圖中的點應(yīng)該靠近圖中直線。

縱坐標(biāo)為分位數(shù),是根據(jù)分布函數(shù)公式F(x)=i/n+1得出的.i為把一組數(shù)從小到大排序后第i個數(shù)據(jù)的位置,n為樣本容量。若該數(shù)組服從正態(tài)分布則其q-q圖應(yīng)該與理論的q-q圖(也就是圖中的直線)基本符合。對于理論的標(biāo)準(zhǔn)正態(tài)分布,其q-q圖為y=x直線。非標(biāo)準(zhǔn)正態(tài)分布的斜率為樣本標(biāo)準(zhǔn)差,截距為樣本均值。

如下圖:

spss正態(tài)分布Q-Q圖

5.正態(tài)分布的應(yīng)用

1.估計正態(tài)分布資料的頻數(shù)分布

  例1.某地1993年抽樣調(diào)查了100名18歲男大學(xué)生身高(cm),其均數(shù)=172.70cm,標(biāo)準(zhǔn)差s=4.01cm,

 ?、俟烙嬙摰?8歲男大學(xué)生身高在168cm以下者占該地18歲男大學(xué)生總數(shù)的百分數(shù);

 ?、诜謩e求bar{X}pm 1s、bar{X}pm 1.96s、bar{X}pm 2.58s范圍內(nèi)18歲男大學(xué)生占該地18歲男大學(xué)生總數(shù)的實際百分數(shù),并與理論百分數(shù)比較。

  本例,μ、σ未知但樣本含量n較大,按式u=frac{X-mu}{sigma}用樣本均數(shù)bar{X}和標(biāo)準(zhǔn)差S分別代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表標(biāo)準(zhǔn)正態(tài)曲線下的面積,在表的左側(cè)找到-1.1,表的上方找到0.07,兩者相交處為0.1210=12.10%。該地18歲男大學(xué)生身高在168cm以下者,約占總數(shù)12.10%。其它計算結(jié)果見表-1。

  表-1:1100名18歲男大學(xué)生身高的實際分布與理論分布

  

  2.制定醫(yī)學(xué)參考值范圍:亦稱醫(yī)學(xué)正常值范圍。

它是指所謂“正常人”的解剖、生理、生化等指標(biāo)的波動范圍。制定正常值范圍時,首先要確定一批樣本含量足夠大的 “正常人”,所謂“正常人”不是指“健康人”,而是指排除了影響所研究指標(biāo)的疾病和有關(guān)因素的同質(zhì)人群;其次需根據(jù)研究目的和使用要求選定適當(dāng)?shù)陌俜纸缰?,?0%,90%,95%和99%,常用95%;根據(jù)指標(biāo)的實際用途確定單側(cè)或雙側(cè)界值,如白細胞計數(shù)過高過低皆屬不正常須確定雙側(cè)界值,又如肝功中轉(zhuǎn)氨酶過高屬不正常須確定單側(cè)上界,肺活量過低屬不正常須確定單側(cè)下界。另外,還要根據(jù)資料的分布特點,選用恰當(dāng)?shù)挠嬎惴椒?。常用方法有?/p>

 ?。?)正態(tài)分布法:適用于正態(tài)或近似正態(tài)分布的資料。

  雙側(cè)界值:bar{X}pm u_aS單側(cè)上界:bar{X}+u_aS,或單側(cè)下界:bar{X}-u_aS

 ?。?)對數(shù)正態(tài)分布法:適用于對數(shù)正態(tài)分布資料。

  雙側(cè)界值:lg^{-1}(bar{X}_{lgx}pm u_{a}S_{lgx});單側(cè)上界:lg^{-1}(bar{X}_{lgx}+u_{a}S_{lgx}),或單側(cè)下界:lg^{-1}(bar{X}_{lgx}-u_{a}S_{lgx})。

  常用u值可根據(jù)要求由表-2查出。

 ?。?)百分位數(shù)法:常用于偏態(tài)分布資料以及資料中一端或兩端無確切數(shù)值的資料。

  雙側(cè)界值:P2.5和P97.5;單側(cè)上界:P95,或單側(cè)下界:P5。

  表-2:常用u值表

參考值范圍(%)單側(cè)雙側(cè)
800.8421.282
901.2821.645
951.6451.960
992.3262.576

  3.正態(tài)分布是許多統(tǒng)計方法的理論基礎(chǔ):如t分布、F分布、x2分布都是在正態(tài)分布的基礎(chǔ)上推導(dǎo)出來的,u檢驗也是以正態(tài)分布為基礎(chǔ)的。此外,t分布、二項分布、Poisson分布的極限為正態(tài)分布,在一定條件下,可以按正態(tài)分布原理來處理。

評論  |   0條評論