顯著性檢驗
目錄
1.什么是顯著性檢驗
顯著性檢驗就是事先對總體(隨機(jī)變量)的參數(shù)或總體分布形式做出一個假設(shè),然后利用樣本信息來判斷這個假設(shè)(原假設(shè))是否合理,即判斷總體的真實情況與原假設(shè)是否顯著地有差異。或者說,顯著性檢驗要判斷樣本與我們對總體所做的假設(shè)之間的差異是純屬機(jī)會變異,還是由我們所做的假設(shè)與總體真實情況之間不一致所引起的。
顯著性檢驗是針對我們對總體所做的假設(shè)做檢驗,其原理就是“小概率事件實際不可能性原理”來接受或否定假設(shè)。
抽樣實驗會產(chǎn)生抽樣誤差,對實驗資料進(jìn)行比較分析時,不能僅憑兩個結(jié)果(平均數(shù)或率)的不同就作出結(jié)論,而是要進(jìn)行統(tǒng)計學(xué)分析,鑒別出兩者差異是抽樣誤差引起的,還是由特定的實驗處理引起的。
2.顯著性檢驗的含義
顯著性檢驗即用于實驗處理組與對照組或兩種不同處理的效應(yīng)之間是否有差異,以及這種差異是否顯著的方法。
常把一個要檢驗的假設(shè)記作H0,稱為原假設(shè)(或零假設(shè)) (null hypothesis) ,與H0對立的假設(shè)記作H1,稱為備擇假設(shè)(alternative hypothesis) 。
⑴ 在原假設(shè)為真時,決定放棄原假設(shè),稱為第一類錯誤,其出現(xiàn)的概率通常記作α;
⑵ 在原假設(shè)不真時,決定接受原假設(shè),稱為第二類錯誤,其出現(xiàn)的概率通常記作β。
通常只限定犯第一類錯誤的最大概率α, 不考慮犯第二類錯誤的概率β。這樣的假設(shè) 檢驗又稱為顯著性檢驗,概率α稱為顯著性水平。
最常用的α值為0.01、0.05、0.10等。一般情況下,根據(jù)研究的問題,如果放棄真錯誤損失大,為減少這類錯誤,α取值小些 ,反之,α取值大些。
3.顯著性檢驗的原理
- 無效假設(shè)
顯著性檢驗的基本原理是提出“無效假設(shè)”和檢驗“無效假設(shè)”成立的機(jī)率(P)水平的選擇。所謂“無效假設(shè)”,就是當(dāng)比較實驗處理組與對照組的結(jié)果時,假設(shè)兩組結(jié)果間差異不顯著,即實驗處理對結(jié)果沒有影響或無效。經(jīng)統(tǒng)計學(xué)分析后,如發(fā)現(xiàn)兩組間差異系抽樣引起的,則“無效假設(shè)”成立,可認(rèn)為這種差異為不顯著(即實驗處理無效)。若兩組間差異不是由抽樣引起的,則“無效假設(shè)”不成立,可認(rèn)為這種差異是顯著的(即實驗處理有效)。
- “無效假設(shè)”成立的機(jī)率水平
檢驗“無效假設(shè)”成立的機(jī)率水平一般定為5%(常寫為p≤0.05),其含義是將同一實驗重復(fù)100次,兩者結(jié)果間的差異有5次以上是由抽樣誤差造成的,則“無效假設(shè)”成立,可認(rèn)為兩組間的差異為不顯著,常記為p>0.05。若兩者結(jié)果間的差異5次以下是由抽樣誤差造成的,則“無效假設(shè)”不成立,可認(rèn)為兩組間的差異為顯著,常記為p≤0.05。如果p≤0.01,則認(rèn)為兩組間的差異為非常顯著。
4.顯著性檢驗的相關(guān)概念
5.顯著性檢驗的作用
分析工作者常常用標(biāo)準(zhǔn)方法與自己所用的分析方法進(jìn)行對照試驗,然后用統(tǒng)計學(xué)方法檢驗兩種結(jié)果是否存在顯著性差異。若存在顯著性差異而又肯定測定過程中沒有錯誤,可以認(rèn)定自己所用的方法有不完善之處,即存在較大的系統(tǒng)誤差。
因此分析結(jié)果的差異需進(jìn)行統(tǒng)計檢驗或顯著性檢驗。
6.顯著性檢驗的基本思想
顯著性檢驗的基本思想可以用小概率原理來解釋。
1、小概率原理:小概率事件在一次試驗中是幾乎不可能發(fā)生的,假若在一次試驗中事件 事實上發(fā)生了。那只能認(rèn)為事件 不是來自我們假設(shè)的總體,也就是認(rèn)為我們對總體所做的假設(shè)不正確。
2、觀察到的顯著水平:由樣本資料計算出來的檢驗統(tǒng)計量觀察值所截取的尾部面積為。這個概率越小,反對原假設(shè),認(rèn)為觀察到的差異表明真實的差異存在的證據(jù)便越強(qiáng),觀察到的差異便越加理由充分地表明真實差異存在。
3、檢驗所用的顯著水平:針對具體問題的具體特點,事先規(guī)定這個檢驗標(biāo)準(zhǔn)。
4、在檢驗的操作中,把觀察到的顯著性水平與作為檢驗標(biāo)準(zhǔn)的顯著水平標(biāo)準(zhǔn)比較,小于這個標(biāo)準(zhǔn)時,得到了拒絕原假設(shè)的證據(jù),認(rèn)為樣本數(shù)據(jù)表明了真實差異存在。大于這個標(biāo)準(zhǔn)時,拒絕原假設(shè)的證據(jù)不足,認(rèn)為樣本數(shù)據(jù)不足以表明真實差異存在。
5、檢驗的操作可以用稍許簡便一點的作法:根據(jù)所提出的顯著水平查表得到相應(yīng)的 值,稱作臨界值,直接用檢驗統(tǒng)計量的觀察值與臨界值作比較,觀察值落在臨界值所劃定的尾部內(nèi),便拒絕原假設(shè);觀察值落在臨界值所劃定的尾部之外,則認(rèn)為拒絕原假設(shè)的證據(jù)不足。
7.顯著性檢驗的P值[1]
若用計算機(jī)統(tǒng)計軟件進(jìn)行假設(shè)檢驗, 我們會見到P—值。將算得檢驗統(tǒng)計量樣本值查表得的概率是就是P值(在那里我們稱之為觀察到的顯著水平)。
P值是怎么來的
從某總體中抽樣所得的樣本,其參數(shù)會與總體參數(shù)有所不同,這可能是由于兩種原因:
⑴、這一樣本是由該總體抽出,其差別是由抽樣誤差所致;
⑵、這一樣本不是從該總體抽出,所以有所不同。
如何判斷是那種原因呢?統(tǒng)計學(xué)中用顯著性檢驗賴判斷。其步驟是:
⑴、建立檢驗假設(shè)(又稱無效假設(shè),符號為H0):如要比較A藥和B藥的療效是否相等,則假設(shè)兩組樣本來自同一總體,即A藥的總體療效和B藥相等,差別僅由抽樣誤差引起的碰巧出現(xiàn)的。
⑵、選擇適當(dāng)?shù)?a href="/wiki/%E7%BB%9F%E8%AE%A1%E6%96%B9%E6%B3%95" title="統(tǒng)計方法">統(tǒng)計方法計算H0成立的可能性即概率有多大,概率用P值表示。
⑶、根據(jù)選定的顯著性水平(0.05或0.01),決定接受還是拒絕H0。
如果P>0.05,不能否定“差別由抽樣誤差引起”,則接受H0;如果P<0.05或P <0.01,可以認(rèn)為差別不由抽樣誤差引起,可以拒絕H0,則可以接受另一種可能性的假設(shè)(又稱備選假設(shè),符號為H1),即兩樣本來自不同的總體,所以兩藥療效有差別。
統(tǒng)計學(xué)上規(guī)定的P值意義見下表
P值 碰巧的概率 對無效假設(shè) 統(tǒng)計意義 P>0.05 碰巧出現(xiàn)的可能性大于5% 不能否定無效假設(shè) 兩組差別無顯著意義 P<0.05 碰巧出現(xiàn)的可能性小于5% 可以否定無效假設(shè) 兩組差別有顯著意義 P <0.01 碰巧出現(xiàn)的可能性小于1% 可以否定無效假設(shè) 兩者差別有非常顯著意義
- 理解P值,下述幾點必須注意:
⑴P的意義不表示兩組差別的大小,P反映兩組差別有無統(tǒng)計學(xué)意義,并不表示差別大小。因此,與對照組相比,C藥取得P<0.05,D藥取得P <0.01并不表示D的藥效比C強(qiáng)。
⑵ P>0.05時,差異無顯著意義,根據(jù)統(tǒng)計學(xué)原理可知,不能否認(rèn)無效假設(shè),但并不認(rèn)為無效假設(shè)肯定成立。在藥效統(tǒng)計分析中,更不表示兩藥等效。哪種將“兩組差別無顯著意義”與“兩組基本等效”相同的做法是缺乏統(tǒng)計學(xué)依據(jù)的。
⑶統(tǒng)計學(xué)主要用上述三種P值表示,也可以計算出確切的P值,有人用P <0.001,無此必要。
⑷顯著性檢驗只是統(tǒng)計結(jié)論。判斷差別還要根據(jù)專業(yè)知識。
8.顯著性檢驗的結(jié)果
關(guān)于顯著性檢驗的結(jié)果:
(一)顯著性檢驗回答什么問題
我們所觀察到的差異(是純屬于機(jī)會變異,還是反映了真實的差異?
1、如果顯著性檢驗得到差異顯著的結(jié)論這時并不能評價差異的大小和重要性。
2、顯著性檢驗只能告訴我們差異是否在事實上存在,而不能回答差異產(chǎn)生的原因。
3、顯著性檢驗不能檢查我們對實驗所作的設(shè)計是否有缺陷
(二)顯著性檢驗回答問題的方式
在表述顯著性檢驗結(jié)論的時候,應(yīng)與檢驗的邏輯推理相符。
當(dāng)檢驗統(tǒng)計量的觀察值落在拒絕域時,我們應(yīng)該說,樣本資料顯著地(或高度顯著地)表明,差異是存在的。
(三)對觀察到的顯著水平數(shù)值的評價
9.顯著性檢驗中的總體和樣本
1、顯著性檢驗的對象是無限總體。
2、大樣本可能會使檢驗統(tǒng)計量過分敏感。
3、從有限總體中抽取樣本用于顯著性檢驗時,必須作概率抽樣。
10.顯著性檢驗的步驟
顯著性檢驗的一般步驟或格式,如下:
1、提出假設(shè)
H0:______
H1:______
同時,與備擇假設(shè)相應(yīng),指出所作檢驗為雙尾檢驗還是左單尾或右單尾檢驗。
2、構(gòu)造檢驗統(tǒng)計量,收集樣本數(shù)據(jù),計算檢驗統(tǒng)計量的樣本觀察值。
3、根據(jù)所提出的顯著水平 ,確定臨界值和拒絕域。
4、作出檢驗決策。
把檢驗統(tǒng)計量的樣本觀察值和臨界值比較,或者把觀察到的顯著水平與顯著水平標(biāo)準(zhǔn)比較;最后按檢驗規(guī)則作出檢驗決策。當(dāng)樣本值落入拒絕域時,表述成:“拒絕原假設(shè)”,“顯著表明真實的差異存在”;當(dāng)樣本值落入接受域時,表述成:“沒有充足的理由拒絕原假設(shè)”,“沒有充足的理由表明真實的差異存在”。另外,在表述結(jié)論之后應(yīng)當(dāng)注明所用的顯著水平。
11.顯著性檢驗應(yīng)注意的問題
進(jìn)行顯著性檢驗還應(yīng)注意以下幾個問題:
1、要有合理的試驗設(shè)計和準(zhǔn)確的試驗操作,避免系統(tǒng)誤差、降低試驗誤差,提高試驗的準(zhǔn)確性和精確性。
2、選用的顯著性檢驗方法要符合其應(yīng)用條件。由于研究變量的類型、問題的性質(zhì)、條件、試驗設(shè)計方法、樣本大小等的不同,所選用的顯著性檢驗方法也不同,因而在選用檢驗方法時,應(yīng)認(rèn)真考慮其應(yīng)用條件和適用范圍。
3、選用合理的統(tǒng)計假設(shè)。進(jìn)行顯著性檢驗時,無效假設(shè)和備擇假設(shè)的選用,決定了采用兩尾檢驗或是一尾檢驗。 4、正確理解顯著性檢驗結(jié)論的統(tǒng)計意義。顯著性檢驗結(jié)論中的“差異顯著”或“差異極顯著”不應(yīng)該誤解為相差很大或非常大,也不能認(rèn)為在實際應(yīng)用上一定就有重要或很重要的價值?!帮@著”或“極顯著”是指表面差異為試驗誤差可能性小于0.05或0.01,已達(dá)到了可以認(rèn)為存在真實差異的顯著水平。有些試驗結(jié)果雖然表面差異大,但由于試驗誤差大,也許還不能得出“差異顯著”的結(jié)論,而有些試驗的結(jié)果雖然表面差異小,但由于試驗誤差小,反而可能推斷為“差異顯著”。
顯著水平的高低只表示下結(jié)論的可靠程度的高低,即在0.01水平下否定無效假設(shè)的可靠程度為99%,而在0.05水平下否定無效假設(shè)的可靠程度為95%。
“差異不顯著”是指表面差異為試驗誤差可能性大于統(tǒng)計上公認(rèn)的概率水平0.05,不能理解為沒有差異。下“差異不顯著”的結(jié)論時,客觀上存在兩種可能:一是無本質(zhì)差異,二是有本質(zhì)差異,但被試驗誤差所掩蓋,表現(xiàn)不出差異的顯著性來。如果減小試驗誤差或增大樣本容量,則可能表現(xiàn)出差異顯著性。顯著性檢驗只是用來確定無效假設(shè)能否被否定,而不能證明無效假設(shè)是正確的。
5、統(tǒng)計分析結(jié)論的應(yīng)用,還要與經(jīng)濟(jì)效益等結(jié)合起來綜合考慮。
12.顯著性檢驗的應(yīng)用[2]
在市場調(diào)研中,由于人力、物力、時間等問題,一般都用抽樣調(diào)查的方法抽取一定數(shù)量的具有代表性的群體,得出樣本數(shù)據(jù)來進(jìn)行市場研究,并對市場總體特征進(jìn)行統(tǒng)計推斷,在這里面就會存在兩個問題,一是樣本的特征數(shù)量能否反映總體特征?二是,兩種不同的樣本的數(shù)量標(biāo)志參數(shù)是否存在差異?只有解決這兩個問題,才能正確的推斷市場總體特征,也才能找出市場中不同特征群體的需求差異,這就需要統(tǒng)計學(xué)中的顯著性檢驗來解決,由于顯著性檢驗的功能在數(shù)據(jù)分析中的重大作用,顯著性檢驗在市場調(diào)研中得到了廣泛的應(yīng)用;但若不恰當(dāng)?shù)氖褂帽銜?dǎo)致市場調(diào)研信息反應(yīng)的歪曲或挖掘不充分;以下是我根據(jù)以往應(yīng)用顯著性檢驗的經(jīng)驗而總結(jié)的一些關(guān)于如何恰當(dāng)?shù)膽?yīng)用統(tǒng)計檢驗的體會,僅供參考、討論。
要恰當(dāng)?shù)倪\(yùn)用檢驗方法,我們需要做到以下幾點:
首先,了解各檢驗方法的適用范圍及其特點。
這也是正確使用檢驗方法的基本前提,只有了解各檢驗方法的基本思想及特點,才能正確選取適當(dāng)?shù)臋z驗方法。
許多統(tǒng)計檢驗方法的應(yīng)用對總體有特殊的要求,如t檢驗要求總體符合正態(tài)分布,F(xiàn)檢驗要求誤差呈正態(tài)分布且各組方差整齊,等等。這些常用來估計或檢驗總體參數(shù)的方法,統(tǒng)稱為參數(shù)統(tǒng)計。許多調(diào)查或?qū)嶒炈玫目蒲袛?shù)據(jù),其總體分布未知或無法確定,這時做統(tǒng)計分析常常不是針對總體參數(shù),而是針對總體的某些一般性假設(shè)(如總體分布),這類方法稱非參數(shù)統(tǒng)計,相應(yīng)的,統(tǒng)計檢驗總體分為參數(shù)檢驗和非參數(shù)檢驗。在選擇參數(shù)與非參數(shù)檢驗時,首要考慮是數(shù)據(jù)的分布情況,能確定分布類型的,則可適當(dāng)選用參數(shù)檢驗,參數(shù)檢驗主要包括包含的方法有:單樣本T檢驗、兩獨(dú)立樣本T檢驗、兩配對樣本T檢驗;非參數(shù)由于不限制分布,統(tǒng)計方法簡便,適用性強(qiáng),但檢驗效率較低,應(yīng)用時應(yīng)適當(dāng)加以考慮,非參數(shù)檢驗主要涉及五個方面,即單樣本、兩獨(dú)立樣本、兩配對樣本、多獨(dú)立樣本、多配對樣本的非參數(shù)檢驗。
不同的檢驗方法,比較的統(tǒng)計量是不同的。T檢驗等檢驗方法都是比較的均值;卡方檢驗、K-S檢驗等比較頻數(shù);曼-惠特尼U檢驗等是對秩進(jìn)行比較;符號檢驗法比較的是前后變化差值的符號、而符號秩檢驗法則是對差值及符號一同比較的檢驗。
其次,認(rèn)清研究目的。
研究目的是市場調(diào)研中一切實務(wù)的根本出發(fā)點,做數(shù)據(jù)分析時同樣首要考慮的是研究目的,研究目的也是數(shù)據(jù)分析的方向,但此時研究目的需要細(xì)化,具體到要通過哪些數(shù)據(jù)、得到什么信息、何種結(jié)果的問題,如希望通過對消費(fèi)者購買哪些品牌的數(shù)據(jù)來得出市場占有率的信息。
再次,分析數(shù)據(jù)特點。
明確某些數(shù)據(jù)的研究目的后,需要認(rèn)清數(shù)據(jù)自身特點。第一,弄清楚要分析的數(shù)據(jù)屬于什么類型,是連續(xù)型,還是非連續(xù)型?對于連續(xù)型數(shù)值,均值具有實際意義,對于非連續(xù)性的數(shù)值,均值并不具備實際意義,而是頻數(shù),百分比才有意義,所以,數(shù)據(jù)屬于連續(xù)型時,適用比較均值的顯著性檢驗,若是非連續(xù)型的級數(shù)類,則適用比較頻數(shù)、比例的檢驗方法;其實,數(shù)據(jù)也是可以跟據(jù)不同情況,靈活處理的,如對于滿意度的衡量,我們可以根據(jù)不同的需求看為連續(xù)型分值,也可以看為幾個等級的級數(shù);第二,我們還需要了解樣本數(shù)據(jù)的分布特點,弄清楚樣本數(shù)據(jù)是否服從某一分布,對于分布明確的,可以采用參數(shù)檢驗,而不清楚分布情況的則可以采用非參數(shù)檢驗法;第三,判斷要檢驗差異的兩組樣本的關(guān)系,屬于獨(dú)立樣本,還是屬于配對樣本。獨(dú)立樣本即指在一個總體中隨機(jī)抽樣對在另一個總體中隨機(jī)抽樣沒有影響的情況下所獲得的樣本,樣本之間相互獨(dú)立;而配對樣本可以是同一個體在前后兩種狀態(tài)下某種屬性的兩種狀態(tài),也可以是對某事物兩個不同側(cè)面或方面的描述,兩樣本不是相互獨(dú)立,而是有相關(guān)性的。
最后,靈活運(yùn)用檢驗方法。
檢驗方法雖然有各自特點和適用范圍,但是可以對數(shù)據(jù)做稍微的處理、變化,或是換個角度分析,便可運(yùn)用不同的檢驗方法;且各方法有適用范圍,當(dāng)然也有它的局限性,有時需要多種檢驗方法配合使用,相互補(bǔ)充,才能充分的挖掘信息,比如,獨(dú)立樣本T檢驗法判斷AB產(chǎn)品對于抗過敏的功效評價在均值上是否有差異,而卡方檢驗可判斷他們在各評價水平上的分布有無差異,假如判斷出他們功效水平無差異之后,我們還想知道他們到底是同樣的好還是同樣的差,這時可以再使用單樣本 T 檢驗對以與均值評價水平相近的滿意度水平進(jìn)行差異性檢驗來進(jìn)行定位。 此外,我們還需要合理解釋檢驗結(jié)果。
不僅要正確識別檢驗結(jié)果,還需要結(jié)合原始數(shù)據(jù)及實際意義,并針對研究目的來分析說明。
13.顯著性檢驗的實例分析
14.相關(guān)系數(shù)顯著性檢驗表
rαα k | 0.100.050.020.010.001 | αrα k | ||||
---|---|---|---|---|---|---|
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100 | 0.9877 0.9000 0.8054 0.7293 0.6694 0.6215 0.5822 0.5494 0.5214 0.4973 0.4762 0.4575 0.4409 0.4259 0.4124 0.4000 0.3887 0.3783 0.3687 0.3598 0.3233 0.2960 0.2746 0.2573 0.2428 0.2306 0.2108 0.1954 0.1829 0.1726 0.1638 | 0.9969 0.9500 0.8783 0.8114 0.7545 0.7067 0.6664 0.6319 0.6021 0.5760 0.5529 0.5324 0.5139 0.4973 0.4821 0.4683 0.4555 0.4438 0.4329 0.4227 0.3809 0.3494 0.3246 0.3044 0.2875 0.2732 0.2500 0.2319 0.2172 0.2050 0.1946 | 0.9995 0.9800 0.9343 0.8822 0.8329 0.7887 0.7498 0.7155 0.6851 0.6581 0.6339 0.6120 0.5923 0.5742 0.5577 0.5425 0.5285 0.5155 0.5034 0.4921 0.4451 0.4093 0.3810 0.3578 0.3384 0.3218 0.2948 0.2737 0.2565 0.2422 0.2301 | 0.9999 0.9900 0.9587 0.9172 0.8745 0.8343 0.7977 0.7646 0.7348 0.7079 0.6835 0.6614 0.6411 0.6226 0.6055 0.5897 0.5751 0.5614 0.5487 0.5368 0.4869 0.4487 0.4182 0.3932 0.3721 0.3541 0.3248 0.3017 0.2830 0.2673 0.2540 | 0.9999 0.9990 0.9912 0.9741 0.9507 0.9249 0.8982 0.8721 0.8471 0.8233 0.8010 0.7800 0.7603 0.7420 0.7246 0.7084 0.6932 0.6787 0.6652 0.6524 0.5974 0.5541 0.5189 0.4896 0.4648 0.4433 0.4078 0.3799 0.3568 0.3375 0.3211 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 35 40 45 50 60 70 80 90 100 |