多變量分析
1.什么是多變量分析
多變量分析是多個變量統(tǒng)計分析技術(shù)在社會研究中的運(yùn)用。又稱多元分析。它的分類方法很多,主要有按變量層次分類和按功能分類。多變量分析為統(tǒng)計方法的一種,包含了許多的方法,最基本的為單變量,再延伸出來的多變量分析。統(tǒng)計資料中有多個變量(或稱因素、指標(biāo))同時存在時的統(tǒng)計分析,是統(tǒng)計學(xué)的重要分支,是單變量統(tǒng)計的發(fā)展。統(tǒng)計學(xué)中的多變量統(tǒng)計分析起源于醫(yī)學(xué)和心理學(xué)。1930年代它在理論上發(fā)展很快,但由于計算復(fù)雜,實際應(yīng)用很少。1970年代以來由于計算機(jī)的蓬勃發(fā)展和普及,多變量統(tǒng)計分析已滲入到幾乎所有的學(xué)科。到80年代后期,計算機(jī)軟件包已很普遍,使用也方便,因此多變量分析方法也更為普及。
2.多變量統(tǒng)計分析
例如對630名炊事員高血壓病進(jìn)行調(diào)查,檢查項目中除血壓外,尚有年齡、性別、體重、體胖等15個項目(變量)。如果用單變量統(tǒng)計分析法考察超重與血壓的關(guān)系,一般是把數(shù)據(jù)做成表1的形式。從表1可見,超重組與不超重組相比,高血壓患病率高出一倍以上。但如果把資料按體胖者與不體胖者劃分成兩組,再考察每組內(nèi)的超重與高血壓患病率的關(guān)系,就未能發(fā)現(xiàn)超重與高血壓患病率有任何明顯的聯(lián)系。也就是說,單變量統(tǒng)計分析忽視了另外因素(如此例中的體胖及年齡等)的影響。對于有多個變量客觀存在而又相互影響的資料,采用簡單的單變量統(tǒng)計分析是不合理的。多變量統(tǒng)計分析就能把變量間的內(nèi)在聯(lián)系和相互影響考慮在內(nèi)。
多變量統(tǒng)計的理論基礎(chǔ)和工具是數(shù)學(xué)中的概率論和矩陣。但對于實際應(yīng)用者而言,只要有合適的計算機(jī)和軟件包以及掌握一些初步的多變量統(tǒng)計知識就可以使用它來解決實際問題。多變量統(tǒng)計的內(nèi)容很多,但從實際應(yīng)用角度看,主要包括回歸分析、判別分析、因子分析、主成分分析、聚類分析、生存分析等六個大的分支。
3.市場研究中的多變量分析技術(shù)
回歸分析技術(shù):是監(jiān)督類分析方法,最重要的認(rèn)識多變量分析的基礎(chǔ)方法,只有掌握了回歸我們才能進(jìn)入多變量分析,其它很多方法都是變種。主要用在影響研究、滿意度研究等,當(dāng)然市場研究基本上是解釋性回歸分析,也就是不注重預(yù)測而關(guān)注解釋自變量對因變量的影響。主要把握R平方、逐步回歸、標(biāo)準(zhǔn)化回歸系數(shù)(當(dāng)作權(quán)重或重要性)等;回歸也是預(yù)處理技術(shù),缺省值處理等
主成分分析和因子分析:是非監(jiān)督類分析方法的代表,是主要認(rèn)識多變量分析的基礎(chǔ)方法,只有掌握了因子分析我們才能進(jìn)入多因素相互關(guān)系的研究;主要用在消費者行為態(tài)度等研究、價值觀態(tài)度語句的分析、市場細(xì)分之前的因子聚類等,問卷的信度和效度檢驗等,因子分析也可算是數(shù)據(jù)的預(yù)處理技術(shù)。主成分分析與因子分析是兩種方法,要能夠區(qū)分。主成分分析可以消減變量,權(quán)重等,主成分還可以用作構(gòu)建綜合排名!
判別分析技術(shù):判別分析是最好的構(gòu)建Biplot二元判別圖的好方法,主要用于分類和判別圖,也是圖示化技術(shù)的一種;
對應(yīng)分析技術(shù):市場研究非常有用的研究技術(shù),主要分析定類變量,構(gòu)建二元圖,也是圖示化技術(shù)的一種;
Logistics回歸技術(shù):分類技術(shù),主要針對因變量是0-1情況下的判別,該技術(shù)是我們認(rèn)識非線性關(guān)系的重要基礎(chǔ),很多情況下,我們需要作出是與否的判斷,基礎(chǔ)模型就是它了,像客戶離網(wǎng)分析、客戶價值分析、客戶信用等都用這個模型;
聚類分析技術(shù):主要用在市場細(xì)分方面,但聚類分析本質(zhì)上不是統(tǒng)計分析,是數(shù)據(jù)處理技術(shù),從事市場細(xì)分的人要好好把握,特別是注重聚類分析的細(xì)節(jié),可以進(jìn)行變量和樣本的聚類;記住:樣本聚類有可能數(shù)據(jù)排列不同聚類結(jié)果不同,要進(jìn)行聚類后的穩(wěn)定性測試,一般也要采用方差最大旋轉(zhuǎn),有時候斜交更適合聚類細(xì)分;當(dāng)然,聚類后的細(xì)分市場識別是頭痛問題,用到上面的幾種技術(shù),也很繁瑣!我現(xiàn)在進(jìn)行市場細(xì)分基本上都用數(shù)據(jù)挖掘軟件工具了!現(xiàn)在比較好用的是Two-Step兩階段聚類;
MDS多維尺度分析技術(shù):這個技術(shù)目前不太用了,但它是認(rèn)識多變量分析技術(shù),尤其是測量與分析技術(shù)好的視角。比如,相似性和差異性測量、語異差異法等,洞察潛在消費者心理和潛在分類維度等。
其它:GLM通用線性模型、Logit回歸、Probit分析、可靠性分析等
4.多變量分析的分支
- 1.回歸分析
當(dāng)多個變量x1,x2,…,xm(稱為回歸變量或自變量、獨立變量)同時影響某個指標(biāo) y(稱為因變量或依賴變量)時,可進(jìn)行回歸分析,回歸分析的第一個任務(wù)就是求回歸變量對指標(biāo) y的影響的統(tǒng)計規(guī)律性(也稱回歸關(guān)系);第二個任務(wù)是尋找眾多的回歸變量中哪一些能對指標(biāo) y產(chǎn)生影響(常稱為因素分析或變量的篩選);第三個任務(wù)(也稱相關(guān)分析)是在固定(或稱消除)其他變量的影響后,考察每一個回歸變量對指標(biāo) y的相關(guān)程度(稱為偏相關(guān)系數(shù))。上述三個任務(wù)常是相互聯(lián)系,可以同時完成。
回歸變量x1,x2,…,xm與因變量y之間最常見的統(tǒng)計關(guān)系有兩大類型:線性模型和非線性模型。線性模型中假定y 的主要部分(記為),可由x1,x2,xm線性表示為
其中b0,b1,b2,…,bm是未知常數(shù),需用樣本去估計,ε 是用取代y后的誤差。這是最常用的模型,稱為多重線性回歸或多元線性回歸。用樣本估計線性回歸模型中未知常數(shù)的方法也很多,經(jīng)典的方法為最小二乘法,它的理論較為完善,此法較適用于回歸變量之間的相關(guān)性不很大時。其他求未知常數(shù)b0,b1,b2,…,bm的方法還有嶺回歸、特征根回歸、主成分回歸等,它們常用于回歸變量之間相關(guān)性很大時。
非線性回歸模型中y的主要部分與x1,x2,…,xm的關(guān)系為非線性函數(shù):
其中┃ 的形式已知,未知常數(shù) α1,α2;…用樣本去估計。醫(yī)學(xué)中最常見的非線性回歸是logistic回歸,它常用于疾病對照研究以及生長發(fā)育問題中。
在前述的炊事員高血壓病調(diào)查中,使用線性模型和最小二乘法求出未知常數(shù),再用逐步回歸選取變量,可求得15個變量中有 7個變量對炊事員舒張壓有顯著的影響,它們按偏相關(guān)系數(shù)大小排列為:年齡 (0.297),體胖程度 (0.253),腎炎史(0.162),性別(0.117),工作類別(0.081),高血壓家族史(0.061),嗜咸程度(0.052)。從相關(guān)性大小看,體胖對舒張壓的影響與年齡的影響大體相當(dāng)。另外還可看出:工種,家族史和嗜咸對舒張壓雖有影響,但影響甚小。
- 2.判別分析
根據(jù)樣本的某些指標(biāo)來決定樣本歸屬的類別。例如在醫(yī)療診斷中,要確定一個病人是否患有急性闌尾炎,這就是一個判別問題。為了回答這一問題往往需要對病人進(jìn)行多項指標(biāo)(變量)的檢測,然后根據(jù)各項指標(biāo)的觀測值將病人歸入患有急性闌尾炎或不患有急性闌尾炎的類中。判別分析通常是先確立一個判別函數(shù),將各指標(biāo)的觀測值代入相應(yīng)的變量,再根據(jù)某判別規(guī)則(如函數(shù)值大于某值)作出判斷、鑒別或決策。例如,為了研究亞硝酸基鹽化合物與胃癌的關(guān)系,有人曾對胃癌組(記為H1)、萎縮性胃炎組(H2)、淺表性胃炎組(H3)3組病人測量以下6個指標(biāo)(變量):性別(x1,男為1,女為0)、年齡(x2)、胃液中pH值(x3)、唾液中亞硝酸鹽濃度(x4)、胃液中亞硝酸鹽濃度(x5)、胃液中二甲基亞硝酸胺濃度 (x6)。用判別分析法,可求出6個指標(biāo)(變量)在 3個疾病組中分布有顯著不同的是x1,x2,x4,x6;其余兩個指標(biāo)在不同組中的分布大體相同。對應(yīng)于每個疾病組可建立以下的判別函數(shù):
u1=-11.48+2.68x1+0.37x2+0.04x4+0.90x6 (H1) u2=-14.06+3.79x1+0.35x2+0.50x4+1.82x6 (H2) u3=-6.36+1.84x1+0.27x2+0.34x4+0.84x6 (H3)
在判別分析時,可將測得的病例值(x1,x2,x4,x6)代入判別函數(shù),求得一組函數(shù)值u1,u2,u3。這里的判別規(guī)則是:如果u1最大,則病例判屬疾病組H1;如果u2最大,則判屬H2;如果u3最大,則屬H3。這樣,診斷就變成了數(shù)據(jù)的處理及分析,現(xiàn)代化醫(yī)院自動診斷的原理就基于此。通常說的把醫(yī)生的經(jīng)驗和知識存入計算機(jī),也就是在計算機(jī)中建立診斷的經(jīng)驗方式──判別函數(shù)。判別函數(shù)中變量前的系數(shù)含有重要的信息。上列中變量x3,x5前的系數(shù)都為0;x1前的3個系數(shù)(2.68,3.79,1.84)說明相對于女性(x1=0)而言,男性 (x1=1)更容易得萎縮性胃炎(3.79)或胃癌(2.68); x2前的3個系數(shù)說明相同年齡者得胃癌、萎縮性胃炎、淺表性胃炎的比為0.37:0.35:0.27;等等。
- 3.因子分析
也稱因素分析。醫(yī)學(xué)、生物學(xué)及一切社會和自然現(xiàn)象中各變量(或事物)之間常存在有相關(guān)性或相似性。這是因為變量(或事物)之間往往存在有共性因素(稱為公因子或共性因子),這些共性因子同時影響不同的變量(或事物)。因子分析的根本任務(wù)就是從眾多的變量(或事物)中由表及里找出隱含于它們內(nèi)部的公因子,指出公因子的主要特點,并用由實際測量到的變量(或事物)構(gòu)造公因子。因子分析有R型及Q型之分,用于變量之間時稱為 R型因子分析,用于事物之間時稱為Q型。
以R型因子分析為例,設(shè)樣本中的變量為x1,x2,…,xm,隱藏的公因子為┃1,┃2,…,┃k。這時每個變量在理論上常可寫成下面的形式:
上式右邊的第一部分是變量中公因子(┃1,┃2,…,┃k)起作用的部分,后一部分是與公因子無關(guān)的部分(稱為獨立性部分)。因子分析的根本任務(wù)就是用樣本求出┃1,┃2,…,┃k及其系數(shù){α嗎},系數(shù)α嗎 稱為權(quán)或負(fù)荷系數(shù),當(dāng)樣本是標(biāo)準(zhǔn)化數(shù)據(jù)且假定公因子之間彼此不相關(guān)時,則權(quán)α嗎就是公因子┃j與變量xi間的相關(guān)系數(shù)。利用因子分析方法可以從所觀測到的變量中推斷出少數(shù)因子,用最少的因子來解釋所觀測到的變量,從而揭示事物之間內(nèi)在的聯(lián)系。對因子的實際解釋必須結(jié)合專業(yè)知識并由實踐檢驗。例如中國學(xué)者梁月華、孫尚拱曾用因子分析法找出隱含在6個易測量的生理指標(biāo)(收縮壓、 舒張壓、呼吸、心率、體溫及唾液量)內(nèi)部的公因子┃1,并用實驗判定┃1可很好地代表交感神經(jīng)的平衡狀態(tài),最后用 ┃1 論證了中醫(yī)的“寒熱”其本質(zhì)就是交感神經(jīng)的抑制或興奮。
主成分分析 是研究如何把彼此相關(guān)的變量綜合成一個(或少數(shù)幾個)綜合指標(biāo)(或稱主成分),而該綜合指標(biāo)應(yīng)能最大程度地反映觀測變量所提供的信息。如記(x1,x2,…,xm)為觀測變量,欲求的綜合指標(biāo)Z一般可寫成
實際上Z往往只能吸收m個變量中相關(guān)最大的一部分信息(類似于因子分析中┃1),此當(dāng)觀測變量間彼此很少有相關(guān)性時,使用主成分分析是不合適的。如果觀測變量間相關(guān)性可以分成幾組而各組間又很少相關(guān),這時不能用一個主成分綜合全體變量,而應(yīng)多取幾個主成分。
實際使用時,由于主成分分析與因子分析極為相似,所以不少統(tǒng)計學(xué)家常把兩種分析不加區(qū)別,名稱也相互套用。
主成分分析在醫(yī)學(xué)研究中有很多應(yīng)用,例如有人把5個易測量的老化征 (白斑、老年斑、閉目單腿直立時間、老年環(huán)、脫齒數(shù))綜合成一個指標(biāo)Z,計算表明綜合值Z可以吸收5個老化征全體信息中的43%,能綜合地反映出形體老化的程度。
- 4.聚類分析
也稱為分類學(xué)。經(jīng)典的分類學(xué)誕生于幾百年前,比如化石分類、植物標(biāo)本分類等。過去的分類多依靠一些特異性指標(biāo)。如果對于所需分類的事物,不存在或難以使用特異性指標(biāo)時就只能采用多變量統(tǒng)計分析法。把數(shù)學(xué)方法引進(jìn)分類學(xué)并稱之為“聚類分析”是60年代的事。此后聚類分析發(fā)展很快,并取得廣泛應(yīng)用,但還不大成熟。
聚類分析也可分為 R型及Q型,對變量作分類稱R型,對樣品(觀察單元、事物)作分類稱 Q型。分類的基礎(chǔ)是相似性或距離。如果兩個變量(或樣品)彼此相似或距離很近,自然就分在同一類。因此在進(jìn)行聚類分析時必須先定義相似性或距離。相似性或距離的定義法種類繁多。例如,常用變量間的相關(guān)系數(shù)代表變量間的相似性,以幾何中兩點間的歐氏距離(先要去量綱)代表兩個樣品間的距離。然后選用分類的數(shù)學(xué)公式,對它們的分類作出判別。這些公式也是種類繁多。至今沒有一種公式是最優(yōu)的。實際工作者常選用多種方法試算,再結(jié)合專業(yè)知識確定分類的結(jié)果。
- 5.生存分析
生存分析起源于壽命表。生物的生存時間除了受健康的影響外,同時還受社會因素,生活條件等影響。生存分析研究哪些因素對“壽命”有顯著影響,它的風(fēng)險程度如何。20世紀(jì)末生存分析已不僅用于研究人的壽命問題,還用于一切廣義的“壽命”或有關(guān)“死亡”的問題,比如發(fā)動機(jī)的壽命,病人手術(shù)后的生存時間,兩種療效的對比分析等。生存分析有多種模型,最常用的有Cox回歸模型,它的特點是:m個變量聯(lián)合作用的相對風(fēng)險可以表示成每個變量單獨作用時相對風(fēng)險的乘積(故也稱為乘法模型)。另外常用的模型為可加性模型,它的特點是:m 個變量聯(lián)合作用的相對風(fēng)險可表示為每個變量單獨作用之和。究竟應(yīng)使用什么樣的模型應(yīng)在具體問題中結(jié)合專業(yè)知識確定。