多變量分析

1.什么是多變量分析

多變量分析是多個變量統(tǒng)計分析技術(shù)在社會研究中的運用。又稱多元分析。它的分類方法很多，主要有按變量層次分類和按功能分類。多變量分析為統(tǒng)計方法的一種，包含了許多的方法，最基本的為單變量，再延伸出來的多變量分析。統(tǒng)計資料中有多個變量（或稱因素、指標）同時存在時的統(tǒng)計分析，是統(tǒng)計學的重要分支，是單變量統(tǒng)計的發(fā)展。統(tǒng)計學中的多變量統(tǒng)計分析起源于醫(yī)學和心理學。1930年代它在理論上發(fā)展很快，但由于計算復雜，實際應(yīng)用很少。1970年代以來由于計算機的蓬勃發(fā)展和普及，多變量統(tǒng)計分析已滲入到幾乎所有的學科。到80年代后期，計算機軟件包已很普遍，使用也方便，因此多變量分析方法也更為普及。

2.多變量統(tǒng)計分析

例如對630名炊事員高血壓病進行調(diào)查,檢查項目中除血壓外，尚有年齡、性別、體重、體胖等15個項目（變量）。如果用單變量統(tǒng)計分析法考察超重與血壓的關(guān)系，一般是把數(shù)據(jù)做成表1的形式。從表1可見，超重組與不超重組相比，高血壓患病率高出一倍以上。但如果把資料按體胖者與不體胖者劃分成兩組，再考察每組內(nèi)的超重與高血壓患病率的關(guān)系，就未能發(fā)現(xiàn)超重與高血壓患病率有任何明顯的聯(lián)系。也就是說，單變量統(tǒng)計分析忽視了另外因素（如此例中的體胖及年齡等）的影響。對于有多個變量客觀存在而又相互影響的資料，采用簡單的單變量統(tǒng)計分析是不合理的。多變量統(tǒng)計分析就能把變量間的內(nèi)在聯(lián)系和相互影響考慮在內(nèi)。

多變量統(tǒng)計的理論基礎(chǔ)和工具是數(shù)學中的概率論和矩陣。但對于實際應(yīng)用者而言，只要有合適的計算機和軟件包以及掌握一些初步的多變量統(tǒng)計知識就可以使用它來解決實際問題。多變量統(tǒng)計的內(nèi)容很多，但從實際應(yīng)用角度看，主要包括回歸分析、判別分析、因子分析、主成分分析、聚類分析、生存分析等六個大的分支。

3.市場研究中的多變量分析技術(shù)

回歸分析技術(shù)：是監(jiān)督類分析方法，最重要的認識多變量分析的基礎(chǔ)方法，只有掌握了回歸我們才能進入多變量分析，其它很多方法都是變種。主要用在影響研究、滿意度研究等，當然市場研究基本上是解釋性回歸分析，也就是不注重預(yù)測而關(guān)注解釋自變量對因變量的影響。主要把握R平方、逐步回歸、標準化回歸系數(shù)（當作權(quán)重或重要性）等；回歸也是預(yù)處理技術(shù)，缺省值處理等

主成分分析和因子分析：是非監(jiān)督類分析方法的代表，是主要認識多變量分析的基礎(chǔ)方法，只有掌握了因子分析我們才能進入多因素相互關(guān)系的研究；主要用在消費者行為態(tài)度等研究、價值觀態(tài)度語句的分析、市場細分之前的因子聚類等，問卷的信度和效度檢驗等，因子分析也可算是數(shù)據(jù)的預(yù)處理技術(shù)。主成分分析與因子分析是兩種方法，要能夠區(qū)分。主成分分析可以消減變量，權(quán)重等，主成分還可以用作構(gòu)建綜合排名！

判別分析技術(shù)：判別分析是最好的構(gòu)建Biplot二元判別圖的好方法，主要用于分類和判別圖，也是圖示化技術(shù)的一種；

對應(yīng)分析技術(shù)：市場研究非常有用的研究技術(shù)，主要分析定類變量，構(gòu)建二元圖，也是圖示化技術(shù)的一種；

Logistics回歸技術(shù)：分類技術(shù)，主要針對因變量是0-1情況下的判別，該技術(shù)是我們認識非線性關(guān)系的重要基礎(chǔ)，很多情況下，我們需要作出是與否的判斷，基礎(chǔ)模型就是它了，像客戶離網(wǎng)分析、客戶價值分析、客戶信用等都用這個模型；

聚類分析技術(shù)：主要用在市場細分方面，但聚類分析本質(zhì)上不是統(tǒng)計分析，是數(shù)據(jù)處理技術(shù)，從事市場細分的人要好好把握，特別是注重聚類分析的細節(jié)，可以進行變量和樣本的聚類；記?。簶颖揪垲愑锌赡軘?shù)據(jù)排列不同聚類結(jié)果不同，要進行聚類后的穩(wěn)定性測試，一般也要采用方差最大旋轉(zhuǎn)，有時候斜交更適合聚類細分；當然，聚類后的細分市場識別是頭痛問題，用到上面的幾種技術(shù)，也很繁瑣！我現(xiàn)在進行市場細分基本上都用數(shù)據(jù)挖掘軟件工具了！現(xiàn)在比較好用的是Two-Step兩階段聚類；

MDS多維尺度分析技術(shù)：這個技術(shù)目前不太用了，但它是認識多變量分析技術(shù)，尤其是測量與分析技術(shù)好的視角。比如，相似性和差異性測量、語異差異法等，洞察潛在消費者心理和潛在分類維度等。

其它：GLM通用線性模型、Logit回歸、Probit分析、可靠性分析等

4.多變量分析的分支

1.回歸分析

當多個變量x1，x2,…，xm（稱為回歸變量或自變量、獨立變量）同時影響某個指標 y（稱為因變量或依賴變量）時，可進行回歸分析，回歸分析的第一個任務(wù)就是求回歸變量對指標 y的影響的統(tǒng)計規(guī)律性（也稱回歸關(guān)系）；第二個任務(wù)是尋找眾多的回歸變量中哪一些能對指標 y產(chǎn)生影響（常稱為因素分析或變量的篩選）；第三個任務(wù)(也稱相關(guān)分析)是在固定（或稱消除）其他變量的影響后，考察每一個回歸變量對指標 y的相關(guān)程度（稱為偏相關(guān)系數(shù)）。上述三個任務(wù)常是相互聯(lián)系，可以同時完成。

回歸變量x1，x2，…，xm與因變量y之間最常見的統(tǒng)計關(guān)系有兩大類型：線性模型和非線性模型。線性模型中假定y 的主要部分（記為），可由x1，x2，xm線性表示為

其中b0,b1，b2，…，bm是未知常數(shù)，需用樣本去估計，ε 是用取代y后的誤差。這是最常用的模型，稱為多重線性回歸或多元線性回歸。用樣本估計線性回歸模型中未知常數(shù)的方法也很多，經(jīng)典的方法為最小二乘法，它的理論較為完善，此法較適用于回歸變量之間的相關(guān)性不很大時。其他求未知常數(shù)b0,b1，b2，…，bm的方法還有嶺回歸、特征根回歸、主成分回歸等，它們常用于回歸變量之間相關(guān)性很大時。

非線性回歸模型中y的主要部分與x1,x2，…，xm的關(guān)系為非線性函數(shù)：

其中┃ 的形式已知，未知常數(shù) α1，α2；…用樣本去估計。醫(yī)學中最常見的非線性回歸是logistic回歸，它常用于疾病對照研究以及生長發(fā)育問題中。

在前述的炊事員高血壓病調(diào)查中，使用線性模型和最小二乘法求出未知常數(shù)，再用逐步回歸選取變量，可求得15個變量中有 7個變量對炊事員舒張壓有顯著的影響，它們按偏相關(guān)系數(shù)大小排列為：年齡 (0.297)，體胖程度 (0.253)，腎炎史(0.162)，性別(0.117)，工作類別(0.081),高血壓家族史(0.061)，嗜咸程度(0.052)。從相關(guān)性大小看，體胖對舒張壓的影響與年齡的影響大體相當。另外還可看出：工種，家族史和嗜咸對舒張壓雖有影響，但影響甚小。

2.判別分析

根據(jù)樣本的某些指標來決定樣本歸屬的類別。例如在醫(yī)療診斷中，要確定一個病人是否患有急性闌尾炎，這就是一個判別問題。為了回答這一問題往往需要對病人進行多項指標（變量）的檢測，然后根據(jù)各項指標的觀測值將病人歸入患有急性闌尾炎或不患有急性闌尾炎的類中。判別分析通常是先確立一個判別函數(shù)，將各指標的觀測值代入相應(yīng)的變量，再根據(jù)某判別規(guī)則（如函數(shù)值大于某值）作出判斷、鑒別或決策。例如，為了研究亞硝酸基鹽化合物與胃癌的關(guān)系，有人曾對胃癌組（記為H1）、萎縮性胃炎組(H2)、淺表性胃炎組(H3)3組病人測量以下6個指標(變量)：性別（x1,男為1,女為0）、年齡(x2)、胃液中pH值(x3)、唾液中亞硝酸鹽濃度(x4)、胃液中亞硝酸鹽濃度(x5)、胃液中二甲基亞硝酸胺濃度 (x6)。用判別分析法，可求出6個指標（變量）在 3個疾病組中分布有顯著不同的是x1,x2，x4,x6；其余兩個指標在不同組中的分布大體相同。對應(yīng)于每個疾病組可建立以下的判別函數(shù)：

u1=-11.48+2.68x1+0.37x2+0.04x4+0.90x6 (H1) u2=-14.06+3.79x1+0.35x2+0.50x4+1.82x6 (H2) u3=-6.36+1.84x1+0.27x2+0.34x4+0.84x6 (H3)

在判別分析時，可將測得的病例值(x1,x2,x4,x6)代入判別函數(shù),求得一組函數(shù)值u1，u2，u3。這里的判別規(guī)則是：如果u1最大,則病例判屬疾病組H1；如果u2最大,則判屬H2；如果u3最大，則屬H3。這樣，診斷就變成了數(shù)據(jù)的處理及分析，現(xiàn)代化醫(yī)院自動診斷的原理就基于此。通常說的把醫(yī)生的經(jīng)驗和知識存入計算機，也就是在計算機中建立診斷的經(jīng)驗方式──判別函數(shù)。判別函數(shù)中變量前的系數(shù)含有重要的信息。上列中變量x3，x5前的系數(shù)都為0；x1前的3個系數(shù)(2.68，3.79，1.84)說明相對于女性(x1=0)而言,男性 (x1=1)更容易得萎縮性胃炎(3.79)或胃癌(2.68)； x2前的3個系數(shù)說明相同年齡者得胃癌、萎縮性胃炎、淺表性胃炎的比為0.37:0.35:0.27；等等。

3.因子分析

也稱因素分析。醫(yī)學、生物學及一切社會和自然現(xiàn)象中各變量（或事物）之間常存在有相關(guān)性或相似性。這是因為變量（或事物）之間往往存在有共性因素（稱為公因子或共性因子），這些共性因子同時影響不同的變量（或事物）。因子分析的根本任務(wù)就是從眾多的變量（或事物）中由表及里找出隱含于它們內(nèi)部的公因子，指出公因子的主要特點，并用由實際測量到的變量（或事物）構(gòu)造公因子。因子分析有R型及Q型之分，用于變量之間時稱為 R型因子分析，用于事物之間時稱為Q型。

以R型因子分析為例,設(shè)樣本中的變量為x1,x2，…，xm，隱藏的公因子為┃1,┃2，…，┃k。這時每個變量在理論上?？蓪懗上旅娴男问剑?

上式右邊的第一部分是變量中公因子(┃1,┃2，…，┃k)起作用的部分，后一部分是與公因子無關(guān)的部分（稱為獨立性部分）。因子分析的根本任務(wù)就是用樣本求出┃1,┃2，…，┃k及其系數(shù)｛α嗎｝，系數(shù)α嗎稱為權(quán)或負荷系數(shù)，當樣本是標準化數(shù)據(jù)且假定公因子之間彼此不相關(guān)時,則權(quán)α嗎就是公因子┃j與變量xi間的相關(guān)系數(shù)。利用因子分析方法可以從所觀測到的變量中推斷出少數(shù)因子，用最少的因子來解釋所觀測到的變量，從而揭示事物之間內(nèi)在的聯(lián)系。對因子的實際解釋必須結(jié)合專業(yè)知識并由實踐檢驗。例如中國學者梁月華、孫尚拱曾用因子分析法找出隱含在6個易測量的生理指標（收縮壓、舒張壓、呼吸、心率、體溫及唾液量）內(nèi)部的公因子┃1，并用實驗判定┃1可很好地代表交感神經(jīng)的平衡狀態(tài)，最后用 ┃1 論證了中醫(yī)的“寒熱”其本質(zhì)就是交感神經(jīng)的抑制或興奮。

主成分分析是研究如何把彼此相關(guān)的變量綜合成一個（或少數(shù)幾個）綜合指標（或稱主成分），而該綜合指標應(yīng)能最大程度地反映觀測變量所提供的信息。如記(x1,x2，…，xm)為觀測變量,欲求的綜合指標Z一般可寫成

實際上Z往往只能吸收m個變量中相關(guān)最大的一部分信息（類似于因子分析中┃1），此當觀測變量間彼此很少有相關(guān)性時，使用主成分分析是不合適的。如果觀測變量間相關(guān)性可以分成幾組而各組間又很少相關(guān)，這時不能用一個主成分綜合全體變量，而應(yīng)多取幾個主成分。

實際使用時，由于主成分分析與因子分析極為相似，所以不少統(tǒng)計學家常把兩種分析不加區(qū)別，名稱也相互套用。

主成分分析在醫(yī)學研究中有很多應(yīng)用，例如有人把5個易測量的老化征（白斑、老年斑、閉目單腿直立時間、老年環(huán)、脫齒數(shù)）綜合成一個指標Z,計算表明綜合值Z可以吸收5個老化征全體信息中的43％，能綜合地反映出形體老化的程度。

4.聚類分析

也稱為分類學。經(jīng)典的分類學誕生于幾百年前，比如化石分類、植物標本分類等。過去的分類多依靠一些特異性指標。如果對于所需分類的事物，不存在或難以使用特異性指標時就只能采用多變量統(tǒng)計分析法。把數(shù)學方法引進分類學并稱之為“聚類分析”是60年代的事。此后聚類分析發(fā)展很快，并取得廣泛應(yīng)用，但還不大成熟。

聚類分析也可分為 R型及Q型，對變量作分類稱R型，對樣品（觀察單元、事物）作分類稱 Q型。分類的基礎(chǔ)是相似性或距離。如果兩個變量（或樣品）彼此相似或距離很近，自然就分在同一類。因此在進行聚類分析時必須先定義相似性或距離。相似性或距離的定義法種類繁多。例如，常用變量間的相關(guān)系數(shù)代表變量間的相似性，以幾何中兩點間的歐氏距離（先要去量綱）代表兩個樣品間的距離。然后選用分類的數(shù)學公式，對它們的分類作出判別。這些公式也是種類繁多。至今沒有一種公式是最優(yōu)的。實際工作者常選用多種方法試算，再結(jié)合專業(yè)知識確定分類的結(jié)果。

5.生存分析

生存分析起源于壽命表。生物的生存時間除了受健康的影響外，同時還受社會因素，生活條件等影響。生存分析研究哪些因素對“壽命”有顯著影響，它的風險程度如何。20世紀末生存分析已不僅用于研究人的壽命問題，還用于一切廣義的“壽命”或有關(guān)“死亡”的問題，比如發(fā)動機的壽命，病人手術(shù)后的生存時間，兩種療效的對比分析等。生存分析有多種模型，最常用的有Cox回歸模型，它的特點是：m個變量聯(lián)合作用的相對風險可以表示成每個變量單獨作用時相對風險的乘積（故也稱為乘法模型）。另外常用的模型為可加性模型，它的特點是：m 個變量聯(lián)合作用的相對風險可表示為每個變量單獨作用之和。究竟應(yīng)使用什么樣的模型應(yīng)在具體問題中結(jié)合專業(yè)知識確定。

評論 | 0條評論

評論

經(jīng)理人分享

多變量分析

目錄

1.什么是多變量分析

2.多變量統(tǒng)計分析

3.市場研究中的多變量分析技術(shù)

4.多變量分析的分支