登錄

多變量分析

百科 > 多變量分析

1.什么是多變量分析

多變量分析是多個(gè)變量統(tǒng)計(jì)分析技術(shù)在社會(huì)研究中的運(yùn)用。又稱多元分析。它的分類方法很多,主要有按變量層次分類和按功能分類。多變量分析為統(tǒng)計(jì)方法的一種,包含了許多的方法,最基本的為單變量,再延伸出來的多變量分析。統(tǒng)計(jì)資料中有多個(gè)變量(或稱因素、指標(biāo))同時(shí)存在時(shí)的統(tǒng)計(jì)分析,是統(tǒng)計(jì)學(xué)的重要分支,是單變量統(tǒng)計(jì)的發(fā)展。統(tǒng)計(jì)學(xué)中的多變量統(tǒng)計(jì)分析起源于醫(yī)學(xué)和心理學(xué)。1930年代它在理論上發(fā)展很快,但由于計(jì)算復(fù)雜,實(shí)際應(yīng)用很少。1970年代以來由于計(jì)算機(jī)的蓬勃發(fā)展和普及,多變量統(tǒng)計(jì)分析已滲入到幾乎所有的學(xué)科。到80年代后期,計(jì)算機(jī)軟件包已很普遍,使用也方便,因此多變量分析方法也更為普及。

2.多變量統(tǒng)計(jì)分析

例如對(duì)630名炊事員高血壓病進(jìn)行調(diào)查,檢查項(xiàng)目中除血壓外,尚有年齡、性別、體重、體胖等15個(gè)項(xiàng)目(變量)。如果用單變量統(tǒng)計(jì)分析法考察超重與血壓的關(guān)系,一般是把數(shù)據(jù)做成表1的形式。從表1可見,超重組與不超重組相比,高血壓患病率高出一倍以上。但如果把資料按體胖者與不體胖者劃分成兩組,再考察每組內(nèi)的超重與高血壓患病率的關(guān)系,就未能發(fā)現(xiàn)超重與高血壓患病率有任何明顯的聯(lián)系。也就是說,單變量統(tǒng)計(jì)分析忽視了另外因素(如此例中的體胖及年齡等)的影響。對(duì)于有多個(gè)變量客觀存在而又相互影響的資料,采用簡(jiǎn)單的單變量統(tǒng)計(jì)分析是不合理的。多變量統(tǒng)計(jì)分析就能把變量間的內(nèi)在聯(lián)系和相互影響考慮在內(nèi)。

多變量統(tǒng)計(jì)的理論基礎(chǔ)和工具是數(shù)學(xué)中的概率論和矩陣。但對(duì)于實(shí)際應(yīng)用者而言,只要有合適的計(jì)算機(jī)和軟件包以及掌握一些初步的多變量統(tǒng)計(jì)知識(shí)就可以使用它來解決實(shí)際問題。多變量統(tǒng)計(jì)的內(nèi)容很多,但從實(shí)際應(yīng)用角度看,主要包括回歸分析、判別分析、因子分析、主成分分析、聚類分析、生存分析等六個(gè)大的分支。

3.市場(chǎng)研究中的多變量分析技術(shù)

回歸分析技術(shù):是監(jiān)督類分析方法,最重要的認(rèn)識(shí)多變量分析的基礎(chǔ)方法,只有掌握了回歸我們才能進(jìn)入多變量分析,其它很多方法都是變種。主要用在影響研究、滿意度研究等,當(dāng)然市場(chǎng)研究基本上是解釋性回歸分析,也就是不注重預(yù)測(cè)而關(guān)注解釋自變量對(duì)因變量的影響。主要把握R平方、逐步回歸、標(biāo)準(zhǔn)化回歸系數(shù)(當(dāng)作權(quán)重或重要性)等;回歸也是預(yù)處理技術(shù),缺省值處理等

主成分分析和因子分析:是非監(jiān)督類分析方法的代表,是主要認(rèn)識(shí)多變量分析的基礎(chǔ)方法,只有掌握了因子分析我們才能進(jìn)入多因素相互關(guān)系的研究;主要用在消費(fèi)者行為態(tài)度等研究、價(jià)值觀態(tài)度語句的分析、市場(chǎng)細(xì)分之前的因子聚類等,問卷的信度和效度檢驗(yàn)等,因子分析也可算是數(shù)據(jù)的預(yù)處理技術(shù)。主成分分析與因子分析是兩種方法,要能夠區(qū)分。主成分分析可以消減變量,權(quán)重等,主成分還可以用作構(gòu)建綜合排名!

判別分析技術(shù):判別分析是最好的構(gòu)建Biplot二元判別圖的好方法,主要用于分類和判別圖,也是圖示化技術(shù)的一種;

對(duì)應(yīng)分析技術(shù):市場(chǎng)研究非常有用的研究技術(shù),主要分析定類變量,構(gòu)建二元圖,也是圖示化技術(shù)的一種;

Logistics回歸技術(shù):分類技術(shù),主要針對(duì)因變量是0-1情況下的判別,該技術(shù)是我們認(rèn)識(shí)非線性關(guān)系的重要基礎(chǔ),很多情況下,我們需要作出是與否的判斷,基礎(chǔ)模型就是它了,像客戶離網(wǎng)分析、客戶價(jià)值分析、客戶信用等都用這個(gè)模型;

聚類分析技術(shù):主要用在市場(chǎng)細(xì)分方面,但聚類分析本質(zhì)上不是統(tǒng)計(jì)分析,是數(shù)據(jù)處理技術(shù),從事市場(chǎng)細(xì)分的人要好好把握,特別是注重聚類分析的細(xì)節(jié),可以進(jìn)行變量和樣本的聚類;記?。簶颖揪垲愑锌赡軘?shù)據(jù)排列不同聚類結(jié)果不同,要進(jìn)行聚類后的穩(wěn)定性測(cè)試,一般也要采用方差最大旋轉(zhuǎn),有時(shí)候斜交更適合聚類細(xì)分;當(dāng)然,聚類后的細(xì)分市場(chǎng)識(shí)別是頭痛問題,用到上面的幾種技術(shù),也很繁瑣!我現(xiàn)在進(jìn)行市場(chǎng)細(xì)分基本上都用數(shù)據(jù)挖掘軟件工具了!現(xiàn)在比較好用的是Two-Step兩階段聚類;

MDS多維尺度分析技術(shù):這個(gè)技術(shù)目前不太用了,但它是認(rèn)識(shí)多變量分析技術(shù),尤其是測(cè)量與分析技術(shù)好的視角。比如,相似性和差異性測(cè)量、語異差異法等,洞察潛在消費(fèi)者心理和潛在分類維度等。

其它:GLM通用線性模型、Logit回歸、Probit分析、可靠性分析

4.多變量分析的分支

1.回歸分析

當(dāng)多個(gè)變量x1,x2,…,xm(稱為回歸變量或自變量、獨(dú)立變量)同時(shí)影響某個(gè)指標(biāo) y(稱為因變量或依賴變量)時(shí),可進(jìn)行回歸分析,回歸分析的第一個(gè)任務(wù)就是求回歸變量對(duì)指標(biāo) y的影響的統(tǒng)計(jì)規(guī)律性(也稱回歸關(guān)系);第二個(gè)任務(wù)是尋找眾多的回歸變量中哪一些能對(duì)指標(biāo) y產(chǎn)生影響(常稱為因素分析或變量的篩選);第三個(gè)任務(wù)(也稱相關(guān)分析)是在固定(或稱消除)其他變量的影響后,考察每一個(gè)回歸變量對(duì)指標(biāo) y的相關(guān)程度(稱為偏相關(guān)系數(shù))。上述三個(gè)任務(wù)常是相互聯(lián)系,可以同時(shí)完成。

回歸變量x1,x2,…,xm與因變量y之間最常見的統(tǒng)計(jì)關(guān)系有兩大類型:線性模型和非線性模型。線性模型中假定y 的主要部分(記為),可由x1,x2,xm線性表示為

其中b0,b1,b2,…,bm是未知常數(shù),需用樣本去估計(jì),ε 是用取代y后的誤差。這是最常用的模型,稱為多重線性回歸或多元線性回歸。用樣本估計(jì)線性回歸模型中未知常數(shù)的方法也很多,經(jīng)典的方法為最小二乘法,它的理論較為完善,此法較適用于回歸變量之間的相關(guān)性不很大時(shí)。其他求未知常數(shù)b0,b1,b2,…,bm的方法還有嶺回歸、特征根回歸、主成分回歸等,它們常用于回歸變量之間相關(guān)性很大時(shí)。

非線性回歸模型中y的主要部分與x1,x2,…,xm的關(guān)系為非線性函數(shù):

其中┃ 的形式已知,未知常數(shù) α1,α2;…用樣本去估計(jì)。醫(yī)學(xué)中最常見的非線性回歸是logistic回歸,它常用于疾病對(duì)照研究以及生長(zhǎng)發(fā)育問題中。

在前述的炊事員高血壓病調(diào)查中,使用線性模型和最小二乘法求出未知常數(shù),再用逐步回歸選取變量,可求得15個(gè)變量中有 7個(gè)變量對(duì)炊事員舒張壓有顯著的影響,它們按偏相關(guān)系數(shù)大小排列為:年齡 (0.297),體胖程度 (0.253),腎炎史(0.162),性別(0.117),工作類別(0.081),高血壓家族史(0.061),嗜咸程度(0.052)。從相關(guān)性大小看,體胖對(duì)舒張壓的影響與年齡的影響大體相當(dāng)。另外還可看出:工種,家族史和嗜咸對(duì)舒張壓雖有影響,但影響甚小。

2.判別分析

根據(jù)樣本的某些指標(biāo)來決定樣本歸屬的類別。例如在醫(yī)療診斷中,要確定一個(gè)病人是否患有急性闌尾炎,這就是一個(gè)判別問題。為了回答這一問題往往需要對(duì)病人進(jìn)行多項(xiàng)指標(biāo)(變量)的檢測(cè),然后根據(jù)各項(xiàng)指標(biāo)的觀測(cè)值將病人歸入患有急性闌尾炎或不患有急性闌尾炎的類中。判別分析通常是先確立一個(gè)判別函數(shù),將各指標(biāo)的觀測(cè)值代入相應(yīng)的變量,再根據(jù)某判別規(guī)則(如函數(shù)值大于某值)作出判斷、鑒別或決策。例如,為了研究亞硝酸基鹽化合物與胃癌的關(guān)系,有人曾對(duì)胃癌組(記為H1)、萎縮性胃炎組(H2)、淺表性胃炎組(H3)3組病人測(cè)量以下6個(gè)指標(biāo)(變量):性別(x1,男為1,女為0)、年齡(x2)、胃液中pH值(x3)、唾液中亞硝酸鹽濃度(x4)、胃液中亞硝酸鹽濃度(x5)、胃液中二甲基亞硝酸胺濃度 (x6)。用判別分析法,可求出6個(gè)指標(biāo)(變量)在 3個(gè)疾病組中分布有顯著不同的是x1,x2,x4,x6;其余兩個(gè)指標(biāo)在不同組中的分布大體相同。對(duì)應(yīng)于每個(gè)疾病組可建立以下的判別函數(shù):

u1=-11.48+2.68x1+0.37x2+0.04x4+0.90x6 (H1) u2=-14.06+3.79x1+0.35x2+0.50x4+1.82x6 (H2) u3=-6.36+1.84x1+0.27x2+0.34x4+0.84x6 (H3)

判別分析時(shí),可將測(cè)得的病例值(x1,x2,x4,x6)代入判別函數(shù),求得一組函數(shù)值u1,u2,u3。這里的判別規(guī)則是:如果u1最大,則病例判屬疾病組H1;如果u2最大,則判屬H2;如果u3最大,則屬H3。這樣,診斷就變成了數(shù)據(jù)的處理及分析,現(xiàn)代化醫(yī)院自動(dòng)診斷的原理就基于此。通常說的把醫(yī)生的經(jīng)驗(yàn)和知識(shí)存入計(jì)算機(jī),也就是在計(jì)算機(jī)中建立診斷的經(jīng)驗(yàn)方式──判別函數(shù)。判別函數(shù)中變量前的系數(shù)含有重要的信息。上列中變量x3,x5前的系數(shù)都為0;x1前的3個(gè)系數(shù)(2.68,3.79,1.84)說明相對(duì)于女性(x1=0)而言,男性 (x1=1)更容易得萎縮性胃炎(3.79)或胃癌(2.68); x2前的3個(gè)系數(shù)說明相同年齡者得胃癌、萎縮性胃炎、淺表性胃炎的比為0.37:0.35:0.27;等等。

3.因子分析

也稱因素分析。醫(yī)學(xué)、生物學(xué)及一切社會(huì)和自然現(xiàn)象中各變量(或事物)之間常存在有相關(guān)性或相似性。這是因?yàn)樽兞浚ɑ蚴挛铮┲g往往存在有共性因素(稱為公因子或共性因子),這些共性因子同時(shí)影響不同的變量(或事物)。因子分析的根本任務(wù)就是從眾多的變量(或事物)中由表及里找出隱含于它們內(nèi)部的公因子,指出公因子的主要特點(diǎn),并用由實(shí)際測(cè)量到的變量(或事物)構(gòu)造公因子。因子分析有R型及Q型之分,用于變量之間時(shí)稱為 R型因子分析,用于事物之間時(shí)稱為Q型。

以R型因子分析為例,設(shè)樣本中的變量為x1,x2,…,xm,隱藏的公因子為┃1,┃2,…,┃k。這時(shí)每個(gè)變量在理論上常可寫成下面的形式:

上式右邊的第一部分是變量中公因子(┃1,┃2,…,┃k)起作用的部分,后一部分是與公因子無關(guān)的部分(稱為獨(dú)立性部分)。因子分析的根本任務(wù)就是用樣本求出┃1,┃2,…,┃k及其系數(shù){α嗎},系數(shù)α嗎 稱為權(quán)或負(fù)荷系數(shù),當(dāng)樣本是標(biāo)準(zhǔn)化數(shù)據(jù)且假定公因子之間彼此不相關(guān)時(shí),則權(quán)α嗎就是公因子┃j與變量xi間的相關(guān)系數(shù)。利用因子分析方法可以從所觀測(cè)到的變量中推斷出少數(shù)因子,用最少的因子來解釋所觀測(cè)到的變量,從而揭示事物之間內(nèi)在的聯(lián)系。對(duì)因子的實(shí)際解釋必須結(jié)合專業(yè)知識(shí)并由實(shí)踐檢驗(yàn)。例如中國(guó)學(xué)者梁月華、孫尚拱曾用因子分析法找出隱含在6個(gè)易測(cè)量的生理指標(biāo)(收縮壓、 舒張壓、呼吸、心率、體溫及唾液量)內(nèi)部的公因子┃1,并用實(shí)驗(yàn)判定┃1可很好地代表交感神經(jīng)的平衡狀態(tài),最后用 ┃1 論證了中醫(yī)的“寒熱”其本質(zhì)就是交感神經(jīng)的抑制或興奮。

主成分分析 是研究如何把彼此相關(guān)的變量綜合成一個(gè)(或少數(shù)幾個(gè))綜合指標(biāo)(或稱主成分),而該綜合指標(biāo)應(yīng)能最大程度地反映觀測(cè)變量所提供的信息。如記(x1,x2,…,xm)為觀測(cè)變量,欲求的綜合指標(biāo)Z一般可寫成

實(shí)際上Z往往只能吸收m個(gè)變量中相關(guān)最大的一部分信息(類似于因子分析中┃1),此當(dāng)觀測(cè)變量間彼此很少有相關(guān)性時(shí),使用主成分分析是不合適的。如果觀測(cè)變量間相關(guān)性可以分成幾組而各組間又很少相關(guān),這時(shí)不能用一個(gè)主成分綜合全體變量,而應(yīng)多取幾個(gè)主成分。

實(shí)際使用時(shí),由于主成分分析與因子分析極為相似,所以不少統(tǒng)計(jì)學(xué)家常把兩種分析不加區(qū)別,名稱也相互套用。

主成分分析在醫(yī)學(xué)研究中有很多應(yīng)用,例如有人把5個(gè)易測(cè)量的老化征 (白斑、老年斑、閉目單腿直立時(shí)間、老年環(huán)、脫齒數(shù))綜合成一個(gè)指標(biāo)Z,計(jì)算表明綜合值Z可以吸收5個(gè)老化征全體信息中的43%,能綜合地反映出形體老化的程度。

4.聚類分析

也稱為分類學(xué)。經(jīng)典的分類學(xué)誕生于幾百年前,比如化石分類、植物標(biāo)本分類等。過去的分類多依靠一些特異性指標(biāo)。如果對(duì)于所需分類的事物,不存在或難以使用特異性指標(biāo)時(shí)就只能采用多變量統(tǒng)計(jì)分析法。把數(shù)學(xué)方法引進(jìn)分類學(xué)并稱之為“聚類分析”是60年代的事。此后聚類分析發(fā)展很快,并取得廣泛應(yīng)用,但還不大成熟。

聚類分析也可分為 R型及Q型,對(duì)變量作分類稱R型,對(duì)樣品(觀察單元、事物)作分類稱 Q型。分類的基礎(chǔ)是相似性或距離。如果兩個(gè)變量(或樣品)彼此相似或距離很近,自然就分在同一類。因此在進(jìn)行聚類分析時(shí)必須先定義相似性或距離。相似性或距離的定義法種類繁多。例如,常用變量間的相關(guān)系數(shù)代表變量間的相似性,以幾何中兩點(diǎn)間的歐氏距離(先要去量綱)代表兩個(gè)樣品間的距離。然后選用分類的數(shù)學(xué)公式,對(duì)它們的分類作出判別。這些公式也是種類繁多。至今沒有一種公式是最優(yōu)的。實(shí)際工作者常選用多種方法試算,再結(jié)合專業(yè)知識(shí)確定分類的結(jié)果。

5.生存分析

生存分析起源于壽命表。生物的生存時(shí)間除了受健康的影響外,同時(shí)還受社會(huì)因素,生活條件等影響。生存分析研究哪些因素對(duì)“壽命”有顯著影響,它的風(fēng)險(xiǎn)程度如何。20世紀(jì)末生存分析已不僅用于研究人的壽命問題,還用于一切廣義的“壽命”或有關(guān)“死亡”的問題,比如發(fā)動(dòng)機(jī)的壽命,病人手術(shù)后的生存時(shí)間,兩種療效的對(duì)比分析等。生存分析有多種模型,最常用的有Cox回歸模型,它的特點(diǎn)是:m個(gè)變量聯(lián)合作用的相對(duì)風(fēng)險(xiǎn)可以表示成每個(gè)變量單獨(dú)作用時(shí)相對(duì)風(fēng)險(xiǎn)的乘積(故也稱為乘法模型)。另外常用的模型為可加性模型,它的特點(diǎn)是:m 個(gè)變量聯(lián)合作用的相對(duì)風(fēng)險(xiǎn)可表示為每個(gè)變量單獨(dú)作用之和。究竟應(yīng)使用什么樣的模型應(yīng)在具體問題中結(jié)合專業(yè)知識(shí)確定。

評(píng)論  |   0條評(píng)論