登錄

主成分分析法

百科 > 主成分分析法

1.什么是主成分分析法

主成分分析也稱主分量分析,旨在利用降維的思想,把多指標(biāo)轉(zhuǎn)化為少數(shù)幾個(gè)綜合指標(biāo)。

在統(tǒng)計(jì)學(xué)中,主成分分析(principal components analysis,PCA)是一種簡(jiǎn)化數(shù)據(jù)集的技術(shù)。它是一個(gè)線性變換。這個(gè)變換把數(shù)據(jù)變換到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個(gè)坐標(biāo)(稱為第一主成分)上,第二大方差在第二個(gè)坐標(biāo)(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征。這是通過(guò)保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應(yīng)用而定。

2.主成分分析的基本思想

在實(shí)證問(wèn)題研究中,為了全面、系統(tǒng)地分析問(wèn)題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標(biāo),在多元統(tǒng)計(jì)分析中也稱為變量。因?yàn)槊總€(gè)變量都在不同程度上反映了所研究問(wèn)題的某些信息,并且指標(biāo)之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計(jì)數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計(jì)方法研究多變量問(wèn)題時(shí),變量太 多會(huì)增加計(jì)算量和增加分析問(wèn)題的復(fù)雜性,人們希望在進(jìn)行定量分析的過(guò)程中,涉及的變量較少,得到的信息量較多。主成分分析正是適應(yīng)這一要求產(chǎn)生的,是解決這類題的理想工具。

同樣,在科普效果評(píng)估的過(guò)程中也存在著這樣的問(wèn)題??破招Ч呛茈y具體量化的。在實(shí)際評(píng)估工作中,我們常常會(huì)選用幾個(gè)有代表性的綜合指標(biāo),采用打分的方法來(lái)進(jìn)行評(píng)估,故綜合指標(biāo)的選取是個(gè)重點(diǎn)和難點(diǎn)。如上所述,主成分分析法正是解決這一問(wèn)題的理想工具。因?yàn)樵u(píng)估所涉及的眾多變量之間既然有一定的相關(guān)性,就必然存在著起支配作用的因素。根據(jù)這一點(diǎn),通過(guò)對(duì)原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu) 的關(guān)系研究,找出影響科普效果某一要素的幾個(gè)綜合指標(biāo),使綜合指標(biāo)為原來(lái)變量的線 性擬合。這樣,綜合指標(biāo)不僅保留了原始變量的主要信息,且彼此間不相關(guān),又比原始 變量具有某些更優(yōu)越的性質(zhì),就使我們?cè)谘芯繌?fù)雜的科普效果評(píng)估問(wèn)題時(shí),容易抓住主 要矛盾。 上述想法可進(jìn)一步概述為:設(shè)某科普效果評(píng)估要素涉及個(gè)指標(biāo),這指標(biāo)構(gòu) 成的維隨機(jī)向量為。對(duì)作正交變換,令,其中為正交陣,的各分量是不相關(guān)的,使得的各分量在某個(gè)評(píng)估要素中的作用容易解釋,這就使得我們有可能從主分量中選擇主要成分,削除對(duì)這一要素影響微弱的部分,通過(guò) 對(duì)主分量的重點(diǎn)分析,達(dá)到對(duì)原始變量進(jìn)行分析的目的。的各分量是原始變量線性組合,不同的分量表示原始變量之間不同的影響關(guān)系。由于這些基本關(guān)系很可能與特定的作用過(guò)程相聯(lián)系,主成分分析使我們能從錯(cuò)綜復(fù)雜的科普評(píng)估要素的眾多指標(biāo)中,找出一些主要成分,以便有效地利用大量統(tǒng)計(jì)數(shù)據(jù),進(jìn)行科普效果評(píng)估分析,使我們?cè)谘芯靠破招Чu(píng)估問(wèn)題中,可能得到深層次的一些啟發(fā),把科普效果評(píng)估研究引向深入。

例如,在對(duì)科普產(chǎn)品開(kāi)發(fā)和利用這一要素的評(píng)估中,涉及科普創(chuàng)作人數(shù)百萬(wàn)人、科 普作品發(fā)行量百萬(wàn)人、科普產(chǎn)業(yè)化(科普示范基地?cái)?shù)百萬(wàn)人)等多項(xiàng)指標(biāo)。經(jīng)過(guò)主成分分析計(jì)算,最后確定個(gè)或個(gè)主成分作為綜合評(píng)價(jià)科普產(chǎn)品利用和開(kāi)發(fā)的綜合指標(biāo),變量數(shù)減少,并達(dá)到一定的可信度,就容易進(jìn)行科普效果的評(píng)估。

3.主成分分析法的基本原理

主成分分析法是一種降維的統(tǒng)計(jì)方法,它借助于一個(gè)正交變換,將其分量相關(guān)的原隨機(jī)向量轉(zhuǎn)化成其分量不相關(guān)的新隨機(jī)向量,這在代數(shù)上表現(xiàn)為將原隨機(jī)向量的協(xié)方差陣變換成對(duì)角形陣,在幾何上表現(xiàn)為將原坐標(biāo)系變換成新的正交坐標(biāo)系,使之指向樣本點(diǎn)散布最開(kāi)的p 個(gè)正交方向,然后對(duì)多維變量系統(tǒng)進(jìn)行降維處理,使之能以一個(gè)較高的精度轉(zhuǎn)換成低維變量系統(tǒng),再通過(guò)構(gòu)造適當(dāng)?shù)膬r(jià)值函數(shù),進(jìn)一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。

4.主成分分析的主要作用

概括起來(lái)說(shuō),主成分分析主要由以下幾個(gè)方面的作用。

1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個(gè)主成分Yl(即 m=1)時(shí),這個(gè)Yl仍是使用全部X變量(p個(gè))得到的。例如要計(jì)算Yl的均值也得使用全部x的均值。在所選的前m個(gè)主成分中,如果某個(gè)Xi的系數(shù)全部近似于零的話,就可以把這個(gè)Xi刪除,這也是一種刪除多余變量的方法。

2.有時(shí)可通過(guò)因子負(fù)荷aij的結(jié)論,弄清X(qián)變量間的某些關(guān)系。

3.多維數(shù)據(jù)的一種圖形表示方法。我們知道當(dāng)維數(shù)大于3時(shí)便不能畫(huà)出幾何圖形,多元統(tǒng)計(jì)研究的問(wèn)題大都多于3個(gè)變量。要把研究的問(wèn)題用圖形表示出來(lái)是不可能的。然而,經(jīng)過(guò)主成分分析后,我們可以選取前兩個(gè)主成分或其中某兩個(gè)主成分,根據(jù)主成分的得分,畫(huà)出n個(gè)樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進(jìn)而還可以對(duì)樣本進(jìn)行分類處理,可以由圖形發(fā)現(xiàn)遠(yuǎn)離大多數(shù)樣本點(diǎn)的離群點(diǎn)。

4.由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來(lái)自變量x做回歸分析。

5.用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實(shí)際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預(yù)報(bào),好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計(jì)算量來(lái)選擇量,獲得選擇最佳變量子集合的效果。

5.主成分分析法的應(yīng)用分析

評(píng)論  |   0條評(píng)論