登錄

主成分分析法

百科 > 主成分分析法

1.什么是主成分分析法

主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉(zhuǎn)化為少數(shù)幾個綜合指標。

在統(tǒng)計學中,主成分分析(principal components analysis,PCA)是一種簡化數(shù)據(jù)集的技術(shù)。它是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經(jīng)常用減少數(shù)據(jù)集的維數(shù),同時保持數(shù)據(jù)集的對方差貢獻最大的特征。這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面。但是,這也不是一定的,要視具體應用而定。

2.主成分分析的基本思想

在實證問題研究中,為了全面、系統(tǒng)地分析問題,我們必須考慮眾多影響因素。這些涉及的因素一般稱為指標,在多元統(tǒng)計分析中也稱為變量。因為每個變量都在不同程度上反映了所研究問題的某些信息,并且指標之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計方法研究多變量問題時,變量太 多會增加計算量和增加分析問題的復雜性,人們希望在進行定量分析的過程中,涉及的變量較少,得到的信息量較多。主成分分析正是適應這一要求產(chǎn)生的,是解決這類題的理想工具。

同樣,在科普效果評估的過程中也存在著這樣的問題??破招Ч呛茈y具體量化的。在實際評估工作中,我們常常會選用幾個有代表性的綜合指標,采用打分的方法來進行評估,故綜合指標的選取是個重點和難點。如上所述,主成分分析法正是解決這一問題的理想工具。因為評估所涉及的眾多變量之間既然有一定的相關(guān)性,就必然存在著起支配作用的因素。根據(jù)這一點,通過對原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu) 的關(guān)系研究,找出影響科普效果某一要素的幾個綜合指標,使綜合指標為原來變量的線 性擬合。這樣,綜合指標不僅保留了原始變量的主要信息,且彼此間不相關(guān),又比原始 變量具有某些更優(yōu)越的性質(zhì),就使我們在研究復雜的科普效果評估問題時,容易抓住主 要矛盾。 上述想法可進一步概述為:設(shè)某科普效果評估要素涉及個指標,這指標構(gòu) 成的維隨機向量為。對作正交變換,令,其中為正交陣,的各分量是不相關(guān)的,使得的各分量在某個評估要素中的作用容易解釋,這就使得我們有可能從主分量中選擇主要成分,削除對這一要素影響微弱的部分,通過 對主分量的重點分析,達到對原始變量進行分析的目的。的各分量是原始變量線性組合,不同的分量表示原始變量之間不同的影響關(guān)系。由于這些基本關(guān)系很可能與特定的作用過程相聯(lián)系,主成分分析使我們能從錯綜復雜的科普評估要素的眾多指標中,找出一些主要成分,以便有效地利用大量統(tǒng)計數(shù)據(jù),進行科普效果評估分析,使我們在研究科普效果評估問題中,可能得到深層次的一些啟發(fā),把科普效果評估研究引向深入。

例如,在對科普產(chǎn)品開發(fā)和利用這一要素的評估中,涉及科普創(chuàng)作人數(shù)百萬人、科 普作品發(fā)行量百萬人、科普產(chǎn)業(yè)化(科普示范基地數(shù)百萬人)等多項指標。經(jīng)過主成分分析計算,最后確定個或個主成分作為綜合評價科普產(chǎn)品利用和開發(fā)的綜合指標,變量數(shù)減少,并達到一定的可信度,就容易進行科普效果的評估。

3.主成分分析法的基本原理

主成分分析法是一種降維的統(tǒng)計方法,它借助于一個正交變換,將其分量相關(guān)的原隨機向量轉(zhuǎn)化成其分量不相關(guān)的新隨機向量,這在代數(shù)上表現(xiàn)為將原隨機向量的協(xié)方差陣變換成對角形陣,在幾何上表現(xiàn)為將原坐標系變換成新的正交坐標系,使之指向樣本點散布最開的p 個正交方向,然后對多維變量系統(tǒng)進行降維處理,使之能以一個較高的精度轉(zhuǎn)換成低維變量系統(tǒng),再通過構(gòu)造適當?shù)膬r值函數(shù),進一步把低維系統(tǒng)轉(zhuǎn)化成一維系統(tǒng)。

4.主成分分析的主要作用

概括起來說,主成分分析主要由以下幾個方面的作用。

1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。即用研究m維的Y空間代替p維的X空間(m<p),而低維的Y空間代替 高維的x空間所損失的信息很少。即:使只有一個主成分Yl(即 m=1)時,這個Yl仍是使用全部X變量(p個)得到的。例如要計算Yl的均值也得使用全部x的均值。在所選的前m個主成分中,如果某個Xi的系數(shù)全部近似于零的話,就可以把這個Xi刪除,這也是一種刪除多余變量的方法。

2.有時可通過因子負荷aij的結(jié)論,弄清X變量間的某些關(guān)系。

3.多維數(shù)據(jù)的一種圖形表示方法。我們知道當維數(shù)大于3時便不能畫出幾何圖形,多元統(tǒng)計研究的問題大都多于3個變量。要把研究的問題用圖形表示出來是不可能的。然而,經(jīng)過主成分分析后,我們可以選取前兩個主成分或其中某兩個主成分,根據(jù)主成分的得分,畫出n個樣品在二維平面上的分布況,由圖形可直觀地看出各樣品在主分量中的地位,進而還可以對樣本進行分類處理,可以由圖形發(fā)現(xiàn)遠離大多數(shù)樣本點的離群點。

4.由主成分分析法構(gòu)造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。

5.用主成分分析篩選回歸變量?;貧w變量的選擇有著重的實際意義,為了使模型本身易于做結(jié)構(gòu)分析、控制和預報,好從原始變量所構(gòu)成的子集合中選擇最佳變量,構(gòu)成最佳變量集合。用主成分分析篩選變量,可以用較少的計算量來選擇量,獲得選擇最佳變量子集合的效果。

5.主成分分析法的應用分析

評論  |   0條評論