資源描述:
《SAS軟件與統(tǒng)計應(yīng)用教程》由會員上傳分享,免費在線閱讀,更多相關(guān)內(nèi)容在行業(yè)資料-天天文庫。
1、第六章主成分分析與因子分析6.1主成分分析6.2因子分析6.1主成分分析6.1.1主成分分析的概念與步驟6.1.2使用INSIGHT模塊作主成分分析6.1.3使用“分析家”作主成分分析6.1.4使用PRINCOMP過程進(jìn)行主成分分析6.1.1主成分分析的概念與步驟1.主成分分析基本思想主成分分析是數(shù)學(xué)上對數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來眾多的具有一定相關(guān)性的指標(biāo)(比如p個指標(biāo)),重新組合成一組新的互不相關(guān)的綜合指標(biāo)來代替原來指標(biāo)。通常數(shù)學(xué)上的處理就是將原來p個指標(biāo)作線性組合,作為新的綜合指標(biāo)。但是這種線性組合,如果不加限制,則可以有很多
2、,應(yīng)該如何去選取呢?在所有的線性組合中所選取的F1應(yīng)該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個指標(biāo)的信息,再考慮選取F2即選第二個線性組合。為了有效地反映原有信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語言表達(dá)就是要求Cov(F1,F(xiàn)2)=0。稱F2為第二主成分,依此類推可以構(gòu)造出第三、第四、…、第p個主成分。2.主成分分析的數(shù)學(xué)模型設(shè)有n個樣品(多元觀測值),每個樣品觀測p項指標(biāo)(變量):X1,X2,…,Xp,得到原始數(shù)據(jù)資料陣:其中Xi=(x1i,x2i,…,xni)',i=1,2,…,p。用數(shù)據(jù)矩陣X的p個
3、列向量(即p個指標(biāo)向量)X1,X2,…,Xp作線性組合,得綜合指標(biāo)向量:簡寫成:Fi=a1iX1+ai2X2+…+apiXpi=1,2,…,p為了加以限制,對組合系數(shù)ai'=(a1i,a2i,…,api)作如下要求:即:ai為單位向量:ai'ai=1,且由下列原則決定:1)Fi與Fj(ij,i,j=1,…,p)互不相關(guān),即Cov(Fi,F(xiàn)j)=ai'?ai=0,其中Σ是X的協(xié)方差陣。2)F1是X1,X2,…,Xp的一切線性組合(系數(shù)滿足上述要求)中方差最大的,即,其中c=(c1,c2,…,cp)'F2是與F1不相關(guān)的X1,X2,…,Xp一切線性組
4、合中方差最大的,…,F(xiàn)p是與F1,F(xiàn)2,…,F(xiàn)p-1都不相關(guān)的X1,X2,…,Xp的一切線性組合中方差最大的。滿足上述要求的綜合指標(biāo)向量F1,F(xiàn)2,…,F(xiàn)p就是主成分,這p個主成分從原始指標(biāo)所提供的信息總量中所提取的信息量依次遞減,每一個主成分所提取的信息量用方差來度量,主成分方差的貢獻(xiàn)就等于原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值?i,每一個主成分的組合系數(shù)ai'=(a1i,a2i,…,api)就是相應(yīng)特征值?i所對應(yīng)的單位特征向量ti。方差的貢獻(xiàn)率為,?i越大,說明相應(yīng)的主成分反映綜合信息的能力越強。3.主成分分析的步驟(1)計算協(xié)方差矩陣計算樣品數(shù)據(jù)
5、的協(xié)方差矩陣:Σ=(sij)p?p,其中i,j=1,2,…,p(2)求出Σ的特征值及相應(yīng)的特征向量求出協(xié)方差矩陣Σ的特征值?1??2?…?p>0及相應(yīng)的正交化單位特征向量:則X的第i個主成分為Fi=ai'Xi=1,2,…,p。(3)選擇主成分在已確定的全部p個主成分中合理選擇m個來實現(xiàn)最終的評價分析。一般用方差貢獻(xiàn)率解釋主成分Fi所反映的信息量的大小,m的確定以累計貢獻(xiàn)率達(dá)到足夠大(一般在85%以上)為原則。(4)計算主成分得分計算n個樣品在m個主成分上的得分:i=1,2,…,m(5)標(biāo)準(zhǔn)化實際應(yīng)用時,指標(biāo)的量綱往往不同,所以在主成分計算之前應(yīng)先
6、消除量綱的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即做如下數(shù)據(jù)變換:其中,,j=1,2,…,p。標(biāo)準(zhǔn)化后的數(shù)據(jù)陣記為X*,其中每個列向量(標(biāo)準(zhǔn)化變量)的均值為0,標(biāo)準(zhǔn)差為1,數(shù)據(jù)無量綱。標(biāo)準(zhǔn)化后變量的協(xié)方差矩陣(CovarianceMatrix)Σ=(sij)p?p,即原變量的相關(guān)系數(shù)矩陣(CorrelationMatrix)R=(rij)p?p:i,j=1,2,…,p此時n個樣品在m個主成分上的得分應(yīng)為:Fj=a1jX1*+a2jX2*+...+apjXp*j=1,2,…,m6.1.2使用INSIGHT模塊作主成分分析【例6
7、-1】全國沿海10個省市經(jīng)濟(jì)指標(biāo)的主成分分析表6-1全國沿海10個省市經(jīng)濟(jì)綜合指標(biāo)假設(shè)表6-1中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.jjzb中,試對各地區(qū)的經(jīng)濟(jì)發(fā)展水平進(jìn)行主成分分析。地區(qū)GDPx1人均GDPx2工業(yè)增加值x3第三產(chǎn)業(yè)增加值x4固定資產(chǎn)投資x5基本建設(shè)投資x6社會消費品零售總額x7海關(guān)出口總額x8地方財政收入x9遼寧5458.2130001376.22258.41315.95292258.4123.7399.7山東10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471
8、406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8960703.7361.9