因子分析與主成分分析.ppt
第七章因子分析與主成分分析,一、主成分分析概述,每個人都會遇到有很多變量的數(shù)據(jù)。比如全國或各個地區(qū)的帶有許多經(jīng)濟和社會變量的數(shù)據(jù);各個學校的研究、教學等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進行描述。,在多數(shù)實際問題中,不同指標之間是有一定相關(guān)性。由于指標較多及指標間有一定的相關(guān)性,勢必增加分析問題的復雜性。因子分析就是設(shè)法將原來指標重新組合成一組新的互相無關(guān)的幾個綜合指標來代替原來指標。同時根據(jù)實際需要從中可取幾個較少的綜合指標盡可能多地反映原來的指標的信息。,因子分析是考察多個數(shù)值變量間相關(guān)性的一種多元統(tǒng)計方法,它是研究如何通過少數(shù)幾個主成分來解釋多變量的方差協(xié)方差結(jié)構(gòu)。導出幾個主成分,使它們盡可能多地保留原始變量的信息,且彼此間不相關(guān)。,本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實際上主成分分析可以說是因子分析的一個特例。,二、主成分分析降維原理,先假定只有二維,即只有兩個變量,它們由橫坐標和縱坐標所代表;因此每個觀測值都有相應(yīng)于這兩個坐標軸的兩個坐標值;如果這些數(shù)據(jù)形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的)那么這個橢圓有一個長軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。,當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。,對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。,正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。,三、主成分分析的基本原理,假定有n個樣本,每個樣本共有p個變量,構(gòu)成一個np階的數(shù)據(jù)矩陣,當p較大時,在p維空間中考察問題比較麻煩。為了克服這一困難,就需要進行降維處理,即用較少的幾個綜合指標代替原來較多的變量指標,而且使這些較少的綜合指標既能盡量多地反映原來較多變量指標所反映的信息,同時它們之間又是彼此獨立的。,定義:記x1,x2,xP為原變量指標,z1,z2,zm(mp)為新變量指標,系數(shù)lij的確定原則:zi與zj(ij;i,j=1,2,m)相互無關(guān);,z1是x1,x2,xP的一切線性組合中方差最大者,z2是與z1不相關(guān)的x1,x2,xP的所有線性組合中方差最大者;zm是與z1,z2,zm1都不相關(guān)的x1,x2,xP,的所有線性組合中方差最大者。則新變量指標z1,z2,zm分別稱為原變量指標x1,x2,xP的第一,第二,第m主成分。,從以上的分析可以看出,主成分分析的實質(zhì)就是確定原來變量xj(j=1,2,p)在諸主成分zi(i=1,2,m)上的荷載lij(i=1,2,m;j=1,2,p)。從數(shù)學上容易知道,從數(shù)學上可以證明,它們分別是的相關(guān)矩陣的m個較大的特征值所對應(yīng)的特征向量。,四、計算步驟,(一)計算相關(guān)系數(shù)矩陣rij(i,j=1,2,p)為原變量xi與xj的相關(guān)系數(shù),rij=rji,其計算公式為:,(二)計算特征值與特征向量:解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小順序排列;,分別求出對應(yīng)于特征值的特征向量,要求=1,即,其中表示向量的第j個分量。,計算主成分貢獻率及累計貢獻率貢獻率:,累計貢獻率:,一般取累計貢獻率達8595%的特征值所對應(yīng)的第一、第二、第m(mp)個主成分。,計算主成分載荷各主成分的得分:,五、SPSS分析過程,1、步驟(1)數(shù)據(jù)適合性檢驗與抽取因子數(shù)目的確定數(shù)據(jù)適合性檢驗:KMO檢驗和巴特立特球面檢驗確定抽取因子的數(shù)目:抽取方法與因子數(shù)目確定(2)在明確因子數(shù)據(jù)的基礎(chǔ)上再做一次因子分析。這一步目的在于獲得清晰的因子結(jié)構(gòu)以及進行項目刪除。因子旋轉(zhuǎn):旋轉(zhuǎn)方法?項目刪除:原則?因子命名(3)刪除若干項目后,再做一次因素分析。這一步的目的在于看每個(或所有)因子解釋方差的%。,因子抽取(Extraction)的方法,主成分分析法(PrincipalComponents):一般選這個方法就行。普通最小二乘法,廣義最小二乘法(generalizedleastsquares),最大似然法(Maximumlikelihood),主軸因子法(PrincipleAxisFactoring),因子提取法(Alpha),映像分析法(image),2、數(shù)據(jù)適合性檢驗,判斷數(shù)據(jù)是否適合作因素分析,有下列三種方法:如果矩陣中的相關(guān)系數(shù)大部分都小于0.3,則不適合作因素分析。還可采用KMO檢驗和巴特立特球面檢驗。KMO值一般接近1,若比較小則表示不適合作因素分析。標準:0.9以上,非常好;0.8以上,好;0.7,一般,0.6差;0.5,很差;0.5以下,不能接受。巴特立特球面檢(BartlettstestofSphericity)是一種顯著性檢驗,達到顯著性水平就比較好。,3、確定抽取因子的數(shù)目,兩個標準:特征值(Eigenvalalue)準則,特征值大于1有多少個因子。碎石圖(Screetest)準則,取曲線開始轉(zhuǎn)折前的因子個數(shù)。補充原則:有些情況下,分析人員事先確定因子的個數(shù)(numberoffactors)。這種做法適合檢驗因子的理論或重復某些工作??傊?,采取最容易解釋且最簡單的因子結(jié)構(gòu)為好。,4、因子旋轉(zhuǎn)(Rotation)方法與選擇,因子旋轉(zhuǎn)一般在因子分析的第二步進行旋轉(zhuǎn)方法:不旋轉(zhuǎn)(None)方差最大法(Varimax)等量最大法(Equamax)四次方最大法(Quartimax)斜交旋轉(zhuǎn)法(DirectOblimin)選擇標準:一般選Varimax(正交旋轉(zhuǎn)法),為更容易解釋,選斜交旋轉(zhuǎn)法,5、因子命名,因子命名主要借助于因子負載矩陣(factorsolution)。因子命名原則:具有高荷重的變量,對因子名稱影響最大(可考慮按大小排序)。絕對值大于0.3的荷重是顯著的(解釋大于10方差)。,6、可刪除的變量,在所有因子因子荷重(lodging)均小于0.3的項目;兩個因子上因子荷重(lodging)差不多大小根據(jù)實際需要,從大到小排列,刪除后面不需要的,7、計算維度分或因子值(Factorscores),用計算(Compute)命令簡單相加即可,六、案例分析,案例見農(nóng)業(yè)生態(tài)系統(tǒng).sav要求:1.計算樣本相關(guān)矩陣R2.求相關(guān)矩陣R的特征值與特征向量,并計算貢獻率3.選擇主成分4.對所選主成分做經(jīng)濟解釋,第一主成分與x1,x5,x6,x7,x9呈顯出較強的正相關(guān),與x3呈顯出較強的負相關(guān),而這幾個變量則綜合反映了生態(tài)經(jīng)濟結(jié)構(gòu)狀況,因此可以認為第一主成分z1是生態(tài)經(jīng)濟結(jié)構(gòu)的代表。第二主成分與x2,x4,x5呈顯出較強的正相關(guān),與x1呈顯出較強的負相關(guān),其中,除了x1為人口總數(shù)外,x2,x4,x5都反映了人均占有資源量的情況,因此可以認為第二主成分代表了人均資源量。,分析:,顯然,用三個主成分代替原來9個變量(x1,x2,x9),描述農(nóng)業(yè)生態(tài)經(jīng)濟系統(tǒng),可以使問題更進一步簡化、明了。,第三主成分,與x8呈顯出的正相關(guān)程度最高,其次是x6,而與x7呈負相關(guān),因此可以認為第三主成分在一定程度上代表了農(nóng)業(yè)經(jīng)濟結(jié)構(gòu)。,因子分析和主成分分析的一些注意事項,可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時,并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進行排序時要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。,