因子分析與主成分分析.ppt
《因子分析與主成分分析.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《因子分析與主成分分析.ppt(40頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第七章因子分析與主成分分析,一、主成分分析概述,每個(gè)人都會(huì)遇到有很多變量的數(shù)據(jù)。比如全國(guó)或各個(gè)地區(qū)的帶有許多經(jīng)濟(jì)和社會(huì)變量的數(shù)據(jù);各個(gè)學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點(diǎn)是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對(duì)它們進(jìn)行描述。,在多數(shù)實(shí)際問題中,不同指標(biāo)之間是有一定相關(guān)性。由于指標(biāo)較多及指標(biāo)間有一定的相關(guān)性,勢(shì)必增加分析問題的復(fù)雜性。因子分析就是設(shè)法將原來指標(biāo)重新組合成一組新的互相無關(guān)的幾個(gè)綜合指標(biāo)來代替原來指標(biāo)。同時(shí)根據(jù)實(shí)際需要從中可取幾個(gè)較少的綜合指標(biāo)盡可能多地反映原來的指標(biāo)的信息。,因子分析是考察多個(gè)數(shù)值變量間相關(guān)性的一種多元統(tǒng)計(jì)方法,它是研究如何通過少數(shù)幾個(gè)主成分來解釋多變量的方差協(xié)方差結(jié)構(gòu)。導(dǎo)出幾個(gè)主成分,使它們盡可能多地保留原始變量的信息,且彼此間不相關(guān)。,本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實(shí)際上主成分分析可以說是因子分析的一個(gè)特例。,二、主成分分析降維原理,先假定只有二維,即只有兩個(gè)變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個(gè)觀測(cè)值都有相應(yīng)于這兩個(gè)坐標(biāo)軸的兩個(gè)坐標(biāo)值;如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣(這在變量的二維正態(tài)的假定下是可能的)那么這個(gè)橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點(diǎn),那只有在長(zhǎng)軸的方向才能夠解釋這些點(diǎn)的變化了;這樣,由二維到一維的降維就自然完成了。,當(dāng)坐標(biāo)軸和橢圓的長(zhǎng)短軸平行,那么代表長(zhǎng)軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行。因此,需要尋找橢圓的長(zhǎng)短軸,并進(jìn)行變換,使得新變量和橢圓的長(zhǎng)短軸平行。如果長(zhǎng)軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個(gè)變量(舍去次要的一維),降維就完成了。橢圓(球)的長(zhǎng)短軸相差得越大,降維也越有道理。,對(duì)于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長(zhǎng)的幾個(gè)軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。,正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一樣,有幾個(gè)變量,就有幾個(gè)主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長(zhǎng)度之和占了主軸長(zhǎng)度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長(zhǎng)度占所有主軸長(zhǎng)度之和的大約85%即可,其實(shí),這只是一個(gè)大體的說法;具體選幾個(gè),要看實(shí)際情況而定。,三、主成分分析的基本原理,假定有n個(gè)樣本,每個(gè)樣本共有p個(gè)變量,構(gòu)成一個(gè)np階的數(shù)據(jù)矩陣,當(dāng)p較大時(shí),在p維空間中考察問題比較麻煩。為了克服這一困難,就需要進(jìn)行降維處理,即用較少的幾個(gè)綜合指標(biāo)代替原來較多的變量指標(biāo),而且使這些較少的綜合指標(biāo)既能盡量多地反映原來較多變量指標(biāo)所反映的信息,同時(shí)它們之間又是彼此獨(dú)立的。,定義:記x1,x2,xP為原變量指標(biāo),z1,z2,zm(mp)為新變量指標(biāo),系數(shù)lij的確定原則:zi與zj(ij;i,j=1,2,m)相互無關(guān);,z1是x1,x2,xP的一切線性組合中方差最大者,z2是與z1不相關(guān)的x1,x2,xP的所有線性組合中方差最大者;zm是與z1,z2,zm1都不相關(guān)的x1,x2,xP,的所有線性組合中方差最大者。則新變量指標(biāo)z1,z2,zm分別稱為原變量指標(biāo)x1,x2,xP的第一,第二,第m主成分。,從以上的分析可以看出,主成分分析的實(shí)質(zhì)就是確定原來變量xj(j=1,2,p)在諸主成分zi(i=1,2,m)上的荷載lij(i=1,2,m;j=1,2,p)。從數(shù)學(xué)上容易知道,從數(shù)學(xué)上可以證明,它們分別是的相關(guān)矩陣的m個(gè)較大的特征值所對(duì)應(yīng)的特征向量。,四、計(jì)算步驟,(一)計(jì)算相關(guān)系數(shù)矩陣rij(i,j=1,2,p)為原變量xi與xj的相關(guān)系數(shù),rij=rji,其計(jì)算公式為:,(二)計(jì)算特征值與特征向量:解特征方程,常用雅可比法(Jacobi)求出特征值,并使其按大小順序排列;,分別求出對(duì)應(yīng)于特征值的特征向量,要求=1,即,其中表示向量的第j個(gè)分量。,計(jì)算主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)率貢獻(xiàn)率:,累計(jì)貢獻(xiàn)率:,一般取累計(jì)貢獻(xiàn)率達(dá)8595%的特征值所對(duì)應(yīng)的第一、第二、第m(mp)個(gè)主成分。,計(jì)算主成分載荷各主成分的得分:,五、SPSS分析過程,1、步驟(1)數(shù)據(jù)適合性檢驗(yàn)與抽取因子數(shù)目的確定數(shù)據(jù)適合性檢驗(yàn):KMO檢驗(yàn)和巴特立特球面檢驗(yàn)確定抽取因子的數(shù)目:抽取方法與因子數(shù)目確定(2)在明確因子數(shù)據(jù)的基礎(chǔ)上再做一次因子分析。這一步目的在于獲得清晰的因子結(jié)構(gòu)以及進(jìn)行項(xiàng)目刪除。因子旋轉(zhuǎn):旋轉(zhuǎn)方法?項(xiàng)目刪除:原則?因子命名(3)刪除若干項(xiàng)目后,再做一次因素分析。這一步的目的在于看每個(gè)(或所有)因子解釋方差的%。,因子抽取(Extraction)的方法,主成分分析法(PrincipalComponents):一般選這個(gè)方法就行。普通最小二乘法,廣義最小二乘法(generalizedleastsquares),最大似然法(Maximumlikelihood),主軸因子法(PrincipleAxisFactoring),因子提取法(Alpha),映像分析法(image),2、數(shù)據(jù)適合性檢驗(yàn),判斷數(shù)據(jù)是否適合作因素分析,有下列三種方法:如果矩陣中的相關(guān)系數(shù)大部分都小于0.3,則不適合作因素分析。還可采用KMO檢驗(yàn)和巴特立特球面檢驗(yàn)。KMO值一般接近1,若比較小則表示不適合作因素分析。標(biāo)準(zhǔn):0.9以上,非常好;0.8以上,好;0.7,一般,0.6差;0.5,很差;0.5以下,不能接受。巴特立特球面檢(BartlettstestofSphericity)是一種顯著性檢驗(yàn),達(dá)到顯著性水平就比較好。,3、確定抽取因子的數(shù)目,兩個(gè)標(biāo)準(zhǔn):特征值(Eigenvalalue)準(zhǔn)則,特征值大于1有多少個(gè)因子。碎石圖(Screetest)準(zhǔn)則,取曲線開始轉(zhuǎn)折前的因子個(gè)數(shù)。補(bǔ)充原則:有些情況下,分析人員事先確定因子的個(gè)數(shù)(numberoffactors)。這種做法適合檢驗(yàn)因子的理論或重復(fù)某些工作??傊?,采取最容易解釋且最簡(jiǎn)單的因子結(jié)構(gòu)為好。,4、因子旋轉(zhuǎn)(Rotation)方法與選擇,因子旋轉(zhuǎn)一般在因子分析的第二步進(jìn)行旋轉(zhuǎn)方法:不旋轉(zhuǎn)(None)方差最大法(Varimax)等量最大法(Equamax)四次方最大法(Quartimax)斜交旋轉(zhuǎn)法(DirectOblimin)選擇標(biāo)準(zhǔn):一般選Varimax(正交旋轉(zhuǎn)法),為更容易解釋,選斜交旋轉(zhuǎn)法,5、因子命名,因子命名主要借助于因子負(fù)載矩陣(factorsolution)。因子命名原則:具有高荷重的變量,對(duì)因子名稱影響最大(可考慮按大小排序)。絕對(duì)值大于0.3的荷重是顯著的(解釋大于10方差)。,6、可刪除的變量,在所有因子因子荷重(lodging)均小于0.3的項(xiàng)目;兩個(gè)因子上因子荷重(lodging)差不多大小根據(jù)實(shí)際需要,從大到小排列,刪除后面不需要的,7、計(jì)算維度分或因子值(Factorscores),用計(jì)算(Compute)命令簡(jiǎn)單相加即可,六、案例分析,案例見農(nóng)業(yè)生態(tài)系統(tǒng).sav要求:1.計(jì)算樣本相關(guān)矩陣R2.求相關(guān)矩陣R的特征值與特征向量,并計(jì)算貢獻(xiàn)率3.選擇主成分4.對(duì)所選主成分做經(jīng)濟(jì)解釋,第一主成分與x1,x5,x6,x7,x9呈顯出較強(qiáng)的正相關(guān),與x3呈顯出較強(qiáng)的負(fù)相關(guān),而這幾個(gè)變量則綜合反映了生態(tài)經(jīng)濟(jì)結(jié)構(gòu)狀況,因此可以認(rèn)為第一主成分z1是生態(tài)經(jīng)濟(jì)結(jié)構(gòu)的代表。第二主成分與x2,x4,x5呈顯出較強(qiáng)的正相關(guān),與x1呈顯出較強(qiáng)的負(fù)相關(guān),其中,除了x1為人口總數(shù)外,x2,x4,x5都反映了人均占有資源量的情況,因此可以認(rèn)為第二主成分代表了人均資源量。,分析:,顯然,用三個(gè)主成分代替原來9個(gè)變量(x1,x2,x9),描述農(nóng)業(yè)生態(tài)經(jīng)濟(jì)系統(tǒng),可以使問題更進(jìn)一步簡(jiǎn)化、明了。,第三主成分,與x8呈顯出的正相關(guān)程度最高,其次是x6,而與x7呈負(fù)相關(guān),因此可以認(rèn)為第三主成分在一定程度上代表了農(nóng)業(yè)經(jīng)濟(jì)結(jié)構(gòu)。,因子分析和主成分分析的一些注意事項(xiàng),可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨(dú)立,那么降維就可能失敗,這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時(shí),并不一定會(huì)都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進(jìn)行排序時(shí)要特別小心,特別是對(duì)于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 因子分析 成分 分析
鏈接地址:http://m.appdesigncorp.com/p-12723246.html