統(tǒng)計(jì)學(xué)-主成分分析和因子分析.ppt
《統(tǒng)計(jì)學(xué)-主成分分析和因子分析.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《統(tǒng)計(jì)學(xué)-主成分分析和因子分析.ppt(58頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
統(tǒng)計(jì)學(xué),從數(shù)據(jù)到結(jié)論,第十章主成分分析和因子分析,匯報(bào)什么?,假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),這包括眾多的變量,如:固定資產(chǎn)、流動(dòng)資金、借貸的數(shù)額和期限、各種稅費(fèi)、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、分工和教育程度等等。如果讓你向上級或有關(guān)方面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動(dòng)地?cái)[出去嗎?,需要高度概括,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進(jìn)行描述。需要把這種有很多變量的數(shù)據(jù)進(jìn)行高度概括。,本章介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實(shí)際上主成分分析可以說是因子分析的一個(gè)特例。在引進(jìn)主成分分析之前,先看下面的例子。,10.1主成分分析,成績數(shù)據(jù)(student.txt),100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?SPSS數(shù)據(jù)形式,從本例可能提出的問題,目前的問題是,能否把這個(gè)數(shù)據(jù)的6個(gè)變量用一兩個(gè)綜合變量來表示呢?這一兩個(gè)綜合變量包含有多少原來的信息呢?能否利用找到的綜合變量來對學(xué)生排序或據(jù)此進(jìn)行其他分析呢?,空間的點(diǎn),例中數(shù)據(jù)點(diǎn)是六維的;即每個(gè)觀測值是6維空間中的一個(gè)點(diǎn)。希望把6維空間用低維空間表示。先假定只有二維,即只有兩個(gè)變量,由橫坐標(biāo)和縱坐標(biāo)所代表;每個(gè)觀測值都有相應(yīng)于這兩個(gè)坐標(biāo)軸的兩個(gè)坐標(biāo)值;,空間的點(diǎn),如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣(這在二維正態(tài)的假定下是可能的)該橢圓有一個(gè)長軸和一個(gè)短軸。在短軸方向上數(shù)據(jù)變化很少;在極端的情況,短軸如退化成一點(diǎn),長軸的方向可以完全解釋這些點(diǎn)的變化,由二維到一維的降維就自然完成了。,橢圓的長短軸,當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進(jìn)行變換,使得新變量和橢圓的長短軸平行。,橢圓的長短軸,如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個(gè)變量(舍去次要的一維),降維就完成了。橢圓的長短軸相差得越大,降維也越有道理。,主軸和主成分,多維變量的情況和二維類似,也有高維的橢球,只不過不那么直觀罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個(gè)軸作為新變量;這樣,主成分分析就基本完成了。,主軸和主成分,正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一樣,有幾個(gè)變量,就有幾個(gè)主軸。和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。,主成分之選取,選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實(shí),這只是一個(gè)大體的說法;具體選幾個(gè),要看實(shí)際情況而定。,主成分分析的數(shù)學(xué),要尋找方差最大的方向。即,使向量X的線性組合aX的方差最大的方向a.而Var(aX)=aCov(X)a;由于Cov(X)未知;于是用X的樣本相關(guān)陣R來近似.要尋找向量a使得aRa最大(注意相關(guān)陣和協(xié)方差陣差一個(gè)常數(shù))這涉及相關(guān)陣和特征值?;仡櫼幌掳?選擇幾個(gè)主成分呢?要看“貢獻(xiàn)率.”,對于我們的數(shù)據(jù),SPSS輸出為,這里的InitialEigenvalues就是這里的六個(gè)主軸長度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭兩個(gè)成分特征值累積占了總方差的81.142%。后面的特征值的貢獻(xiàn)越來越少。,特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出,怎么解釋這兩個(gè)主成分。主成分是原始六個(gè)變量的線性組合。這由下表給出。,這里每一列代表一個(gè)主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分為數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語這六個(gè)變量的線性組合,系數(shù)(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。,如用x1,x2,x3,x4,x5,x6分別表示原先的六個(gè)變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分為,這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。,比如y1表示式中x1的系數(shù)為-0.806,這就是說第一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。相關(guān)系數(shù)(絕對值)越大,主成分對該變量的代表性也越大??梢钥吹贸觯谝恢鞒煞謱Ω鱾€(gè)變量解釋得都很充分。而最后的幾個(gè)主成分和原先的變量就不那么相關(guān)了。,可以把第一和第二主成分的載荷點(diǎn)出一個(gè)二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。這個(gè)圖叫做載荷圖。,該圖左面三個(gè)點(diǎn)是數(shù)學(xué)、物理、化學(xué)三科,右邊三個(gè)點(diǎn)是語文、歷史、外語三科。圖中的六個(gè)點(diǎn)由于比較擠,不易分清,但只要認(rèn)識(shí)到這些點(diǎn)的坐標(biāo)是前面的第一二主成分載荷,坐標(biāo)是前面表中第一二列中的數(shù)目,還是可以識(shí)別的。,10.2因子分析,主成分分析從原理上是尋找橢球的所有主軸。原先有幾個(gè)變量,就有幾個(gè)主成分。而因子分析是事先確定要找?guī)讉€(gè)成分,這里叫因子(factor)(比如兩個(gè)),那就找兩個(gè)。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計(jì)算也復(fù)雜得多。根據(jù)因子分析模型的特點(diǎn),它還多一道工序:因子旋轉(zhuǎn)(factorrotation);這個(gè)步驟可以使結(jié)果更好。,10.2因子分析,對于計(jì)算機(jī),因子分析并不費(fèi)事。從輸出的結(jié)果來看,因子分析也有因子載荷(factorloading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。,主成分分析與因子分析的公式上的區(qū)別,主成分分析,因子分析(mp),因子得分,因子分析的數(shù)學(xué),因子分析需要許多假定才能夠解.具體公式.,對于我們的數(shù)據(jù),SPSS因子分析輸出為,這個(gè)表說明六個(gè)變量和因子的關(guān)系。為簡單記,我們用x1,x2,x3,x4,x5,x6來表示math(數(shù)學(xué)),phys(物理),chem(化學(xué)),literat(語文),history(歷史),english(英語)等變量。這樣因子f1和f2與這些原變量之間的關(guān)系是(注意,和主成分分析不同,這里把成分(因子)寫在方程的右邊,把原變量寫在左邊;但相應(yīng)的系數(shù)還是主成分和各個(gè)變量的線性相關(guān)系數(shù),也稱為因子載荷):,這里,第一個(gè)因子主要和語文、歷史、英語三科有很強(qiáng)的正相關(guān);而第二個(gè)因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強(qiáng)的正相關(guān)。因此可以給第一個(gè)因子起名為“文科因子”,而給第二個(gè)因子起名為“理科因子”。從這個(gè)例子可以看出,因子分析的結(jié)果比主成分分析解釋性更強(qiáng)。,這些系數(shù)所形成的散點(diǎn)圖(在SPSS中也稱載荷圖)為,可以直觀看出每個(gè)因子代表了一類學(xué)科,計(jì)算因子得分,可以根據(jù)輸出,算出每個(gè)學(xué)生的第一個(gè)因子和第二個(gè)因子的大小,即算出每個(gè)學(xué)生的因子得分f1和f2。,該輸出說明第一和第二主因子為(習(xí)慣上用字母f來表示因子)可以按照如下公式計(jì)算,該函數(shù)稱為因子得分(factorscore)。,人們可以根據(jù)這兩套因子得分對學(xué)生分別按照文科和理科排序。當(dāng)然得到因子得分只是SPSS軟件的一個(gè)選項(xiàng)。,10.3因子分析和主成分分析的一些注意事項(xiàng),可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨(dú)立,那么降維就可能失敗,這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。,10.3因子分析和主成分分析的一些注意事項(xiàng),在得到分析的結(jié)果時(shí),并不一定會(huì)都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進(jìn)行排序時(shí)要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。,SPSS實(shí)現(xiàn)(因子分析與主成分分析),拿student.sav為例,選AnalyzeDataReductionFactor進(jìn)入主對話框;把math、phys、chem、literat、history、english選入Variables,然后點(diǎn)擊Extraction,在Method選擇一個(gè)方法(如果是主成分分析,則選PrincipalComponents),下面的選項(xiàng)可以隨意,比如要畫碎石圖就選Screeplot,另外在Extract選項(xiàng)可以按照特征值的大小選主成分(或因子),也可以選定因子的數(shù)目;之后回到主對話框(用Continue)。然后點(diǎn)擊Rotation,再在該對話框中的Method選擇一個(gè)旋轉(zhuǎn)方法(如果是主成分分析就選None),在Display選Rotatedsolution(以輸出和旋轉(zhuǎn)有關(guān)的結(jié)果)和Loadingplot(以輸出載荷圖);之后回到主對話框(用Continue)。如果要計(jì)算因子得分就要點(diǎn)擊Scores,再選擇Saveasvariables(因子得分就會(huì)作為變量存在數(shù)據(jù)中的附加列上)和計(jì)算因子得分的方法(比如Regression);要想輸出ComponentScoreCoefficientMatrix表,就要選擇Displayfactorscorecoefficientmatrix;之后回到主對話框(用Continue)。這時(shí)點(diǎn)OK即可。,附錄,的pp矩陣.而對于觀測值X=(x1,xp),其中xi=(x1i,xni),i=1,p,的樣本相關(guān)陣第(ij)-元素為,X=(X1,Xp)的相關(guān)陣為第(ij)-元素為,的pp矩陣,其中sij為第i和第j觀測的樣本相關(guān)系數(shù),關(guān)于特征值和特征向量特征方程|R-lI|=0的解為特征值l,這里B為一個(gè)p維正定方陣.l通常有p個(gè)根l1l2lp.滿足(R-liI)xi=0的向量xi為li的特征向量.對任意向量a有性質(zhì),頭m個(gè)主成分的累積貢獻(xiàn)率:,這里R為X的樣本相關(guān)陣,第i個(gè)特征值li=aiRai=V(aix);ai為第i個(gè)特征向量.Cov(aix,ajx)=0.,這里aij為第i個(gè)特征向量的第j個(gè)分量;第i個(gè)主成分的載荷平方和為該主成分的方差,等于其特征值li.所選的m個(gè)主成分對變量xj的總方差貢獻(xiàn)為,主成分負(fù)荷(載荷,loading):Yi與Xj的相關(guān)系數(shù):,正交因子模型:X-m=AF+e,mi=變量i的均值ei=第i個(gè)特殊因子Fi=第i個(gè)公共因子aij=第i個(gè)變量在第j個(gè)因子上的載荷不能觀測的值滿足下列條件:F和e獨(dú)立E(F)=0,Cov(F)=IE(e)=0,Cov(e)=Y,Y是對角矩陣,F為公共因子向量,每個(gè)公共因子(如Fi)是對模型中每個(gè)變量都起作用的因子;而e為特殊因子向量,每個(gè)特殊因子(如ei)只對一個(gè)變量(第i個(gè))起作用.,因子分析的方法在于估計(jì)S=AA+Y和Y,再分解以得到A.,X的協(xié)方差陣S可以分解成,這里l1l2lp為S的特征值;而e1,ep為相應(yīng)的特征向量(e1,ep為主成分的系數(shù),因此稱為主成分法).上面分解總是取和數(shù)的重要的頭幾項(xiàng)來近似.,X的協(xié)方差陣S可以近似為(如Y忽略),如Y不忽略,S可以近似為,應(yīng)用中,S可以用樣本相關(guān)陣R代替.,正交模型X=m+AF+e的協(xié)方差結(jié)構(gòu)根據(jù)前面模型,可得出下面結(jié)果:,上面sii2=Sjaij2+yi2中,Sjaij2稱為共性方差(公共方差或變量共同度commonvariance,communalities),而yi2稱為特殊方差.變量共同度刻畫全部公共因子對變量Xi的總方差所做的貢獻(xiàn).,的統(tǒng)計(jì)意義就是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù),表示Xi依賴Fj的份量,這里eij是相應(yīng)于特征值li的特征向量ei的第j個(gè)分量.因子載荷陣中各列元素的平方和Sj=Siaij2稱為公共因子Fj對X諸變量的方差貢獻(xiàn)之總和,因子載荷,除主成分法外還有最大似然法來估計(jì)A,m和Y(在多元正態(tài)分布的假定下).當(dāng)然,還有其他方法(有些互相類似).,令T為任意m正交方陣(TT=TT=I),則X-m=AF+e=ATTF+e=A*F*+e,這里A*=AT,F*=TF.因此S=AA+Y=ATTA+Y=(A*)(A*)+Y因此,因子載荷A只由一個(gè)正交陣T決定.載荷A*=AT與A都給出同一個(gè)表示.由AA=(A*)(A*)對角元給出的共性方差,也不因T的選擇而改變.,正交變換T相當(dāng)于剛體旋轉(zhuǎn)(或反射),因子載荷A的正交變換AT稱為因子旋轉(zhuǎn)估計(jì)的協(xié)方差陣或相關(guān)陣,殘差陣,特殊方差及共性方差都不隨旋轉(zhuǎn)而變.這里“殘差陣”為協(xié)方差陣或相關(guān)陣與估計(jì)的AA+Y之差.,因子旋轉(zhuǎn)的一個(gè)準(zhǔn)則為最大方差準(zhǔn)則.它使旋轉(zhuǎn)后的因子載荷的總方差達(dá)到最大.如,即要選變換T使下式最大(計(jì)算機(jī)循環(huán)算法),需要由X=AF變成F=bX.或Fj=bj1X1+bjpXpj=1,m,稱為因子得分(函數(shù)).這通常用加權(quán)最小二乘法或回歸法等來求得.,總結(jié)模型X=m+AF+e因子分析的步驟1根據(jù)問題選取原始變量;2求其相關(guān)陣R,探討其相關(guān)性;3從R求解初始公共因子F及因子載荷矩陣A(主成分法或最大似然法)4因子旋轉(zhuǎn);5由X=AF到F=bX(因子得分函數(shù))6根據(jù)因子得分值進(jìn)行進(jìn)一步分析.,回到數(shù)值例子,回到我們成績例子.,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 統(tǒng)計(jì)學(xué) 成分 分析 因子分析
鏈接地址:http://m.appdesigncorp.com/p-3702994.html