統(tǒng)計學-主成分分析和因子分析.ppt
《統(tǒng)計學-主成分分析和因子分析.ppt》由會員分享,可在線閱讀,更多相關《統(tǒng)計學-主成分分析和因子分析.ppt(58頁珍藏版)》請在裝配圖網(wǎng)上搜索。
統(tǒng)計學,─從數(shù)據(jù)到結(jié)論,第十章主成分分析和因子分析,匯報什么?,假定你是一個公司的財務經(jīng)理,掌握了公司的所有數(shù)據(jù),這包括眾多的變量,如:固定資產(chǎn)、流動資金、借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、分工和教育程度等等。如果讓你向上級或有關方面介紹公司狀況,你能夠把這些指標和數(shù)字都原封不動地擺出去嗎?,需要高度概括,在如此多的變量之中,有很多是相關的。人們希望能夠找出它們的少數(shù)“代表”來對它們進行描述。需要把這種有很多變量的數(shù)據(jù)進行高度概括。,本章介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實際上主成分分析可以說是因子分析的一個特例。在引進主成分分析之前,先看下面的例子。,10.1主成分分析,成績數(shù)據(jù)(student.txt),100個學生的數(shù)學、物理、化學、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?SPSS數(shù)據(jù)形式,從本例可能提出的問題,目前的問題是,能否把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能否利用找到的綜合變量來對學生排序或據(jù)此進行其他分析呢?,空間的點,例中數(shù)據(jù)點是六維的;即每個觀測值是6維空間中的一個點。希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,由橫坐標和縱坐標所代表;每個觀測值都有相應于這兩個坐標軸的兩個坐標值;,空間的點,如果這些數(shù)據(jù)形成一個橢圓形狀的點陣(這在二維正態(tài)的假定下是可能的)該橢圓有一個長軸和一個短軸。在短軸方向上數(shù)據(jù)變化很少;在極端的情況,短軸如退化成一點,長軸的方向可以完全解釋這些點的變化,由二維到一維的降維就自然完成了。,橢圓的長短軸,當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。,橢圓的長短軸,如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓的長短軸相差得越大,降維也越有道理。,主軸和主成分,多維變量的情況和二維類似,也有高維的橢球,只不過不那么直觀罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。,主軸和主成分,正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主軸。和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。,主成分之選取,選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。,主成分分析的數(shù)學,要尋找方差最大的方向。即,使向量X的線性組合a’X的方差最大的方向a.而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的樣本相關陣R來近似.要尋找向量a使得a’Ra最大(注意相關陣和協(xié)方差陣差一個常數(shù))這涉及相關陣和特征值?;仡櫼幌掳?選擇幾個主成分呢?要看“貢獻率.”,對于我們的數(shù)據(jù),SPSS輸出為,這里的InitialEigenvalues就是這里的六個主軸長度,又稱特征值(數(shù)據(jù)相關陣的特征值)。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的貢獻越來越少。,特征值的貢獻還可以從SPSS的所謂碎石圖看出,怎么解釋這兩個主成分。主成分是原始六個變量的線性組合。這由下表給出。,這里每一列代表一個主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分為數(shù)學、物理、化學、語文、歷史、英語這六個變量的線性組合,系數(shù)(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。,如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分為,這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應的原先變量的相關系數(shù)。,比如y1表示式中x1的系數(shù)為-0.806,這就是說第一主成分和數(shù)學變量的相關系數(shù)為-0.806。相關系數(shù)(絕對值)越大,主成分對該變量的代表性也越大??梢钥吹贸?,第一主成分對各個變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關了。,可以把第一和第二主成分的載荷點出一個二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。這個圖叫做載荷圖。,該圖左面三個點是數(shù)學、物理、化學三科,右邊三個點是語文、歷史、外語三科。圖中的六個點由于比較擠,不易分清,但只要認識到這些點的坐標是前面的第一二主成分載荷,坐標是前面表中第一二列中的數(shù)目,還是可以識別的。,10.2因子分析,主成分分析從原理上是尋找橢球的所有主軸。原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數(shù)學模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計算也復雜得多。根據(jù)因子分析模型的特點,它還多一道工序:因子旋轉(zhuǎn)(factorrotation);這個步驟可以使結(jié)果更好。,10.2因子分析,對于計算機,因子分析并不費事。從輸出的結(jié)果來看,因子分析也有因子載荷(factorloading)的概念,代表了因子和原先變量的相關系數(shù)。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。,主成分分析與因子分析的公式上的區(qū)別,主成分分析,因子分析(m
- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關 鍵 詞:
- 統(tǒng)計學 成分 分析 因子分析
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。
鏈接地址:http://m.appdesigncorp.com/p-3702994.html