主成分分析與因子分析法.ppt
《主成分分析與因子分析法.ppt》由會員分享,可在線閱讀,更多相關(guān)《主成分分析與因子分析法.ppt(37頁珍藏版)》請在裝配圖網(wǎng)上搜索。
,主成分分析法與因子分析法,主要內(nèi)容,主成分分析法 因子分析法 附:主成分分析法與因子分析法的區(qū)別,主成分分析法 (Principal Components Analysis,PCA),主成分分析法概述 主成分分析的基本原理 主成分分析的計算步驟,一、主成分分析概述,假定你是一個公司的財務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),這包括眾多的變量,比如固定資產(chǎn)、流動資金、每一筆借貸的數(shù)額和期限、各種稅費、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。 如果讓你向上級或有關(guān)方面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動地擺出去嗎?,引子,當(dāng)然不能。匯報什么? 發(fā)現(xiàn)在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進(jìn)行描述。 需要把這種有很多變量的數(shù)據(jù)進(jìn)行高度概括,用少數(shù)幾個指標(biāo)簡單明了地把情況說清楚。,主成分分析法( Principal Components Analysis )和因子分析法(Factor Analysis)就是把變量維數(shù)降低以便于描述、理解和分析的方法。 主成分分析也稱為主分量分析,是一種通過降維來簡化數(shù)據(jù)結(jié)構(gòu)的方法:如何把多個變量化為少數(shù)幾個綜合變量(綜合指標(biāo)) ,而這幾個綜合變量可以反映原來多個變量的大部分信息,所含的信息又互不重疊,即它們之間要相互獨立,互不相關(guān)。 這些綜合變量就叫因子或主成分,它是不可觀測的,即它不是具體的變量,只是幾個指標(biāo)的綜合。 在引入主成分分析之前,先看下面的例子。,什么是主成分分析法?,成績數(shù)據(jù),53個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?從本例可能提出的問題,能不能把這個數(shù)據(jù)表中的6個變量用一兩個綜合變量來表示呢? 這一兩個綜合變量包含有多少原來的信息呢?,事實上,以上問題在平時的研究中,也會經(jīng)常遇到。它所涉及的問題可以推廣到對企業(yè)、對學(xué)校、對區(qū)域進(jìn)行分析、評價、排序和分類等。 比如對n個樣本進(jìn)行綜合評價,可選的描述樣本特征的指標(biāo)很多,而這些指標(biāo)往往存在一定的相關(guān)性(既不完全獨立,又不完全相關(guān)),這就給研究帶來很大不便。若選指標(biāo)太多,會增加分析問題的難度與復(fù)雜性,選指標(biāo)太少,有可能會漏掉對樣本影響較大的指標(biāo),影響結(jié)果的可靠性。,這就需要我們在相關(guān)分析的基礎(chǔ)上,采用主成分分析法找到幾個新的相互獨立的綜合指標(biāo),達(dá)到既減少指標(biāo)數(shù)量、又能區(qū)分樣本間差異的目的。,二、主成分分析的基本原理,,(一)主成分分析的幾何解釋 (二)主成分分析的基本思想,(一)主成分分析的幾何解釋,例中數(shù)據(jù)點是六維的;即每個觀測值是6維空間中的一個點。希望把6維空間用低維空間表示。 先假定只有二維,即只有兩個變量,語文成績(x1)和數(shù)學(xué)成績(x2),分別由橫坐標(biāo)和縱坐標(biāo)所代表; 每個學(xué)生都是二維坐標(biāo)系中的一個點。,因為在實際應(yīng)用中,往往存在指標(biāo)的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數(shù)據(jù)標(biāo)準(zhǔn)化。為了實現(xiàn)樣本數(shù)據(jù)的標(biāo)準(zhǔn)化,應(yīng)求樣本數(shù)據(jù)的平均和方差。對數(shù)據(jù)矩陣Y作標(biāo)準(zhǔn)化處理,即對每一個指標(biāo)分量作標(biāo)準(zhǔn)化變換,變換公式為:,其中, 樣本均值: 樣本標(biāo)準(zhǔn)差:,原始變量 經(jīng)規(guī)格化后變?yōu)樾伦兞? ,其均值為零,方差為1。 對二維空間來講n個標(biāo)準(zhǔn)化后的樣本在二維空間的分布大體為一橢圓形,該橢圓有一個長軸和一個短軸。在短軸方向上數(shù)據(jù)變化很少,極端的情況下,短軸如退化成一點,長軸的方向可以完全解釋這些點的變化,由二維到一維的降維就自然完成了。,,,,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,假定語文成績 (X1) 和數(shù)學(xué)成績 (X2)分別為標(biāo)準(zhǔn)化后的分?jǐn)?shù),右圖為其散點圖,橢圓傾斜為45度。,如果將坐標(biāo)軸 X1 和 X2 旋轉(zhuǎn)45 ,那么點在新坐標(biāo)系中的坐標(biāo)(Y1,Y2)與原坐標(biāo)(X1,X2)有如下的關(guān)系:,Y1和Y2均是X1 和 X2 的線性組合,,,,,,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,在新坐標(biāo)系中,可以發(fā)現(xiàn):雖然散點圖的形狀沒有改變,但新的隨機變量 Y1 和 Y2 已經(jīng)不再相關(guān)。而且大部分點沿 Y1 軸散開,在 Y1 軸方向的變異較大(即 Y1的方差較大) ,相對來說,在 Y2軸方向的變異較?。?Y2 的方差較小) 。,在上面的例子中 Y1 和 Y2 就是原變量 X1和 X2的第一主成分和第二主成分。實際上第一主成分 Y1 就基本上反映了 X1 和X2 的主要信息,因為圖中的各點在新坐標(biāo)系中的 Y1 坐標(biāo)基本上就代表了這些點的分布情況,因此可以選 Y1 為一個新的綜合變量。當(dāng)然如果再選 Y2也作為綜合變量,那么 Y1 和 Y2 則反映了 X1 和 X2的全部信息。,22,(二) 主成分分析的基本思想 假如對某一問題的研究涉及 p 個指標(biāo),記為X1,X2, …, Xp,由這 p 個隨機變量構(gòu)成的隨機向量為X=(X1, X2, …, Xp)?,設(shè) X 的均值向量為?,協(xié)方差矩陣為?。設(shè)Y=(Y1, Y2 , … , Yp)?為對 X 進(jìn)行線性變換得到的合成隨機向量,即 (1) 設(shè)?i=(?i1, ?i2 , …, ?ip)?, A=(?1 , ?2 ,…, ?p)?,則有,,,,(2),23,且 (3) 由是式(1)(2)能夠看出,可以對原始變量進(jìn)行任意的線性變換,不同線性變換得到的合成變量Y的統(tǒng)計特征顯然是不一樣的。每個Yi 應(yīng)盡可能多地反映 p 個原始變量的信息,通常用方差來度量“信息”,Yi 的方差越大表示它所包含的信息越多。由式(3)可以看出將系數(shù)向量?i 擴(kuò)大任意倍數(shù)會使Yi 的方差無限增大,為了消除這種不確定性,增加約束條件:,,,24,為了有效地反映原始變量的信息,Y的不同分量包含的信息不應(yīng)重疊。綜上所述,式(1)的線性變換需要滿足下面的約束: (1) 即 ,i =1, 2, …, p。 (2) Y1在滿足約束 (1) 即的情況下,方差最大;Y2是在滿足約束(1) ,且與Y1不相關(guān)的條件下,其方差達(dá)到大;……;Yp是在滿足約束(1) ,且與Y1,Y2,…,Y p-1不相關(guān)的條件下,在各種線性組合中方差達(dá)到最大者。 滿足上述約束得到的合成變量Y1, Y2, …, Yp分別稱為原始變量的第一主成分、第二主成分、…、第 p 主成分,而且各成分方差在總方差中占的比重依次遞減。在實際研究工作中,僅挑選前幾個方差較大的主成分,以達(dá)到簡化系統(tǒng)結(jié)構(gòu)的目的。,,三、主成分分析的計算步驟,,(一)計算相關(guān)系數(shù)矩陣 (二)計算特征值與特征向量 (三)計算主成分貢獻(xiàn)率及累計貢獻(xiàn)率 (四)計算主成分載荷,(一)計算相關(guān)系數(shù)矩陣 rij(i,j=1,2,…,p)為原變量xi與xj標(biāo)準(zhǔn)化后的相關(guān)系數(shù), rij=rji,其計算公式為,,(3.5.3),,,(3.5.4),(二)計算特征值與特征向量 1、解特征方程 ,求出特征值,并使其按大小順序排列,2、分別求出對應(yīng)于特征值 的特征向量 ,要求 =1,即 ,其中 表示向量 的第j個分量,也就是說 為單位向量。,29,(三)計算主成分貢獻(xiàn)率及累計貢獻(xiàn)率 主成分分析是把 p 個隨機變量的總方差分解為 p 個不相關(guān)隨機變量的方差之和?1 + ?2 +…+ ?P,則總方差中屬于第 i 個主成分(被第 i 個主成分所解釋)的比例為 稱為第 i 個主成分的貢獻(xiàn)率。定義 稱為前 m 個主成分的累積貢獻(xiàn)率,衡量了前 m 個主成份對原始變量的解釋程度。,,,(四)計算主成分載荷 在主成分之間不相關(guān)時,主成分載荷就是主成 分zi與變量xj之間的相關(guān)系數(shù),,,,,,,,,因子分析法 (Factor Analysis,F(xiàn)A),因子分析法概述 因子分析法的模型 附:主成分分析與因子分析的區(qū)別,(一)因子分析法概述,因子分析法與主成分分析法都基于統(tǒng)計分析法,但兩者有較大的區(qū)別。主成分分析是通過坐標(biāo)變換提取主成分,也就是將一組具有相關(guān)性的變量變換為一組獨立的變量,將主成分表示為原始觀察變量的線性組合。而因子分析法是要構(gòu)造因子模型,將原始觀察變量分解為因子的線性組合。因此因子分析法是主成分分析法的發(fā)展。,(二)因子分析法的模型,狹義的因子分析法常與主成分分析法在處理方法上有相類似之處,都要對變量規(guī)格化,并找出原始變量規(guī)格化后的相關(guān)矩陣。其主要不同點在于建立線性方程組時所考慮的方法,因子分析是以回歸方程的形式將變量表示成因子的線性組合,而且要使因子數(shù)m小于原始變量維數(shù)p,從而簡化了模型結(jié)構(gòu)。 其步驟為: 將原始數(shù)據(jù)標(biāo)準(zhǔn)化→求標(biāo)準(zhǔn)化數(shù)據(jù)的相關(guān)矩陣→求相關(guān)矩陣的特征值和特征向量→計算方差貢獻(xiàn)率與累計方差貢獻(xiàn)率→確定因子→因子旋轉(zhuǎn)→用原始的線性組合求各因子得分→求綜合得分→得分排序,因子模型的表達(dá)式為:,其矩陣形式為: 其中 為因子載荷。數(shù)學(xué)上可以證明,因子載荷 就是第i變量與第j因子的相關(guān)系數(shù),反映了第i變量在第j因子上的重要性。 F稱為X的公共因子或潛因子,矩陣A稱為因子載荷矩陣,e稱為X的特殊因子。,,附、主成分分析與因子分析的區(qū)別,,主成分分析法與因子分析法的區(qū)別,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 成分 分析 因子分析
鏈接地址:http://m.appdesigncorp.com/p-2288376.html