《主成份與因子分析》PPT課件.ppt
《《主成份與因子分析》PPT課件.ppt》由會員分享,可在線閱讀,更多相關《《主成份與因子分析》PPT課件.ppt(109頁珍藏版)》請在裝配圖網(wǎng)上搜索。
2020 3 17 1 多元統(tǒng)計分析 主成份分析 華南農(nóng)業(yè)大學理學院張國權 2020 3 17 2 主成份分析 多元統(tǒng)計分析處理的是多變量 多指標 問題 由于變量個數(shù)太多 并且彼此之間往往存在著一定的相關性 例如 隨著年齡的增長 兒童的身高 體重會隨著變化 具有一定的相關性 身高和體重之間為何會有相關性呢 因為存在著一個同時支配或影響著身高與體重的生長因子 變量之間存在的相關性使得所觀測到的數(shù)據(jù)在一定程度上反映的信息有所重迭 而且當變量較多時 在高維空間中研究樣本的分布規(guī)律比較復雜 人們自然希望用較少的綜合變量來代替原來較多的變量 而這幾個綜合變量又能夠盡可能多地反映原來變量的信息 而且彼此之間互不相關 利用這種降維的思想 產(chǎn)生了主成分分析 主成分分析是將多個指標化為少數(shù)幾個綜合指標的一種統(tǒng)計分析方法 2020 3 17 3 總體的主成分 則有 定義 2020 3 17 4 如滿足條件 主成份的推導 2020 3 17 5 結果2 對對稱實矩陣 2020 3 17 6 2020 3 17 7 而且 當時有 因此 使 達最大 且 在實際應用中 一般主成份只取前K P個 2020 3 17 8 則有 性質(zhì) 2020 3 17 9 2020 3 17 10 累計貢獻率 2020 3 17 11 樣本的主成分 2020 3 17 12 2020 3 17 13 2020 3 17 14 主成分的解釋要根據(jù)實際問題給出 主成分的應用是多方面的 譬如利用主成分簡化數(shù)據(jù)后 可以用直觀的方法對樣本或變量進行分類 當自變量間存在多重共線性時 可以利用自變量間的主成分 建立因變量關于主成分的回歸方程以克服多重共線性等 2020 3 17 15 調(diào)用PRINCOMP過程進行主成分分析 用戶可以使用下列語句來調(diào)用PRINCOMP過程 PROCPRINCOMP選項1選項2 VAR變量1變量2 WEIGHT變量 FREQ變量 PARTIAL變量1變量2 BY變量1變量2 2020 3 17 16 2020 3 17 17 2020 3 17 18 COV要求從協(xié)方差陣出發(fā)計算主分量 缺省為從相關陣出發(fā)計算 NOINT要求在模型中不使用截距項 這時統(tǒng)計量輸出數(shù)據(jù)集類型為TYPE UCORR或UCOV STD要求在OUT 的數(shù)據(jù)集中把主成分得分標準化為單位方差 不規(guī)定時方差為相應特征值 用VAR語句指定原始變量 必須為數(shù)值型 區(qū)間變量 2020 3 17 19 應用舉例 例1 一月和七月平均氣溫的主分量分析在數(shù)據(jù)集TEMPERAT中存放有美國一些城市一月和七月的平均氣溫 我們希望對這兩個氣溫進行主成分分析 希望用一個統(tǒng)一的溫度來作為總的可比的溫度 所以進行主分量分析 程序如下 DATATEMPERAT INPUTCITY 1 15JANUARYJULY CARDS MOBILE51 281 6PHOENIX51 291 2LITTLEROCK39 581 4 MILWAUKEE19 469 9CHEYENNE26 669 1 PROCPRINCOMPCOVOUT PRIN VARJULYJANUARY RUN 2020 3 17 20 主要結果 2020 3 17 21 由上結果可知 第一個主成分的貢獻率已達到了94 39 且可寫出兩主成分的表達式為 PRIN1 0 343532 JULY 75 61 0 939141 JANUARY 32 09 PRIN2 0 939141 JULY 75 61 0 343532 JANUARY 32 09 由系數(shù)可見 第一主分量是兩個月份的加權平均 代表了一個地方的氣溫水平 第二主分量系數(shù)一正一負 反應了冬季和夏季的氣溫差別 2020 3 17 22 2020 3 17 23 SAS程序如下 datacities93 inputcity z1 z6 cards BJ863 50318 22130640532 86413 706144 756TJ536 10153 65518217227 42066 03065 080SY402 4573 50812729171 2662 70041 281 CQ399 6468 13314738165 6941 85524 246XA229 5754 7388406120 1101 13828 340 procstandarddata cities93out amean 0std 1 varz1 z6 procprincompdata aout score varz1 z6 procsortdata score bydescendingprin1 procprint idcity varprin1 prin6 run 2020 3 17 24 結果一 相關陣的特征值及主分量貢獻率 EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative14 933481044 256410470 82220 822220 677070580 390856760 11280 935130 286213820 212433180 04770 982840 073780640 048563760 01230 995150 025216880 020979840 00420 999360 004237040 00071 0000可知第一主成分和第二主成分的累計貢獻率達到了93 51 即這兩個主成分提取了Z1 Z2 Z6中93 51 的信息 所以取兩個主成分分析即可 結果二 相關陣的特征向量 即各主分量的組合系數(shù) ThePRINCOMPProcedureEigenvectorsPrin1Prin2Prin3Prin4Prin5Prin6z10 4400970 025954 159319 597376 640675 113732z20 433725 007878 438357 2484600 689352 287621z30 381275 3700920 810739 1213050 179096 116506z40 441793 192277 1566150 1634190 0320940 845923z50 2936190 9021450 2829480 0866740 0720420 084618z60 437532 107054 1434420 729709 275742 409903 主要結果 2020 3 17 25 由上結果寫出這兩個主成分的表達式 prin1 0 440097z1 0 433725z2 0 381275z3 0 441793z4 0 293619z5 0 437532z6prin2 0 025954z1 0 007878z2 0 370092z3 0 192277z4 0 902145z5 0 107054z6其中 z1 z6都為標準化的數(shù)據(jù) 第一主成分的各個系數(shù)都是正的 而且數(shù)值相差不多 如果各個變量的數(shù)值都增加 則第一主成分數(shù)值也會增加 而這正說明城市的規(guī)模較大 效益較高 從各個指標的具體含義可以看出 第一主成分代表的是各城市的 綜合經(jīng)濟實力 其數(shù)值越大 代表綜合經(jīng)濟實力越強 第二主成分中 Z5的系數(shù)高達0 9021 換言之 如果外貿(mào)出口強勁 則第二主成分取值一定變大 反之 當外貿(mào)出口較弱者 則第二主成分會取較小的值 因此可以說 第二主成分是 外向型經(jīng)濟 的度量 其數(shù)值取得越大 外向型經(jīng)濟越強 2020 3 17 26 結果三 各個城市在各主成分的得分值 cityPrin1Prin2Prin3Prin4Prin5Prin6SH6 703970 49659 0 96393 0 497040 01060 0 01087BJ4 16150 1 883350 016430 601370 128320 01356GZ2 498611 064971 229360 30773 0 311990 02199TJ1 054710 199550 491000 059040 12434 0 12704SZ0 120012 30772 0 417120 349400 096480 08498DL 0 144230 288691 10978 0 328790 32630 0 03075SY 0 47665 0 564220 11196 0 04089 0 128980 01124WH 0 57326 0 506450 04086 0 062590 063100 05287CQ 0 61603 0 615700 39074 0 371030 003150 13839HZ 0 73002 0 38548 0 18102 0 01214 0 35107 0 04342QD 0 738760 412560 25525 0 21686 0 01551 0 04803CD 0 76976 0 431640 02601 0 31648 0 129250 02211NJ 0 90278 0 18263 0 216790 04839 0 01394 0 04984XA 1 28904 0 31284 0 058780 097190 097870 01889HB 1 33266 0 15074 0 283990 231100 091930 07473JN 1 55961 0 14105 0 28990 0 10171 0 049580 05279CC 1 59056 0 14467 0 243430 03694 0 02420 0 09788FZ 1 748740 21761 0 571260 11506 0 06662 0 04974XM 2 066690 33109 0 445170 101290 14905 0 03399 2020 3 17 27 從各個城市的得分情況來看 這兩個主成分的結果含義是準確清晰的 在第一主成分中 得分最高的是上海 得分為6 70397 第二名是北京 得分4 16150 第三名是廣州 得分2 49861 第四名是天津 得分為1 05471 這與各城市綜合經(jīng)濟實力的實際狀況是一致的 在第二主成分中 得分最高的是深圳 得分2 30772 第二名是廣州 得分1 06497 北京得分最低 為 1 88335 這與這些城市的對外開放程度是一致的 至于北京為何名列倒數(shù)第一 對外開放最差 這可以從外貿(mào)出口總額數(shù)看出 北京總的經(jīng)濟實力較強 但外貿(mào)出口總額確實落在很多城市之后了 2020 3 17 28 應用相關陣進行主成分分析為解決服裝定型分類問題 對128個成年男子的身材進行測量 每人各測得16項指標 身高 X1 坐高 X2 胸圍 X3 頭高 X4 褲長 X5 下檔 X6 手長 X7 領圍 X8 前胸 X9 后背 X10 肩厚 11 肩寬 X12 袖長 X13 肋圍 X14 腰圍 X15 和腿肚 X16 16項指標的相關陣R見以下SAS程序的數(shù)據(jù)行 由相關陣為實對稱距陣 數(shù)據(jù)行只給出相關陣的上三角部分 下半部分用缺失值代替 2020 3 17 29 由相關陣出發(fā)來進行主分量分析的SAS程序如下 dataa type corr input name x1 x16 cards x11 0 79 36 96 89 79 76 26 21 26 07 52 77 25 51 27x2 1 0 31 74 58 58 55 19 07 16 21 41 47 17 35 16x3 1 0 38 39 30 35 58 28 33 33 35 41 64 58 51x4 1 0 90 78 75 25 20 22 08 53 79 27 57 26x5 1 0 79 74 25 18 23 02 48 79 27 51 23x6 1 0 73 18 18 23 00 28 69 14 26 00 x7 1 0 24 29 25 10 44 67 16 38 12x8 1 0 04 49 44 30 32 51 51 38x9 1 0 34 16 05 23 21 15 18x10 1 0 23 50 34 15 29 16x11 1 0 24 10 31 28 31x12 1 0 26 17 41 18x13 1 0 26 50 24x14 1 0 63 50 x15 1 0 65x16 1 0 procprincompdata a type corr n 4 varx1 x16 run 2020 3 17 30 結果一 相關陣的特征值及主分量貢獻率 EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative16 991709094 401298980 43700 437022 590410110 959786490 16190 598931 630623620 775543590 10190 700840 855080030 05340 7542 2020 3 17 31 菜單操作 2020 3 17 32 二 因子分析 因子分析是多元分析中數(shù)據(jù)縮減的一種主要方法 本章討論基于統(tǒng)計軟件的因子分析以及主成分分析方法和一般步驟 其中包括 1 因子分析的基本思想2 因子分析的過程3 SAS的因子分析4 因子分析的結果評述5 證券營業(yè)部客戶滿意度的因子分析6 因子分析的推廣 2020 3 17 33 因子分析的基本思想 在實際中 人們往往希望收集到更多的有關研究對象的數(shù)據(jù)信息 進而能夠得到一個更加全面的 完整的和準確的把握和認識 于是描述一個對象就會有許多指標 這些指標數(shù)量繁多 重復 類型復雜 給統(tǒng)計分析帶來許多麻煩 因子分析正是基于信息損失最小化而提出的一種非常有效的方法 它把眾多的指標綜合成幾個為數(shù)較少的指標 這些指標即因子指標 因子的特點是 第一 因子變量的數(shù)量遠遠少于原始變量的個數(shù) 第二 因子變量并非原始變量的簡單取舍 而是一種新的綜合 第三 因子變量之間沒有線性關系 第四 因子變量具有明明解釋性 可以最大限度地發(fā)揮專業(yè)分析的作用 2020 3 17 34 二 因子分析模型 一般地 設X x1 x2 xp 為可觀測的隨機變量 且有F F1 F2 Fm 為公共 共性 因子 commonfactor 簡稱因子 factor 2020 3 17 35 e e1 e2 ep 為特殊因子 specificfactor f和e均為不可直接觀測的隨機變量 1 2 p 為總體x的均值A aij p m為因子負荷 載荷 factorloading 矩陣 2020 3 17 36 2020 3 17 37 其中 表示兩個因子 它對所有 是公有的因子 通常稱為公共因子 它們的系數(shù) 表示第 個變量在第 個因子上的載荷 表示第 個變量不能被前兩個因子包括的部分 稱為特殊因子 通常假定 高度相關的觀測變量 不管是正相關還是負相關 很可能是受同樣的因子影響 而相對來說相關程度不是很高的觀測變量很可能是受不同的因子影響的 而因子必須盡可能多地解釋變量方差 每個變量在每個因子上都有一個因子載荷 因子的意義需由看哪些變量在哪個因子上載荷最大來決定 通過尋找潛在公共因子 并合理解釋因子的意義 我們就能揭示錯綜復雜的事物的內(nèi)部結構 2020 3 17 38 通常先對x作標準化處理 使其均值為零 方差為 這樣就有假定 fi的均數(shù)為 方差為 ei的均數(shù)為 方差為 i fi與ei相互獨立 則稱x為具有m個公共因子的因子模型 2020 3 17 39 如果再滿足 fi與fj相互獨立 i j 則稱該因子模型為正交因子模型 正交因子模型具有如下特性 x的方差可表示為設 2020 3 17 40 hi2是m個公共因子對第i個變量的貢獻 稱為第i個共同度 communality 或共性方差 公因子方差 commonvariance i稱為特殊方差 specificvariance 是不能由公共因子解釋的部分 2020 3 17 41 因子載荷 負荷 aij是隨機變量xi與公共因子fj的相關系數(shù) 設稱gj2為公共因子fj對x的 貢獻 是衡量公共因子fj重要性的一個指標 2020 3 17 42 三 因子分析的步驟 輸入原始數(shù)據(jù)xn p 計算樣本均值和方差 進行標準化計算 處理 求樣本相關系數(shù)矩陣R rij p p 求相關系數(shù)矩陣的特征根 i 1 2 p 0 和相應的標準正交的特征向量li 2020 3 17 43 確定公共因子數(shù) 計算公共因子的共性方差hi2 對載荷矩陣進行旋轉(zhuǎn) 以求能更好地解釋公共因子 對公共因子作出專業(yè)性的解釋 因子得分 因子分析的數(shù)學模型是將變量表示為公共因子的線性組合 由于公共因子能反映原始變量的相關關系 用公共因子代表原始變量時 有時更利于描述研究對象的特征 因而往往需要反過來將公共因子表示為變量的線性組合 即因子得分 2020 3 17 44 四 因子分析提取因子的方法 主成分法 principalcomponentfactor 2020 3 17 45 每一個公共因子的載荷系數(shù)之平方和等于對應的特征根 即該公共因子的方差 2020 3 17 46 極大似然法 maximumlikelihoodfactor 假定原變量服從正態(tài)分布 公共因子和特殊因子也服從正態(tài)分布 構造因子負荷和特殊方差的似然函數(shù) 求其極大 得到唯一解 2020 3 17 47 主因子法 principalfactor 設原變量的相關矩陣為R rij 其逆矩陣為R 1 rij 各變量特征方差的初始值取為逆相關矩陣對角線元素的倒數(shù) i 1 rii 則共同度的初始值為 hi 2 1 i 1 1 rii 2020 3 17 48 以 hi 2代替相關矩陣中的對角線上的元素 得到約化相關矩陣 h1 2r12 r1pr21 h2 2 r2pR rp1rp2 hp 2R 的前m個特征根及其對應的單位化特征向量就是主因子解 2020 3 17 49 迭代主因子法 iteratedprincipalfactor 主因子的解很不穩(wěn)定 因此 常以估計的共同度為初始值 構造新的約化矩陣 再計算其特征根及其特征向量 并由此再估計因子負荷及其各變量的共同度和特殊方差 再由此新估計的共同度為初始值繼續(xù)迭代 直到解穩(wěn)定為止 2020 3 17 50 Heywood現(xiàn)象殘差矩陣 2020 3 17 51 五 因子旋轉(zhuǎn) 目的 使因子負荷兩極分化 要么接近于0 要么接近于1 常用的旋轉(zhuǎn)方法 2020 3 17 52 1 方差最大正交旋轉(zhuǎn) varimaxorthogonalrotation 基本思想 使公共因子的相對負荷 lij hi2 的方差之和最大 且保持原公共因子的正交性和公共方差總和不變 可使每個因子上的具有最大載荷的變量數(shù)最小 因此可以簡化對因子的解釋 2020 3 17 53 2 斜交旋轉(zhuǎn) obliquerotation 因子斜交旋轉(zhuǎn)后 各因子負荷發(fā)生了較大變化 出現(xiàn)了兩極分化 各因子間不再相互獨立 而彼此相關 各因子對各變量的貢獻的總和也發(fā)生了改變 適用于大數(shù)據(jù)集的因子分析 2020 3 17 54 六 因子得分 Thomson法 即回歸法回歸法得分是由Bayes思想導出的 得到的因子得分是有偏的 但計算結果誤差較小 2020 3 17 55 Bartlett法Bartlett因子得分是極大似然估計 也是加權最小二乘回歸 得到的因子得分是無偏的 但計算結果誤差較大 因子得分可用于模型診斷 也可用作進一步分析的原始資料 2020 3 17 56 七 因子分析應用實例 2020 3 17 57 八 因子分析應用的注意事項 應用條件 1 變量是計量的 能用線性相關系數(shù) Pearson積叉相關系數(shù) 表示 2 總體的同質(zhì)性 2020 3 17 58 樣本量沒有估計公式 至少要保證樣本相關系數(shù)穩(wěn)定可靠 因子數(shù)目一般認為 累積貢獻要達到80 以上 但要注意Heywood現(xiàn)象 2020 3 17 59 基本思想使用 問題 假設我們要研究影響人們對生活滿意度的潛在因子 為此對有關項目進行了問卷調(diào)查 其中各包括三項工作方面 WORK 1 WORK 2 WORK 3 和家庭方面 HOME 1 HOME 2 HOME 3 的滿意度調(diào)查 下表為對100人調(diào)查后所計算的相關系數(shù)矩陣 Correlations n 100 由表可以看出 3項工作滿意調(diào)查項目之間具有較高的相關性 3項家庭滿意調(diào)查項目之間也具有較高的相關性 而工作滿意調(diào)查項目與家庭滿意項目之間相關性則較低 假定可用變量間的相關性把它們分組 也即假設在一個特定組內(nèi)的所用變量之間是高度相關的 而與不同組內(nèi)的變量卻有較小的相關性 于是可以想象 各組變量可以找到潛在的單一因子對觀察到的相關負責 2020 3 17 60 因而 上述相關性表明 一組變量存在一個潛在的因子 工作滿意度 另一組變量對應另一潛在因子 家庭滿意度 且兩因子相對獨立 對于問卷的回答顯然有賴于所找到的兩個潛在因子 而且 每一調(diào)查項目線性依賴于這兩個潛在的因子 以及每一調(diào)查項目獨有的特殊因子 據(jù)此 將這一分析推廣至p個變量 存在m個潛在的公共因子 可建立以下數(shù)學模型 矩陣形式為 2020 3 17 61 且滿足 F F1 Fm 稱為X的公共因子 A為因子載荷矩陣 aij為因子載荷 數(shù)學上可以證明 因子載荷aij就是第i變量與第j因子的相關系數(shù) 反映了第i變量在第j因子上的重要性 2020 3 17 62 因子載荷的估計方法要建立實際問題的因子模型 關鍵是要根據(jù)樣本數(shù)據(jù)估計因子的載荷矩陣 其中使用最為普遍的方法是主成分法 設隨機向量X的協(xié)差陣為 為 的特征根 為對應的標準正交化特征向量 則根據(jù)線性代數(shù)知識 可分解為 當因子個數(shù)與變量個數(shù)一樣多 特殊方差因子為0時 因子模型為 2020 3 17 63 因子載荷矩陣A的第j列為 也就是說出常數(shù)外 第j列因子載荷恰是第j個主成分的系數(shù)uj 因此該方法成為主成分提取法 實際應用時通常根據(jù)因子的累積貢獻率達于80 或85 以上 決定所取因子的個數(shù) 2020 3 17 64 2020 3 17 65 2 正交因子模型中各個量的統(tǒng)計意義 2020 3 17 66 2020 3 17 67 2020 3 17 68 FACTOR 因子分析 過程簡介 FACTOR過程用下列語句引用 PROCFACTOR選擇項 VAR變量 PRIORS方法 PARTIAL變量表 FREQ變量 WEIGHT變量 BY變量 通常只有VAR語句必須跟隨在PROCFACTOR語句后面 其余語句是可選擇的 2020 3 17 69 1 PROCFACTOR語句的選項 可用于PROCFACTOR語句的任選項主要有下列幾項 DATA SAS數(shù)據(jù)集 給出輸入數(shù)據(jù)集的名字 它可以是普通的SAS數(shù)據(jù)集或者是特殊結構的SAS數(shù)據(jù)集 OUT SAS數(shù)據(jù)集 創(chuàng)建一個數(shù)據(jù)集 它包括來自DATA 的數(shù)據(jù)集中的全部數(shù)據(jù) 還包括被命名為FACTOR1 FACTOR2等變量的因子得分估計 2020 3 17 70 2020 3 17 71 2020 3 17 72 2020 3 17 73 ROTATE name R name 給出旋轉(zhuǎn)的方法 缺省時ROTATE NONE PROCFACTOR可以進行下面幾種旋轉(zhuǎn)的方法 即的有效值 VARIMAX 正交的方差最大旋轉(zhuǎn) ORTHOMAX 權數(shù)為GAMMA的正交方差最大旋轉(zhuǎn) EQUAMAX 正交的均方最大旋轉(zhuǎn) QUARTIMAX 正交的四次方最大旋轉(zhuǎn) PARSIMAX 正交的PARSIMAX旋轉(zhuǎn) PROMAX 規(guī)定斜交的PROMAX旋轉(zhuǎn) PROCRUSTES 斜交Procurstes旋轉(zhuǎn) 等 2 PRIORS語句該語句對每個變量規(guī)定0 0和1 0之間的數(shù)值作為先驗公因子方差的估計 第一個數(shù)值對應于VAR語句中的第一個變量 第二個值對應于第二個變量 等等 數(shù)值的個數(shù)必須等于變量的個數(shù) 2020 3 17 74 6 3范例 2020 3 17 75 2020 3 17 76 運行結果 MeansandStandardDeviationsfrom12observationsPOPSCHOOLEMPLOYSERVICESHOUSEMean6241 6666711 44166672333 33333120 83333317000均值StdDev3439 994271 786544831241 21153114 9275136367 53128標準差Correlations相關矩陣POPSCHOOLEMPLOYSERVICESHOUSEPOP1 000000 009750 972450 438870 02241SCHOOL0 009751 000000 154280 691410 86307EMPLOY0 972450 154281 000000 514720 12193SERVICES0 438870 691410 514721 000000 77765HOUSE0 022410 863070 121930 777651 00000InitialFactorMethod PrincipalComponents主成份法的輸出結果PriorCommunalityEstimates ONE初始共性方差估計值相關矩陣的特征值EigenvaluesoftheCorrelationMatrix Total 5Average 1特征值總和5 平均特征值112345Eigenvalue2 87331 79670 21480 09990 0153各特征值Difference1 07671 58180 11490 0847各相鄰特征值之差Proportion0 57470 35930 04300 02000 0031被解釋的方差的比例Cumulative0 57470 93400 97700 99691 0000被解釋方差的累計比例2factorswillberetainedbytheMINEIGENcriterion 確定因子的數(shù)目為2 2020 3 17 77 FactorPattern因子模式陣FACTOR1FACTOR2POP0 580960 80642SCHOOL0 76704 0 54476EMPLOY0 672430 72605SERVICES0 93239 0 10431HOUSE0 79116 0 55818Varianceexplainedbyeachfactor每個因子所解釋的方差FACTOR1FACTOR22 8733141 796660總體最終共性方差估計FinalCommunalityEstimates Total 4 669974POPSCHOOLEMPLOYSERVICESHOUSE0 9878260 8851060 9793060 8802360 937500每一各指標的最終共性方差估計InitialFactorMethod PrincipalFactors主因子法PriorCommunalityEstimates SMC先驗共性方差估計POPSCHOOLEMPLOYSERVICESHOUSE0 9685920 8222850 9691810 7857240 847019 它們是用公因子預報原始變量的回歸系數(shù) 第一主分量 因子 在所有五個變量上都有正的載荷 可見這個因子反應了城市規(guī)模的影響 第二主分量在人口 就業(yè)上有大的正載荷 在教育程度和住房價格上有大的負載荷 則第二個因子較大的城市人口多但是教育程度和住房價格低 這里給出了公因子對每一個原始變量的解釋能力的量度 這是用原始變量對公因子的復相關系數(shù)平方 取0到1間值 來計算的 CommunalityEstimate是這些復相關系數(shù)平方的總和 因為每一個復相關系數(shù)平方都比較大 所以我們可以認為兩個公因子可以很好地解釋原始變量中的信息 但是我們得到的因子解釋不夠清楚 于是考慮用其它的因子分析方法 2020 3 17 78 EigenvaluesoftheReducedCorrelationMatrix 相關矩陣的特征值Total 4 39280116Average 0 87856023特征值總和5 平均特征值112345Eigenvalue2 73431 71610 0396 0 0245 0 0726Difference1 01821 67650 06410 0481Proportion0 62250 39070 0090 0 0056 0 0165Cumulative0 62251 01311 02211 01651 00002factorswillberetainedbythePROPORTIONcriterion InitialFactorMethod PrincipalFactorsFactorPatternFACTOR1FACTOR2SERVICES0 87899 0 15847HOUSE0 74215 0 57806EMPLOY0 714470 67936SCHOOL0 71370 0 55515POP0 625330 76621VarianceexplainedbyeachfactorFACTOR1FACTOR22 7343011 716069 2020 3 17 79 主因子法計算簡約了的相關陣的特征值 相當于的估計 所以其特征值可能為負值 選取因子個數(shù)的缺省準則是PROPORTION 1 即累計特征值達到特征值總和的100 這樣取了兩個因子 結果與主分量分析相似 為了得到好的因子解釋 我們在上面的PROCFACTOR語句中再加上一個ROTATE PROMAX旋轉(zhuǎn)選項 這樣將在得到主因子分析后先產(chǎn)生方差最大正交預旋轉(zhuǎn) VARIMAX 然后進行斜交旋轉(zhuǎn) 并加了一個REORDER選項使輸出時把原始變量受相同因子影響的放在一起 2020 3 17 80 InitialFactorMethod PrincipalFactorsFinalCommunalityEstimates Total 4 450370POPSCHOOLEMPLOYSERVICESHOUSE0 9781130 8175640 9719990 7977430 884950PrerotationMethod VarimaxOrthogonalTransformationMatrix1210 788950 614462 0 614460 78895PrerotationMethod VarimaxRotatedFactorPatternFACTOR1FACTOR2HOUSE0 94072 0 00004SCHOOL0 904190 00055SERVICES0 790850 41509POP0 022550 98874EMPLOY0 146250 97499VarianceexplainedbyeachfactorFACTOR1FACTOR22 3498572 100513 2020 3 17 81 可見第一因子反映了房價 教育水平 服務業(yè)人數(shù) 這些應該與發(fā)達程度有關 第二因子反映了人口和就業(yè)情況 與城市規(guī)模有關 這樣得到的因子已經(jīng)比較好用 我們再看斜交旋轉(zhuǎn)的結果 這里只給出了旋轉(zhuǎn)后的因子模式陣 2020 3 17 82 PrerotationMethod VarimaxFinalCommunalityEstimates Total 4 450370POPSCHOOLEMPLOYSERVICESHOUSE0 9781130 8175640 9719990 7977430 884950RotationMethod PromaxTargetMatrixforProcrusteanTransformationFACTOR1FACTOR2HOUSE1 00000 0 00000SCHOOL1 000000 00000SERVICES0 694210 10045POP0 000011 00000EMPLOY0 003260 96793RotationMethod PromaxProcrusteanTransformationMatrix1211 04117 0 098652 0 105720 96303NormalizedObliqueTransformationMatrix1210 738030 542022 0 705550 86528 2020 3 17 83 RotationMethod PromaxInter factorCorrelationsFACTOR1FACTOR2FACTOR11 000000 20188FACTOR20 201881 00000RotationMethod PromaxRotatedFactorPattern StdRegCoefs FACTOR1FACTOR2HOUSE0 95558 0 09792SCHOOL0 91842 0 09352SERVICES0 760530 33932POP 0 079081 00192EMPLOY0 047990 97509RotationMethod PromaxReferenceAxisCorrelationsFACTOR1FACTOR2FACTOR11 00000 0 20188FACTOR2 0 201881 00000 2020 3 17 84 RotationMethod PromaxReferenceStructure SemipartialCorrelations FACTOR1FACTOR2HOUSE0 93591 0 09590SCHOOL0 89951 0 09160SERVICES0 744870 33233POP 0 077450 98129EMPLOY0 047000 95501VarianceexplainedbyeachfactoreliminatingotherfactorsFACTOR1FACTOR22 2480892 003020RotationMethod PromaxFactorStructure Correlations FACTOR1FACTOR2HOUSE0 935820 09500SCHOOL0 899540 09189SERVICES0 829030 49286POP0 123190 98596EMPLOY0 244840 98478VarianceexplainedbyeachfactorignoringotherfactorsFACTOR1FACTOR22 4473492 202280RotationMethod PromaxFinalCommunalityEstimates Total 4 450370POPSCHOOLEMPLOYSERVICESHOUSE0 9781130 8175640 9719990 7977430 884950 2020 3 17 85 OBS TYPE NAME POPSCHOOLEMPLOYSERVICESHOUSE1MEAN6241 6711 44172333 33120 83317000 002STD3439 991 78651241 21114 9286367 533N12 0012 000012 0012 00012 004CORRPOP1 000 00980 970 4390 025CORRSCHOOL0 011 00000 150 6910 866CORREMPLOY0 970 15431 000 5150 127CORRSERVICES0 440 69140 511 0000 788CORRHOUSE0 020 86310 120 7781 009COMMUNAL0 980 81760 970 7980 8810PRIORS0 970 82230 970 7860 8511EIGENVAL2 731 71610 04 0 025 0 0712UNROTATEFACTOR10 630 71370 710 8790 7413UNROTATEFACTOR20 77 0 55520 68 0 158 0 5814PRETRANSFACTOR10 79 0 6145 15PRETRANSFACTOR20 610 7889 16PREROTATFACTOR10 020 90420 150 7910 9417PREROTATFACTOR20 988740 000550 974990 41509 0 0000418TRANSFORFACTOR10 738030 70555 19TRANSFORFACTOR20 542020 86528 20FCORRFACTOR11 000000 20188 21FCORRFACTOR20 201881 00000 22PATTERNFACTOR1 0 079080 918420 047990 760530 9555823PATTERNFACTOR21 00192 0 093520 975090 33932 0 0979224RCORRFACTOR11 00000 0 20188 25RCORRFACTOR2 0 201881 00000 26REFERENCFACTOR1 0 077450 899510 047000 744870 9359127REFERENCFACTOR20 98129 0 091600 955010 33233 0 0959028STRUCTURFACTOR10 123190 899540 244840 829030 9358229STRUCTURFACTOR20 985960 091890 984780 492860 0950 2020 3 17 86 程序解釋及統(tǒng)計結論 2020 3 17 87 2020 3 17 88 基于因子分析法的工業(yè)現(xiàn)代化評價 本例選取了一定的指標 利用因子分析法對江蘇省城市的工業(yè)現(xiàn)代化指標進行綜合分析評價 試探討江蘇省各個城市的工業(yè)現(xiàn)代化程度 并找出各個城市工業(yè)化發(fā)展過程中出現(xiàn)的問題 為以后的改進和決策提供建議 1 指標的選取 選取了如下指標來評價江蘇省各個城市的工業(yè)現(xiàn)代化程度 X1 人均國內(nèi)生產(chǎn)總值X2 工業(yè)總產(chǎn)值X3 全社會固定投資額X4 進出口總額X5 工業(yè)用電X6 專業(yè)技術人員比重X7 大中型企業(yè)比重X8 二三產(chǎn)業(yè)對GDP貢獻率X9 二三產(chǎn)業(yè)從業(yè)人員比重X10 人均可支配收入X11 利用外資額城市工業(yè)現(xiàn)代化的評價是一種多指標下的綜合評價 多變量大樣本無疑會為科學研究提供豐富的信息 但也在一定程度上增加了問題分析的復雜性 因此有必要尋找和設計一個或幾個較少的綜合指標來綜合各方面的信息 抓住主要矛盾 使問題簡化 而因子分析方法正是解決這一問題的理想工具 2020 3 17 89 2 對工業(yè)現(xiàn)代化指標的因子分析選取的具有代表性的一些指標工業(yè)現(xiàn)代化指標 其具體的數(shù)據(jù)如下表1 2020 3 17 90 本文的運算都是采用SAS統(tǒng)計分析軟件 1 首先將數(shù)據(jù)進行標準化 求出六個指標的相關系數(shù)矩陣 由相關系數(shù)矩陣可以看出 十一個指標彼此之間存在一定的相關性 說明十一個指標反映的經(jīng)濟信息有一定的重疊 2020 3 17 91 2 計算矩陣 的特征值 求特征值的貢獻率和累計貢獻率 表3特征值 特征值貢獻率 累計貢獻率表 根據(jù)特征值大于1的提取原則 有兩個因子符合原則 并且前兩個因子的累計貢獻率為84 33 即前兩個公因子所解釋的方差占總方差的84 33 用這兩個公因子來反映城市的工業(yè)現(xiàn)代程度所損失的信息不多 所以這兩個公因子能夠綜合反映江蘇各城市的工業(yè)現(xiàn)代化水平 2020 3 17 92 3 采用主成分分析法計算出因子載荷矩陣表4 4 建立因子分析模型的目的不僅是找出主因子 更重要的是知道每個主因子的意義 然而用上述方法求出的公因子解 各主因子的典型代表變量不很突出 容易使因子的意義含糊不清 不便于對實際問題進行分析 因此用方差最大正交旋轉(zhuǎn)法對因子進行旋轉(zhuǎn) 得表5和表6 2020 3 17 93 2020 3 17 94 2020 3 17 95 由旋轉(zhuǎn)后的因子載荷矩陣可以看出 第一主成分即公因子F1對人均國內(nèi)生產(chǎn)總值 X1 工業(yè)總產(chǎn)值 X2 全社會固定投資額 X3 進出口總額 X4 工業(yè)用電 X5 人均可支配收入 X10 利用外資額 X11 有絕對值較大的負荷系數(shù) 所以F1是這七個指標的綜合反映 其中人均國內(nèi)生產(chǎn)總值 X1 工業(yè)總產(chǎn)值 X2 進出口總額 X4 人均可支配收入 X10 這四個指標反映了一個城市的工業(yè)產(chǎn)出水平 而全社會固定投資額 X3 工業(yè)用電 X5 利用外資額 X11 這三個指標主要反映了城市工業(yè)發(fā)展中的投入情況 所以綜合因子F1主要反映一個城市的經(jīng)濟發(fā)展狀況 F1得分越高說明城市的經(jīng)濟越發(fā)達 城市的工業(yè)現(xiàn)代化程度越高 2020 3 17 96 第二主成分即公因子F2對專業(yè)技術人員比重 X6 大中型企業(yè)比重 X7 二三產(chǎn)業(yè)對GDP貢獻率 X8 二三產(chǎn)業(yè)從業(yè)人員比重 X9 有絕對值較大的負荷系數(shù) 是這四個因素的綜合反映 專業(yè)技術人員比重 X6 反映工業(yè)人員素質(zhì)的現(xiàn)代化程度 城市從業(yè)人員素質(zhì)越高城市的現(xiàn)代化程度相應越高 大中型企業(yè)比重 X7 能反映一個城市的產(chǎn)業(yè)集中度 城市生產(chǎn)約是社會化 規(guī)模經(jīng)濟越是突出 產(chǎn)業(yè)的集中度就越高 城市工業(yè)現(xiàn)代化程度就越高 二三產(chǎn)業(yè)對GDP貢獻率 X8 二三產(chǎn)業(yè)從業(yè)人員比重 X9 主要反映二三產(chǎn)業(yè)在城市經(jīng)濟結構中的比重 城市工業(yè)現(xiàn)代化的過程是工業(yè)不斷地向農(nóng)業(yè)和服務業(yè)等其他行業(yè)提供先進技術裝備的過程 也是推動農(nóng)業(yè)生產(chǎn)逐步實現(xiàn)機械化的過程 是農(nóng)村剩余勞動力不斷向城市聚集 向第二三產(chǎn)業(yè)轉(zhuǎn)移的過程 因此一個城市的二 三產(chǎn)業(yè)越發(fā)達 在城市經(jīng)濟結構中的比重越大 說明城市的工業(yè)現(xiàn)代化程度越高 綜合因子F2主要反映城市二 三產(chǎn)業(yè)的比重及產(chǎn)業(yè)的集中度 因此 因子F2得分越高城市的工業(yè)化程度越高 2020 3 17 97 2020 3 17 98 4 在圖1對話框點擊Extraction 按鈕 出現(xiàn)圖2對話框 選擇主成分提取法 圖2 5 在圖1對話框點擊Rotation 按鈕 出現(xiàn)圖3對話框 選擇varimax方法進行因子載荷旋轉(zhuǎn) 6 在圖1對話框點擊ok按鈕 給出計算結果 見表1 表2 2020 3 17 99 讓我們來看一看變量與兩因子之間的相關性 因子載荷 由表1可以看出 第1因子 Factor1 與原始變量的相關系數(shù)均高于第二因子與原始變量的相關系數(shù) 這應該是預料之中的 因為 兩個因子是連續(xù)提取 所能解釋的方差漸次遞減 我們可以繪制兩因子載荷的散點圖 在散點圖中每一點代表一個變量 在圖中可以從任何方向進行坐標軸旋轉(zhuǎn)而不改變點之間的相對位置 但坐標值會發(fā)生改變 也就是因子載荷將發(fā)生變化 旋轉(zhuǎn)之后 因子1在工作滿意度調(diào)查項目上具有高載荷 而因子2在家庭滿意度調(diào)查項目上具有高載荷 因此 可以得出這樣的結論 生活滿意度調(diào)查問卷包括兩個方面 調(diào)查項目也可以分為兩類 圖3 2020 3 17 100 因子分析的幾個相關概念 1 因子載荷2 變量共同度3 公共因子的方差貢獻 2020 3 17 101 因子分析的基本步驟 因子分析的核心問題有兩個 一是如何構造因子變量 二是如何對因子變量進行命名解釋 因此 因子分析的基本步驟和解決思路就是圍繞這兩個核心問題展開的 因子分析常常有以下四個基本步驟 1 確認待分析的原有干變量是否適合作因子分析 2 構造因子變量 3 利用旋轉(zhuǎn)方法使因子變量更具有可解釋性 4 計算因子變量得分 2020 3 17 102 巴特利特球度檢驗 Bartletttestofsphericity 巴特利特球度檢驗是以變量的相關系數(shù)矩陣為出發(fā)點 它的零假設是Ho 相關系數(shù)矩陣是一個單位陣 即相關系數(shù)矩陣對角線上的所有元素都為1 所有非對角線上的元素都為零 巴特利特球度檢驗的統(tǒng)計量根據(jù)相關系數(shù)矩陣的行列式計算得到 如果該統(tǒng)計量值比較大 且其對應的相伴概率值小于用戶心中的顯著性水平 則應拒絕Ho 認為相關系數(shù)矩陣不太可能是單位陣 適合作因子分析 相反 如果該統(tǒng)計量值比較小 且其對應的相伴概率值大于用戶心中的顯著性水平 則不能拒絕Ho 可以認為相關系數(shù)矩陣可能是單位陣 不適合作因子分析 2020 3 17 103 反映象相關矩陣檢驗 Anti imagecorrelationmatrix 反映象相關矩陣檢驗以變量的偏相關系數(shù)矩陣為出發(fā)點 將偏相關系數(shù)矩陣的每個元素相反 得到反映象相關陣 不難理解 由于偏相關系數(shù)是在控制了其他變量對兩變量影響的條件下計算出來的凈相關系數(shù) 如果變量之間確實存在的相互重疊傳遞影響 也就是說 如果變量中確實能夠提取出公共因子 那么控制了這些影響后的偏相關系數(shù)必然很小 因此 如果反映象相關矩陣中的有些元素的絕對值較大 則說明這些變量可能不適合作因子分析 2020 3 17 104 KMO Kaiser Meyer Olkin KMO統(tǒng)計量是用于比較變量間簡單相關系數(shù)和偏相關系數(shù)的一個指標 計算公式如下 式中 rij是變量和變量之間的簡單相關系數(shù) pij是它們之間的偏相關系數(shù) 可見 KMO統(tǒng)計量的取值在0和1之間 當所有變量之間的簡單相關系數(shù)平方和遠遠大于偏相關系數(shù)平方和時 KMO值接近1 KMO值越接近1 則越適合作因子分析 KMO越小 則越不適合作因子分析 Kaiser給出了一個KMO的度量標準 0 9以上非常適合 0 8適合 0 7一般 0 6不太適合 0 5以下不適合 2020 3 17 105 SPSS的因子分析案例 2001年10月 我們?yōu)樯轿髯C券的一個營業(yè)部作了一次客戶滿意度研究 采用因子分析作了分析 調(diào)查的項目包括18項指標 基本上可以涵蓋客戶服務的各個方面 這些指標包括 技術 環(huán)境 人員 股市 服務等方面的多項指標 2020 3 17 106 因子分析的過程 單擊Analyze DataReduction Factor 于是出現(xiàn)下面的窗口 2020 3 17 107 Extraction對話框 2020 3 17 108 小結 因子分析是數(shù)據(jù)縮減的一種多元分析方法 它是基于信息損失最小化而提出的一種非常有效的方法 它把眾多的指標綜合成幾個為數(shù)較少的指標 這些指標即因子指標 因子的特點是 第一 因子變量的數(shù)量遠遠少于原始變量的個數(shù) 第二 因子變量并非原始變量的簡單取舍 而是一種新的綜合 第三 因子變量之間沒有線性關系 第四 因子變量具有明明解釋性 可以最大限度地發(fā)揮專業(yè)分析的作用 因子分析就是以最少的信息損失 將眾多的原始變量濃縮成為少數(shù)幾個因子變量 使得變量具有更高的可解釋性的一種數(shù)據(jù)縮減方法 是多元分析的主干技術之一 2020 3 17 109 祝大家學習愉快- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 主成份與因子分析 成份 因子分析 PPT 課件
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
鏈接地址:http://m.appdesigncorp.com/p-7250220.html