《主成份與因子分析》PPT課件.ppt
《《主成份與因子分析》PPT課件.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《《主成份與因子分析》PPT課件.ppt(109頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
2020 3 17 1 多元統(tǒng)計(jì)分析 主成份分析 華南農(nóng)業(yè)大學(xué)理學(xué)院張國(guó)權(quán) 2020 3 17 2 主成份分析 多元統(tǒng)計(jì)分析處理的是多變量 多指標(biāo) 問(wèn)題 由于變量個(gè)數(shù)太多 并且彼此之間往往存在著一定的相關(guān)性 例如 隨著年齡的增長(zhǎng) 兒童的身高 體重會(huì)隨著變化 具有一定的相關(guān)性 身高和體重之間為何會(huì)有相關(guān)性呢 因?yàn)榇嬖谥粋€(gè)同時(shí)支配或影響著身高與體重的生長(zhǎng)因子 變量之間存在的相關(guān)性使得所觀測(cè)到的數(shù)據(jù)在一定程度上反映的信息有所重迭 而且當(dāng)變量較多時(shí) 在高維空間中研究樣本的分布規(guī)律比較復(fù)雜 人們自然希望用較少的綜合變量來(lái)代替原來(lái)較多的變量 而這幾個(gè)綜合變量又能夠盡可能多地反映原來(lái)變量的信息 而且彼此之間互不相關(guān) 利用這種降維的思想 產(chǎn)生了主成分分析 主成分分析是將多個(gè)指標(biāo)化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法 2020 3 17 3 總體的主成分 則有 定義 2020 3 17 4 如滿(mǎn)足條件 主成份的推導(dǎo) 2020 3 17 5 結(jié)果2 對(duì)對(duì)稱(chēng)實(shí)矩陣 2020 3 17 6 2020 3 17 7 而且 當(dāng)時(shí)有 因此 使 達(dá)最大 且 在實(shí)際應(yīng)用中 一般主成份只取前K P個(gè) 2020 3 17 8 則有 性質(zhì) 2020 3 17 9 2020 3 17 10 累計(jì)貢獻(xiàn)率 2020 3 17 11 樣本的主成分 2020 3 17 12 2020 3 17 13 2020 3 17 14 主成分的解釋要根據(jù)實(shí)際問(wèn)題給出 主成分的應(yīng)用是多方面的 譬如利用主成分簡(jiǎn)化數(shù)據(jù)后 可以用直觀的方法對(duì)樣本或變量進(jìn)行分類(lèi) 當(dāng)自變量間存在多重共線性時(shí) 可以利用自變量間的主成分 建立因變量關(guān)于主成分的回歸方程以克服多重共線性等 2020 3 17 15 調(diào)用PRINCOMP過(guò)程進(jìn)行主成分分析 用戶(hù)可以使用下列語(yǔ)句來(lái)調(diào)用PRINCOMP過(guò)程 PROCPRINCOMP選項(xiàng)1選項(xiàng)2 VAR變量1變量2 WEIGHT變量 FREQ變量 PARTIAL變量1變量2 BY變量1變量2 2020 3 17 16 2020 3 17 17 2020 3 17 18 COV要求從協(xié)方差陣出發(fā)計(jì)算主分量 缺省為從相關(guān)陣出發(fā)計(jì)算 NOINT要求在模型中不使用截距項(xiàng) 這時(shí)統(tǒng)計(jì)量輸出數(shù)據(jù)集類(lèi)型為T(mén)YPE UCORR或UCOV STD要求在OUT 的數(shù)據(jù)集中把主成分得分標(biāo)準(zhǔn)化為單位方差 不規(guī)定時(shí)方差為相應(yīng)特征值 用VAR語(yǔ)句指定原始變量 必須為數(shù)值型 區(qū)間變量 2020 3 17 19 應(yīng)用舉例 例1 一月和七月平均氣溫的主分量分析在數(shù)據(jù)集TEMPERAT中存放有美國(guó)一些城市一月和七月的平均氣溫 我們希望對(duì)這兩個(gè)氣溫進(jìn)行主成分分析 希望用一個(gè)統(tǒng)一的溫度來(lái)作為總的可比的溫度 所以進(jìn)行主分量分析 程序如下 DATATEMPERAT INPUTCITY 1 15JANUARYJULY CARDS MOBILE51 281 6PHOENIX51 291 2LITTLEROCK39 581 4 MILWAUKEE19 469 9CHEYENNE26 669 1 PROCPRINCOMPCOVOUT PRIN VARJULYJANUARY RUN 2020 3 17 20 主要結(jié)果 2020 3 17 21 由上結(jié)果可知 第一個(gè)主成分的貢獻(xiàn)率已達(dá)到了94 39 且可寫(xiě)出兩主成分的表達(dá)式為 PRIN1 0 343532 JULY 75 61 0 939141 JANUARY 32 09 PRIN2 0 939141 JULY 75 61 0 343532 JANUARY 32 09 由系數(shù)可見(jiàn) 第一主分量是兩個(gè)月份的加權(quán)平均 代表了一個(gè)地方的氣溫水平 第二主分量系數(shù)一正一負(fù) 反應(yīng)了冬季和夏季的氣溫差別 2020 3 17 22 2020 3 17 23 SAS程序如下 datacities93 inputcity z1 z6 cards BJ863 50318 22130640532 86413 706144 756TJ536 10153 65518217227 42066 03065 080SY402 4573 50812729171 2662 70041 281 CQ399 6468 13314738165 6941 85524 246XA229 5754 7388406120 1101 13828 340 procstandarddata cities93out amean 0std 1 varz1 z6 procprincompdata aout score varz1 z6 procsortdata score bydescendingprin1 procprint idcity varprin1 prin6 run 2020 3 17 24 結(jié)果一 相關(guān)陣的特征值及主分量貢獻(xiàn)率 EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative14 933481044 256410470 82220 822220 677070580 390856760 11280 935130 286213820 212433180 04770 982840 073780640 048563760 01230 995150 025216880 020979840 00420 999360 004237040 00071 0000可知第一主成分和第二主成分的累計(jì)貢獻(xiàn)率達(dá)到了93 51 即這兩個(gè)主成分提取了Z1 Z2 Z6中93 51 的信息 所以取兩個(gè)主成分分析即可 結(jié)果二 相關(guān)陣的特征向量 即各主分量的組合系數(shù) ThePRINCOMPProcedureEigenvectorsPrin1Prin2Prin3Prin4Prin5Prin6z10 4400970 025954 159319 597376 640675 113732z20 433725 007878 438357 2484600 689352 287621z30 381275 3700920 810739 1213050 179096 116506z40 441793 192277 1566150 1634190 0320940 845923z50 2936190 9021450 2829480 0866740 0720420 084618z60 437532 107054 1434420 729709 275742 409903 主要結(jié)果 2020 3 17 25 由上結(jié)果寫(xiě)出這兩個(gè)主成分的表達(dá)式 prin1 0 440097z1 0 433725z2 0 381275z3 0 441793z4 0 293619z5 0 437532z6prin2 0 025954z1 0 007878z2 0 370092z3 0 192277z4 0 902145z5 0 107054z6其中 z1 z6都為標(biāo)準(zhǔn)化的數(shù)據(jù) 第一主成分的各個(gè)系數(shù)都是正的 而且數(shù)值相差不多 如果各個(gè)變量的數(shù)值都增加 則第一主成分?jǐn)?shù)值也會(huì)增加 而這正說(shuō)明城市的規(guī)模較大 效益較高 從各個(gè)指標(biāo)的具體含義可以看出 第一主成分代表的是各城市的 綜合經(jīng)濟(jì)實(shí)力 其數(shù)值越大 代表綜合經(jīng)濟(jì)實(shí)力越強(qiáng) 第二主成分中 Z5的系數(shù)高達(dá)0 9021 換言之 如果外貿(mào)出口強(qiáng)勁 則第二主成分取值一定變大 反之 當(dāng)外貿(mào)出口較弱者 則第二主成分會(huì)取較小的值 因此可以說(shuō) 第二主成分是 外向型經(jīng)濟(jì) 的度量 其數(shù)值取得越大 外向型經(jīng)濟(jì)越強(qiáng) 2020 3 17 26 結(jié)果三 各個(gè)城市在各主成分的得分值 cityPrin1Prin2Prin3Prin4Prin5Prin6SH6 703970 49659 0 96393 0 497040 01060 0 01087BJ4 16150 1 883350 016430 601370 128320 01356GZ2 498611 064971 229360 30773 0 311990 02199TJ1 054710 199550 491000 059040 12434 0 12704SZ0 120012 30772 0 417120 349400 096480 08498DL 0 144230 288691 10978 0 328790 32630 0 03075SY 0 47665 0 564220 11196 0 04089 0 128980 01124WH 0 57326 0 506450 04086 0 062590 063100 05287CQ 0 61603 0 615700 39074 0 371030 003150 13839HZ 0 73002 0 38548 0 18102 0 01214 0 35107 0 04342QD 0 738760 412560 25525 0 21686 0 01551 0 04803CD 0 76976 0 431640 02601 0 31648 0 129250 02211NJ 0 90278 0 18263 0 216790 04839 0 01394 0 04984XA 1 28904 0 31284 0 058780 097190 097870 01889HB 1 33266 0 15074 0 283990 231100 091930 07473JN 1 55961 0 14105 0 28990 0 10171 0 049580 05279CC 1 59056 0 14467 0 243430 03694 0 02420 0 09788FZ 1 748740 21761 0 571260 11506 0 06662 0 04974XM 2 066690 33109 0 445170 101290 14905 0 03399 2020 3 17 27 從各個(gè)城市的得分情況來(lái)看 這兩個(gè)主成分的結(jié)果含義是準(zhǔn)確清晰的 在第一主成分中 得分最高的是上海 得分為6 70397 第二名是北京 得分4 16150 第三名是廣州 得分2 49861 第四名是天津 得分為1 05471 這與各城市綜合經(jīng)濟(jì)實(shí)力的實(shí)際狀況是一致的 在第二主成分中 得分最高的是深圳 得分2 30772 第二名是廣州 得分1 06497 北京得分最低 為 1 88335 這與這些城市的對(duì)外開(kāi)放程度是一致的 至于北京為何名列倒數(shù)第一 對(duì)外開(kāi)放最差 這可以從外貿(mào)出口總額數(shù)看出 北京總的經(jīng)濟(jì)實(shí)力較強(qiáng) 但外貿(mào)出口總額確實(shí)落在很多城市之后了 2020 3 17 28 應(yīng)用相關(guān)陣進(jìn)行主成分分析為解決服裝定型分類(lèi)問(wèn)題 對(duì)128個(gè)成年男子的身材進(jìn)行測(cè)量 每人各測(cè)得16項(xiàng)指標(biāo) 身高 X1 坐高 X2 胸圍 X3 頭高 X4 褲長(zhǎng) X5 下檔 X6 手長(zhǎng) X7 領(lǐng)圍 X8 前胸 X9 后背 X10 肩厚 11 肩寬 X12 袖長(zhǎng) X13 肋圍 X14 腰圍 X15 和腿肚 X16 16項(xiàng)指標(biāo)的相關(guān)陣R見(jiàn)以下SAS程序的數(shù)據(jù)行 由相關(guān)陣為實(shí)對(duì)稱(chēng)距陣 數(shù)據(jù)行只給出相關(guān)陣的上三角部分 下半部分用缺失值代替 2020 3 17 29 由相關(guān)陣出發(fā)來(lái)進(jìn)行主分量分析的SAS程序如下 dataa type corr input name x1 x16 cards x11 0 79 36 96 89 79 76 26 21 26 07 52 77 25 51 27x2 1 0 31 74 58 58 55 19 07 16 21 41 47 17 35 16x3 1 0 38 39 30 35 58 28 33 33 35 41 64 58 51x4 1 0 90 78 75 25 20 22 08 53 79 27 57 26x5 1 0 79 74 25 18 23 02 48 79 27 51 23x6 1 0 73 18 18 23 00 28 69 14 26 00 x7 1 0 24 29 25 10 44 67 16 38 12x8 1 0 04 49 44 30 32 51 51 38x9 1 0 34 16 05 23 21 15 18x10 1 0 23 50 34 15 29 16x11 1 0 24 10 31 28 31x12 1 0 26 17 41 18x13 1 0 26 50 24x14 1 0 63 50 x15 1 0 65x16 1 0 procprincompdata a type corr n 4 varx1 x16 run 2020 3 17 30 結(jié)果一 相關(guān)陣的特征值及主分量貢獻(xiàn)率 EigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulative16 991709094 401298980 43700 437022 590410110 959786490 16190 598931 630623620 775543590 10190 700840 855080030 05340 7542 2020 3 17 31 菜單操作 2020 3 17 32 二 因子分析 因子分析是多元分析中數(shù)據(jù)縮減的一種主要方法 本章討論基于統(tǒng)計(jì)軟件的因子分析以及主成分分析方法和一般步驟 其中包括 1 因子分析的基本思想2 因子分析的過(guò)程3 SAS的因子分析4 因子分析的結(jié)果評(píng)述5 證券營(yíng)業(yè)部客戶(hù)滿(mǎn)意度的因子分析6 因子分析的推廣 2020 3 17 33 因子分析的基本思想 在實(shí)際中 人們往往希望收集到更多的有關(guān)研究對(duì)象的數(shù)據(jù)信息 進(jìn)而能夠得到一個(gè)更加全面的 完整的和準(zhǔn)確的把握和認(rèn)識(shí) 于是描述一個(gè)對(duì)象就會(huì)有許多指標(biāo) 這些指標(biāo)數(shù)量繁多 重復(fù) 類(lèi)型復(fù)雜 給統(tǒng)計(jì)分析帶來(lái)許多麻煩 因子分析正是基于信息損失最小化而提出的一種非常有效的方法 它把眾多的指標(biāo)綜合成幾個(gè)為數(shù)較少的指標(biāo) 這些指標(biāo)即因子指標(biāo) 因子的特點(diǎn)是 第一 因子變量的數(shù)量遠(yuǎn)遠(yuǎn)少于原始變量的個(gè)數(shù) 第二 因子變量并非原始變量的簡(jiǎn)單取舍 而是一種新的綜合 第三 因子變量之間沒(méi)有線性關(guān)系 第四 因子變量具有明明解釋性 可以最大限度地發(fā)揮專(zhuān)業(yè)分析的作用 2020 3 17 34 二 因子分析模型 一般地 設(shè)X x1 x2 xp 為可觀測(cè)的隨機(jī)變量 且有F F1 F2 Fm 為公共 共性 因子 commonfactor 簡(jiǎn)稱(chēng)因子 factor 2020 3 17 35 e e1 e2 ep 為特殊因子 specificfactor f和e均為不可直接觀測(cè)的隨機(jī)變量 1 2 p 為總體x的均值A(chǔ) aij p m為因子負(fù)荷 載荷 factorloading 矩陣 2020 3 17 36 2020 3 17 37 其中 表示兩個(gè)因子 它對(duì)所有 是公有的因子 通常稱(chēng)為公共因子 它們的系數(shù) 表示第 個(gè)變量在第 個(gè)因子上的載荷 表示第 個(gè)變量不能被前兩個(gè)因子包括的部分 稱(chēng)為特殊因子 通常假定 高度相關(guān)的觀測(cè)變量 不管是正相關(guān)還是負(fù)相關(guān) 很可能是受同樣的因子影響 而相對(duì)來(lái)說(shuō)相關(guān)程度不是很高的觀測(cè)變量很可能是受不同的因子影響的 而因子必須盡可能多地解釋變量方差 每個(gè)變量在每個(gè)因子上都有一個(gè)因子載荷 因子的意義需由看哪些變量在哪個(gè)因子上載荷最大來(lái)決定 通過(guò)尋找潛在公共因子 并合理解釋因子的意義 我們就能揭示錯(cuò)綜復(fù)雜的事物的內(nèi)部結(jié)構(gòu) 2020 3 17 38 通常先對(duì)x作標(biāo)準(zhǔn)化處理 使其均值為零 方差為 這樣就有假定 fi的均數(shù)為 方差為 ei的均數(shù)為 方差為 i fi與ei相互獨(dú)立 則稱(chēng)x為具有m個(gè)公共因子的因子模型 2020 3 17 39 如果再滿(mǎn)足 fi與fj相互獨(dú)立 i j 則稱(chēng)該因子模型為正交因子模型 正交因子模型具有如下特性 x的方差可表示為設(shè) 2020 3 17 40 hi2是m個(gè)公共因子對(duì)第i個(gè)變量的貢獻(xiàn) 稱(chēng)為第i個(gè)共同度 communality 或共性方差 公因子方差 commonvariance i稱(chēng)為特殊方差 specificvariance 是不能由公共因子解釋的部分 2020 3 17 41 因子載荷 負(fù)荷 aij是隨機(jī)變量xi與公共因子fj的相關(guān)系數(shù) 設(shè)稱(chēng)gj2為公共因子fj對(duì)x的 貢獻(xiàn) 是衡量公共因子fj重要性的一個(gè)指標(biāo) 2020 3 17 42 三 因子分析的步驟 輸入原始數(shù)據(jù)xn p 計(jì)算樣本均值和方差 進(jìn)行標(biāo)準(zhǔn)化計(jì)算 處理 求樣本相關(guān)系數(shù)矩陣R rij p p 求相關(guān)系數(shù)矩陣的特征根 i 1 2 p 0 和相應(yīng)的標(biāo)準(zhǔn)正交的特征向量li 2020 3 17 43 確定公共因子數(shù) 計(jì)算公共因子的共性方差hi2 對(duì)載荷矩陣進(jìn)行旋轉(zhuǎn) 以求能更好地解釋公共因子 對(duì)公共因子作出專(zhuān)業(yè)性的解釋 因子得分 因子分析的數(shù)學(xué)模型是將變量表示為公共因子的線性組合 由于公共因子能反映原始變量的相關(guān)關(guān)系 用公共因子代表原始變量時(shí) 有時(shí)更利于描述研究對(duì)象的特征 因而往往需要反過(guò)來(lái)將公共因子表示為變量的線性組合 即因子得分 2020 3 17 44 四 因子分析提取因子的方法 主成分法 principalcomponentfactor 2020 3 17 45 每一個(gè)公共因子的載荷系數(shù)之平方和等于對(duì)應(yīng)的特征根 即該公共因子的方差 2020 3 17 46 極大似然法 maximumlikelihoodfactor 假定原變量服從正態(tài)分布 公共因子和特殊因子也服從正態(tài)分布 構(gòu)造因子負(fù)荷和特殊方差的似然函數(shù) 求其極大 得到唯一解 2020 3 17 47 主因子法 principalfactor 設(shè)原變量的相關(guān)矩陣為R rij 其逆矩陣為R 1 rij 各變量特征方差的初始值取為逆相關(guān)矩陣對(duì)角線元素的倒數(shù) i 1 rii 則共同度的初始值為 hi 2 1 i 1 1 rii 2020 3 17 48 以 hi 2代替相關(guān)矩陣中的對(duì)角線上的元素 得到約化相關(guān)矩陣 h1 2r12 r1pr21 h2 2 r2pR rp1rp2 hp 2R 的前m個(gè)特征根及其對(duì)應(yīng)的單位化特征向量就是主因子解 2020 3 17 49 迭代主因子法 iteratedprincipalfactor 主因子的解很不穩(wěn)定 因此 常以估計(jì)的共同度為初始值 構(gòu)造新的約化矩陣 再計(jì)算其特征根及其特征向量 并由此再估計(jì)因子負(fù)荷及其各變量的共同度和特殊方差 再由此新估計(jì)的共同度為初始值繼續(xù)迭代 直到解穩(wěn)定為止 2020 3 17 50 Heywood現(xiàn)象殘差矩陣 2020 3 17 51 五 因子旋轉(zhuǎn) 目的 使因子負(fù)荷兩極分化 要么接近于0 要么接近于1 常用的旋轉(zhuǎn)方法 2020 3 17 52 1 方差最大正交旋轉(zhuǎn) varimaxorthogonalrotation 基本思想 使公共因子的相對(duì)負(fù)荷 lij hi2 的方差之和最大 且保持原公共因子的正交性和公共方差總和不變 可使每個(gè)因子上的具有最大載荷的變量數(shù)最小 因此可以簡(jiǎn)化對(duì)因子的解釋 2020 3 17 53 2 斜交旋轉(zhuǎn) obliquerotation 因子斜交旋轉(zhuǎn)后 各因子負(fù)荷發(fā)生了較大變化 出現(xiàn)了兩極分化 各因子間不再相互獨(dú)立 而彼此相關(guān) 各因子對(duì)各變量的貢獻(xiàn)的總和也發(fā)生了改變 適用于大數(shù)據(jù)集的因子分析 2020 3 17 54 六 因子得分 Thomson法 即回歸法回歸法得分是由Bayes思想導(dǎo)出的 得到的因子得分是有偏的 但計(jì)算結(jié)果誤差較小 2020 3 17 55 Bartlett法Bartlett因子得分是極大似然估計(jì) 也是加權(quán)最小二乘回歸 得到的因子得分是無(wú)偏的 但計(jì)算結(jié)果誤差較大 因子得分可用于模型診斷 也可用作進(jìn)一步分析的原始資料 2020 3 17 56 七 因子分析應(yīng)用實(shí)例 2020 3 17 57 八 因子分析應(yīng)用的注意事項(xiàng) 應(yīng)用條件 1 變量是計(jì)量的 能用線性相關(guān)系數(shù) Pearson積叉相關(guān)系數(shù) 表示 2 總體的同質(zhì)性 2020 3 17 58 樣本量沒(méi)有估計(jì)公式 至少要保證樣本相關(guān)系數(shù)穩(wěn)定可靠 因子數(shù)目一般認(rèn)為 累積貢獻(xiàn)要達(dá)到80 以上 但要注意Heywood現(xiàn)象 2020 3 17 59 基本思想使用 問(wèn)題 假設(shè)我們要研究影響人們對(duì)生活滿(mǎn)意度的潛在因子 為此對(duì)有關(guān)項(xiàng)目進(jìn)行了問(wèn)卷調(diào)查 其中各包括三項(xiàng)工作方面 WORK 1 WORK 2 WORK 3 和家庭方面 HOME 1 HOME 2 HOME 3 的滿(mǎn)意度調(diào)查 下表為對(duì)100人調(diào)查后所計(jì)算的相關(guān)系數(shù)矩陣 Correlations n 100 由表可以看出 3項(xiàng)工作滿(mǎn)意調(diào)查項(xiàng)目之間具有較高的相關(guān)性 3項(xiàng)家庭滿(mǎn)意調(diào)查項(xiàng)目之間也具有較高的相關(guān)性 而工作滿(mǎn)意調(diào)查項(xiàng)目與家庭滿(mǎn)意項(xiàng)目之間相關(guān)性則較低 假定可用變量間的相關(guān)性把它們分組 也即假設(shè)在一個(gè)特定組內(nèi)的所用變量之間是高度相關(guān)的 而與不同組內(nèi)的變量卻有較小的相關(guān)性 于是可以想象 各組變量可以找到潛在的單一因子對(duì)觀察到的相關(guān)負(fù)責(zé) 2020 3 17 60 因而 上述相關(guān)性表明 一組變量存在一個(gè)潛在的因子 工作滿(mǎn)意度 另一組變量對(duì)應(yīng)另一潛在因子 家庭滿(mǎn)意度 且兩因子相對(duì)獨(dú)立 對(duì)于問(wèn)卷的回答顯然有賴(lài)于所找到的兩個(gè)潛在因子 而且 每一調(diào)查項(xiàng)目線性依賴(lài)于這兩個(gè)潛在的因子 以及每一調(diào)查項(xiàng)目獨(dú)有的特殊因子 據(jù)此 將這一分析推廣至p個(gè)變量 存在m個(gè)潛在的公共因子 可建立以下數(shù)學(xué)模型 矩陣形式為 2020 3 17 61 且滿(mǎn)足 F F1 Fm 稱(chēng)為X的公共因子 A為因子載荷矩陣 aij為因子載荷 數(shù)學(xué)上可以證明 因子載荷aij就是第i變量與第j因子的相關(guān)系數(shù) 反映了第i變量在第j因子上的重要性 2020 3 17 62 因子載荷的估計(jì)方法要建立實(shí)際問(wèn)題的因子模型 關(guān)鍵是要根據(jù)樣本數(shù)據(jù)估計(jì)因子的載荷矩陣 其中使用最為普遍的方法是主成分法 設(shè)隨機(jī)向量X的協(xié)差陣為 為 的特征根 為對(duì)應(yīng)的標(biāo)準(zhǔn)正交化特征向量 則根據(jù)線性代數(shù)知識(shí) 可分解為 當(dāng)因子個(gè)數(shù)與變量個(gè)數(shù)一樣多 特殊方差因子為0時(shí) 因子模型為 2020 3 17 63 因子載荷矩陣A的第j列為 也就是說(shuō)出常數(shù)外 第j列因子載荷恰是第j個(gè)主成分的系數(shù)uj 因此該方法成為主成分提取法 實(shí)際應(yīng)用時(shí)通常根據(jù)因子的累積貢獻(xiàn)率達(dá)于80 或85 以上 決定所取因子的個(gè)數(shù) 2020 3 17 64 2020 3 17 65 2 正交因子模型中各個(gè)量的統(tǒng)計(jì)意義 2020 3 17 66 2020 3 17 67 2020 3 17 68 FACTOR 因子分析 過(guò)程簡(jiǎn)介 FACTOR過(guò)程用下列語(yǔ)句引用 PROCFACTOR選擇項(xiàng) VAR變量 PRIORS方法 PARTIAL變量表 FREQ變量 WEIGHT變量 BY變量 通常只有VAR語(yǔ)句必須跟隨在PROCFACTOR語(yǔ)句后面 其余語(yǔ)句是可選擇的 2020 3 17 69 1 PROCFACTOR語(yǔ)句的選項(xiàng) 可用于PROCFACTOR語(yǔ)句的任選項(xiàng)主要有下列幾項(xiàng) DATA SAS數(shù)據(jù)集 給出輸入數(shù)據(jù)集的名字 它可以是普通的SAS數(shù)據(jù)集或者是特殊結(jié)構(gòu)的SAS數(shù)據(jù)集 OUT SAS數(shù)據(jù)集 創(chuàng)建一個(gè)數(shù)據(jù)集 它包括來(lái)自DATA 的數(shù)據(jù)集中的全部數(shù)據(jù) 還包括被命名為FACTOR1 FACTOR2等變量的因子得分估計(jì) 2020 3 17 70 2020 3 17 71 2020 3 17 72 2020 3 17 73 ROTATE name R name 給出旋轉(zhuǎn)的方法 缺省時(shí)ROTATE NONE PROCFACTOR可以進(jìn)行下面幾種旋轉(zhuǎn)的方法 即的有效值 VARIMAX 正交的方差最大旋轉(zhuǎn) ORTHOMAX 權(quán)數(shù)為GAMMA的正交方差最大旋轉(zhuǎn) EQUAMAX 正交的均方最大旋轉(zhuǎn) QUARTIMAX 正交的四次方最大旋轉(zhuǎn) PARSIMAX 正交的PARSIMAX旋轉(zhuǎn) PROMAX 規(guī)定斜交的PROMAX旋轉(zhuǎn) PROCRUSTES 斜交Procurstes旋轉(zhuǎn) 等 2 PRIORS語(yǔ)句該語(yǔ)句對(duì)每個(gè)變量規(guī)定0 0和1 0之間的數(shù)值作為先驗(yàn)公因子方差的估計(jì) 第一個(gè)數(shù)值對(duì)應(yīng)于VAR語(yǔ)句中的第一個(gè)變量 第二個(gè)值對(duì)應(yīng)于第二個(gè)變量 等等 數(shù)值的個(gè)數(shù)必須等于變量的個(gè)數(shù) 2020 3 17 74 6 3范例 2020 3 17 75 2020 3 17 76 運(yùn)行結(jié)果 MeansandStandardDeviationsfrom12observationsPOPSCHOOLEMPLOYSERVICESHOUSEMean6241 6666711 44166672333 33333120 83333317000均值StdDev3439 994271 786544831241 21153114 9275136367 53128標(biāo)準(zhǔn)差Correlations相關(guān)矩陣POPSCHOOLEMPLOYSERVICESHOUSEPOP1 000000 009750 972450 438870 02241SCHOOL0 009751 000000 154280 691410 86307EMPLOY0 972450 154281 000000 514720 12193SERVICES0 438870 691410 514721 000000 77765HOUSE0 022410 863070 121930 777651 00000InitialFactorMethod PrincipalComponents主成份法的輸出結(jié)果PriorCommunalityEstimates ONE初始共性方差估計(jì)值相關(guān)矩陣的特征值EigenvaluesoftheCorrelationMatrix Total 5Average 1特征值總和5 平均特征值112345Eigenvalue2 87331 79670 21480 09990 0153各特征值Difference1 07671 58180 11490 0847各相鄰特征值之差Proportion0 57470 35930 04300 02000 0031被解釋的方差的比例Cumulative0 57470 93400 97700 99691 0000被解釋方差的累計(jì)比例2factorswillberetainedbytheMINEIGENcriterion 確定因子的數(shù)目為2 2020 3 17 77 FactorPattern因子模式陣FACTOR1FACTOR2POP0 580960 80642SCHOOL0 76704 0 54476EMPLOY0 672430 72605SERVICES0 93239 0 10431HOUSE0 79116 0 55818Varianceexplainedbyeachfactor每個(gè)因子所解釋的方差FACTOR1FACTOR22 8733141 796660總體最終共性方差估計(jì)FinalCommunalityEstimates Total 4 669974POPSCHOOLEMPLOYSERVICESHOUSE0 9878260 8851060 9793060 8802360 937500每一各指標(biāo)的最終共性方差估計(jì)InitialFactorMethod PrincipalFactors主因子法PriorCommunalityEstimates SMC先驗(yàn)共性方差估計(jì)POPSCHOOLEMPLOYSERVICESHOUSE0 9685920 8222850 9691810 7857240 847019 它們是用公因子預(yù)報(bào)原始變量的回歸系數(shù) 第一主分量 因子 在所有五個(gè)變量上都有正的載荷 可見(jiàn)這個(gè)因子反應(yīng)了城市規(guī)模的影響 第二主分量在人口 就業(yè)上有大的正載荷 在教育程度和住房?jī)r(jià)格上有大的負(fù)載荷 則第二個(gè)因子較大的城市人口多但是教育程度和住房?jī)r(jià)格低 這里給出了公因子對(duì)每一個(gè)原始變量的解釋能力的量度 這是用原始變量對(duì)公因子的復(fù)相關(guān)系數(shù)平方 取0到1間值 來(lái)計(jì)算的 CommunalityEstimate是這些復(fù)相關(guān)系數(shù)平方的總和 因?yàn)槊恳粋€(gè)復(fù)相關(guān)系數(shù)平方都比較大 所以我們可以認(rèn)為兩個(gè)公因子可以很好地解釋原始變量中的信息 但是我們得到的因子解釋不夠清楚 于是考慮用其它的因子分析方法 2020 3 17 78 EigenvaluesoftheReducedCorrelationMatrix 相關(guān)矩陣的特征值Total 4 39280116Average 0 87856023特征值總和5 平均特征值112345Eigenvalue2 73431 71610 0396 0 0245 0 0726Difference1 01821 67650 06410 0481Proportion0 62250 39070 0090 0 0056 0 0165Cumulative0 62251 01311 02211 01651 00002factorswillberetainedbythePROPORTIONcriterion InitialFactorMethod PrincipalFactorsFactorPatternFACTOR1FACTOR2SERVICES0 87899 0 15847HOUSE0 74215 0 57806EMPLOY0 714470 67936SCHOOL0 71370 0 55515POP0 625330 76621VarianceexplainedbyeachfactorFACTOR1FACTOR22 7343011 716069 2020 3 17 79 主因子法計(jì)算簡(jiǎn)約了的相關(guān)陣的特征值 相當(dāng)于的估計(jì) 所以其特征值可能為負(fù)值 選取因子個(gè)數(shù)的缺省準(zhǔn)則是PROPORTION 1 即累計(jì)特征值達(dá)到特征值總和的100 這樣取了兩個(gè)因子 結(jié)果與主分量分析相似 為了得到好的因子解釋 我們?cè)谏厦娴腜ROCFACTOR語(yǔ)句中再加上一個(gè)ROTATE PROMAX旋轉(zhuǎn)選項(xiàng) 這樣將在得到主因子分析后先產(chǎn)生方差最大正交預(yù)旋轉(zhuǎn) VARIMAX 然后進(jìn)行斜交旋轉(zhuǎn) 并加了一個(gè)REORDER選項(xiàng)使輸出時(shí)把原始變量受相同因子影響的放在一起 2020 3 17 80 InitialFactorMethod PrincipalFactorsFinalCommunalityEstimates Total 4 450370POPSCHOOLEMPLOYSERVICESHOUSE0 9781130 8175640 9719990 7977430 884950PrerotationMethod VarimaxOrthogonalTransformationMatrix1210 788950 614462 0 614460 78895PrerotationMethod VarimaxRotatedFactorPatternFACTOR1FACTOR2HOUSE0 94072 0 00004SCHOOL0 904190 00055SERVICES0 790850 41509POP0 022550 98874EMPLOY0 146250 97499VarianceexplainedbyeachfactorFACTOR1FACTOR22 3498572 100513 2020 3 17 81 可見(jiàn)第一因子反映了房?jī)r(jià) 教育水平 服務(wù)業(yè)人數(shù) 這些應(yīng)該與發(fā)達(dá)程度有關(guān) 第二因子反映了人口和就業(yè)情況 與城市規(guī)模有關(guān) 這樣得到的因子已經(jīng)比較好用 我們?cè)倏葱苯恍D(zhuǎn)的結(jié)果 這里只給出了旋轉(zhuǎn)后的因子模式陣 2020 3 17 82 PrerotationMethod VarimaxFinalCommunalityEstimates Total 4 450370POPSCHOOLEMPLOYSERVICESHOUSE0 9781130 8175640 9719990 7977430 884950RotationMethod PromaxTargetMatrixforProcrusteanTransformationFACTOR1FACTOR2HOUSE1 00000 0 00000SCHOOL1 000000 00000SERVICES0 694210 10045POP0 000011 00000EMPLOY0 003260 96793RotationMethod PromaxProcrusteanTransformationMatrix1211 04117 0 098652 0 105720 96303NormalizedObliqueTransformationMatrix1210 738030 542022 0 705550 86528 2020 3 17 83 RotationMethod PromaxInter factorCorrelationsFACTOR1FACTOR2FACTOR11 000000 20188FACTOR20 201881 00000RotationMethod PromaxRotatedFactorPattern StdRegCoefs FACTOR1FACTOR2HOUSE0 95558 0 09792SCHOOL0 91842 0 09352SERVICES0 760530 33932POP 0 079081 00192EMPLOY0 047990 97509RotationMethod PromaxReferenceAxisCorrelationsFACTOR1FACTOR2FACTOR11 00000 0 20188FACTOR2 0 201881 00000 2020 3 17 84 RotationMethod PromaxReferenceStructure SemipartialCorrelations FACTOR1FACTOR2HOUSE0 93591 0 09590SCHOOL0 89951 0 09160SERVICES0 744870 33233POP 0 077450 98129EMPLOY0 047000 95501VarianceexplainedbyeachfactoreliminatingotherfactorsFACTOR1FACTOR22 2480892 003020RotationMethod PromaxFactorStructure Correlations FACTOR1FACTOR2HOUSE0 935820 09500SCHOOL0 899540 09189SERVICES0 829030 49286POP0 123190 98596EMPLOY0 244840 98478VarianceexplainedbyeachfactorignoringotherfactorsFACTOR1FACTOR22 4473492 202280RotationMethod PromaxFinalCommunalityEstimates Total 4 450370POPSCHOOLEMPLOYSERVICESHOUSE0 9781130 8175640 9719990 7977430 884950 2020 3 17 85 OBS TYPE NAME POPSCHOOLEMPLOYSERVICESHOUSE1MEAN6241 6711 44172333 33120 83317000 002STD3439 991 78651241 21114 9286367 533N12 0012 000012 0012 00012 004CORRPOP1 000 00980 970 4390 025CORRSCHOOL0 011 00000 150 6910 866CORREMPLOY0 970 15431 000 5150 127CORRSERVICES0 440 69140 511 0000 788CORRHOUSE0 020 86310 120 7781 009COMMUNAL0 980 81760 970 7980 8810PRIORS0 970 82230 970 7860 8511EIGENVAL2 731 71610 04 0 025 0 0712UNROTATEFACTOR10 630 71370 710 8790 7413UNROTATEFACTOR20 77 0 55520 68 0 158 0 5814PRETRANSFACTOR10 79 0 6145 15PRETRANSFACTOR20 610 7889 16PREROTATFACTOR10 020 90420 150 7910 9417PREROTATFACTOR20 988740 000550 974990 41509 0 0000418TRANSFORFACTOR10 738030 70555 19TRANSFORFACTOR20 542020 86528 20FCORRFACTOR11 000000 20188 21FCORRFACTOR20 201881 00000 22PATTERNFACTOR1 0 079080 918420 047990 760530 9555823PATTERNFACTOR21 00192 0 093520 975090 33932 0 0979224RCORRFACTOR11 00000 0 20188 25RCORRFACTOR2 0 201881 00000 26REFERENCFACTOR1 0 077450 899510 047000 744870 9359127REFERENCFACTOR20 98129 0 091600 955010 33233 0 0959028STRUCTURFACTOR10 123190 899540 244840 829030 9358229STRUCTURFACTOR20 985960 091890 984780 492860 0950 2020 3 17 86 程序解釋及統(tǒng)計(jì)結(jié)論 2020 3 17 87 2020 3 17 88 基于因子分析法的工業(yè)現(xiàn)代化評(píng)價(jià) 本例選取了一定的指標(biāo) 利用因子分析法對(duì)江蘇省城市的工業(yè)現(xiàn)代化指標(biāo)進(jìn)行綜合分析評(píng)價(jià) 試探討江蘇省各個(gè)城市的工業(yè)現(xiàn)代化程度 并找出各個(gè)城市工業(yè)化發(fā)展過(guò)程中出現(xiàn)的問(wèn)題 為以后的改進(jìn)和決策提供建議 1 指標(biāo)的選取 選取了如下指標(biāo)來(lái)評(píng)價(jià)江蘇省各個(gè)城市的工業(yè)現(xiàn)代化程度 X1 人均國(guó)內(nèi)生產(chǎn)總值X2 工業(yè)總產(chǎn)值X3 全社會(huì)固定投資額X4 進(jìn)出口總額X5 工業(yè)用電X6 專(zhuān)業(yè)技術(shù)人員比重X7 大中型企業(yè)比重X8 二三產(chǎn)業(yè)對(duì)GDP貢獻(xiàn)率X9 二三產(chǎn)業(yè)從業(yè)人員比重X10 人均可支配收入X11 利用外資額城市工業(yè)現(xiàn)代化的評(píng)價(jià)是一種多指標(biāo)下的綜合評(píng)價(jià) 多變量大樣本無(wú)疑會(huì)為科學(xué)研究提供豐富的信息 但也在一定程度上增加了問(wèn)題分析的復(fù)雜性 因此有必要尋找和設(shè)計(jì)一個(gè)或幾個(gè)較少的綜合指標(biāo)來(lái)綜合各方面的信息 抓住主要矛盾 使問(wèn)題簡(jiǎn)化 而因子分析方法正是解決這一問(wèn)題的理想工具 2020 3 17 89 2 對(duì)工業(yè)現(xiàn)代化指標(biāo)的因子分析選取的具有代表性的一些指標(biāo)工業(yè)現(xiàn)代化指標(biāo) 其具體的數(shù)據(jù)如下表1 2020 3 17 90 本文的運(yùn)算都是采用SAS統(tǒng)計(jì)分析軟件 1 首先將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化 求出六個(gè)指標(biāo)的相關(guān)系數(shù)矩陣 由相關(guān)系數(shù)矩陣可以看出 十一個(gè)指標(biāo)彼此之間存在一定的相關(guān)性 說(shuō)明十一個(gè)指標(biāo)反映的經(jīng)濟(jì)信息有一定的重疊 2020 3 17 91 2 計(jì)算矩陣 的特征值 求特征值的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率 表3特征值 特征值貢獻(xiàn)率 累計(jì)貢獻(xiàn)率表 根據(jù)特征值大于1的提取原則 有兩個(gè)因子符合原則 并且前兩個(gè)因子的累計(jì)貢獻(xiàn)率為84 33 即前兩個(gè)公因子所解釋的方差占總方差的84 33 用這兩個(gè)公因子來(lái)反映城市的工業(yè)現(xiàn)代程度所損失的信息不多 所以這兩個(gè)公因子能夠綜合反映江蘇各城市的工業(yè)現(xiàn)代化水平 2020 3 17 92 3 采用主成分分析法計(jì)算出因子載荷矩陣表4 4 建立因子分析模型的目的不僅是找出主因子 更重要的是知道每個(gè)主因子的意義 然而用上述方法求出的公因子解 各主因子的典型代表變量不很突出 容易使因子的意義含糊不清 不便于對(duì)實(shí)際問(wèn)題進(jìn)行分析 因此用方差最大正交旋轉(zhuǎn)法對(duì)因子進(jìn)行旋轉(zhuǎn) 得表5和表6 2020 3 17 93 2020 3 17 94 2020 3 17 95 由旋轉(zhuǎn)后的因子載荷矩陣可以看出 第一主成分即公因子F1對(duì)人均國(guó)內(nèi)生產(chǎn)總值 X1 工業(yè)總產(chǎn)值 X2 全社會(huì)固定投資額 X3 進(jìn)出口總額 X4 工業(yè)用電 X5 人均可支配收入 X10 利用外資額 X11 有絕對(duì)值較大的負(fù)荷系數(shù) 所以F1是這七個(gè)指標(biāo)的綜合反映 其中人均國(guó)內(nèi)生產(chǎn)總值 X1 工業(yè)總產(chǎn)值 X2 進(jìn)出口總額 X4 人均可支配收入 X10 這四個(gè)指標(biāo)反映了一個(gè)城市的工業(yè)產(chǎn)出水平 而全社會(huì)固定投資額 X3 工業(yè)用電 X5 利用外資額 X11 這三個(gè)指標(biāo)主要反映了城市工業(yè)發(fā)展中的投入情況 所以綜合因子F1主要反映一個(gè)城市的經(jīng)濟(jì)發(fā)展?fàn)顩r F1得分越高說(shuō)明城市的經(jīng)濟(jì)越發(fā)達(dá) 城市的工業(yè)現(xiàn)代化程度越高 2020 3 17 96 第二主成分即公因子F2對(duì)專(zhuān)業(yè)技術(shù)人員比重 X6 大中型企業(yè)比重 X7 二三產(chǎn)業(yè)對(duì)GDP貢獻(xiàn)率 X8 二三產(chǎn)業(yè)從業(yè)人員比重 X9 有絕對(duì)值較大的負(fù)荷系數(shù) 是這四個(gè)因素的綜合反映 專(zhuān)業(yè)技術(shù)人員比重 X6 反映工業(yè)人員素質(zhì)的現(xiàn)代化程度 城市從業(yè)人員素質(zhì)越高城市的現(xiàn)代化程度相應(yīng)越高 大中型企業(yè)比重 X7 能反映一個(gè)城市的產(chǎn)業(yè)集中度 城市生產(chǎn)約是社會(huì)化 規(guī)模經(jīng)濟(jì)越是突出 產(chǎn)業(yè)的集中度就越高 城市工業(yè)現(xiàn)代化程度就越高 二三產(chǎn)業(yè)對(duì)GDP貢獻(xiàn)率 X8 二三產(chǎn)業(yè)從業(yè)人員比重 X9 主要反映二三產(chǎn)業(yè)在城市經(jīng)濟(jì)結(jié)構(gòu)中的比重 城市工業(yè)現(xiàn)代化的過(guò)程是工業(yè)不斷地向農(nóng)業(yè)和服務(wù)業(yè)等其他行業(yè)提供先進(jìn)技術(shù)裝備的過(guò)程 也是推動(dòng)農(nóng)業(yè)生產(chǎn)逐步實(shí)現(xiàn)機(jī)械化的過(guò)程 是農(nóng)村剩余勞動(dòng)力不斷向城市聚集 向第二三產(chǎn)業(yè)轉(zhuǎn)移的過(guò)程 因此一個(gè)城市的二 三產(chǎn)業(yè)越發(fā)達(dá) 在城市經(jīng)濟(jì)結(jié)構(gòu)中的比重越大 說(shuō)明城市的工業(yè)現(xiàn)代化程度越高 綜合因子F2主要反映城市二 三產(chǎn)業(yè)的比重及產(chǎn)業(yè)的集中度 因此 因子F2得分越高城市的工業(yè)化程度越高 2020 3 17 97 2020 3 17 98 4 在圖1對(duì)話框點(diǎn)擊Extraction 按鈕 出現(xiàn)圖2對(duì)話框 選擇主成分提取法 圖2 5 在圖1對(duì)話框點(diǎn)擊Rotation 按鈕 出現(xiàn)圖3對(duì)話框 選擇varimax方法進(jìn)行因子載荷旋轉(zhuǎn) 6 在圖1對(duì)話框點(diǎn)擊ok按鈕 給出計(jì)算結(jié)果 見(jiàn)表1 表2 2020 3 17 99 讓我們來(lái)看一看變量與兩因子之間的相關(guān)性 因子載荷 由表1可以看出 第1因子 Factor1 與原始變量的相關(guān)系數(shù)均高于第二因子與原始變量的相關(guān)系數(shù) 這應(yīng)該是預(yù)料之中的 因?yàn)?兩個(gè)因子是連續(xù)提取 所能解釋的方差漸次遞減 我們可以繪制兩因子載荷的散點(diǎn)圖 在散點(diǎn)圖中每一點(diǎn)代表一個(gè)變量 在圖中可以從任何方向進(jìn)行坐標(biāo)軸旋轉(zhuǎn)而不改變點(diǎn)之間的相對(duì)位置 但坐標(biāo)值會(huì)發(fā)生改變 也就是因子載荷將發(fā)生變化 旋轉(zhuǎn)之后 因子1在工作滿(mǎn)意度調(diào)查項(xiàng)目上具有高載荷 而因子2在家庭滿(mǎn)意度調(diào)查項(xiàng)目上具有高載荷 因此 可以得出這樣的結(jié)論 生活滿(mǎn)意度調(diào)查問(wèn)卷包括兩個(gè)方面 調(diào)查項(xiàng)目也可以分為兩類(lèi) 圖3 2020 3 17 100 因子分析的幾個(gè)相關(guān)概念 1 因子載荷2 變量共同度3 公共因子的方差貢獻(xiàn) 2020 3 17 101 因子分析的基本步驟 因子分析的核心問(wèn)題有兩個(gè) 一是如何構(gòu)造因子變量 二是如何對(duì)因子變量進(jìn)行命名解釋 因此 因子分析的基本步驟和解決思路就是圍繞這兩個(gè)核心問(wèn)題展開(kāi)的 因子分析常常有以下四個(gè)基本步驟 1 確認(rèn)待分析的原有干變量是否適合作因子分析 2 構(gòu)造因子變量 3 利用旋轉(zhuǎn)方法使因子變量更具有可解釋性 4 計(jì)算因子變量得分 2020 3 17 102 巴特利特球度檢驗(yàn) Bartletttestofsphericity 巴特利特球度檢驗(yàn)是以變量的相關(guān)系數(shù)矩陣為出發(fā)點(diǎn) 它的零假設(shè)是Ho 相關(guān)系數(shù)矩陣是一個(gè)單位陣 即相關(guān)系數(shù)矩陣對(duì)角線上的所有元素都為1 所有非對(duì)角線上的元素都為零 巴特利特球度檢驗(yàn)的統(tǒng)計(jì)量根據(jù)相關(guān)系數(shù)矩陣的行列式計(jì)算得到 如果該統(tǒng)計(jì)量值比較大 且其對(duì)應(yīng)的相伴概率值小于用戶(hù)心中的顯著性水平 則應(yīng)拒絕Ho 認(rèn)為相關(guān)系數(shù)矩陣不太可能是單位陣 適合作因子分析 相反 如果該統(tǒng)計(jì)量值比較小 且其對(duì)應(yīng)的相伴概率值大于用戶(hù)心中的顯著性水平 則不能拒絕Ho 可以認(rèn)為相關(guān)系數(shù)矩陣可能是單位陣 不適合作因子分析 2020 3 17 103 反映象相關(guān)矩陣檢驗(yàn) Anti imagecorrelationmatrix 反映象相關(guān)矩陣檢驗(yàn)以變量的偏相關(guān)系數(shù)矩陣為出發(fā)點(diǎn) 將偏相關(guān)系數(shù)矩陣的每個(gè)元素相反 得到反映象相關(guān)陣 不難理解 由于偏相關(guān)系數(shù)是在控制了其他變量對(duì)兩變量影響的條件下計(jì)算出來(lái)的凈相關(guān)系數(shù) 如果變量之間確實(shí)存在的相互重疊傳遞影響 也就是說(shuō) 如果變量中確實(shí)能夠提取出公共因子 那么控制了這些影響后的偏相關(guān)系數(shù)必然很小 因此 如果反映象相關(guān)矩陣中的有些元素的絕對(duì)值較大 則說(shuō)明這些變量可能不適合作因子分析 2020 3 17 104 KMO Kaiser Meyer Olkin KMO統(tǒng)計(jì)量是用于比較變量間簡(jiǎn)單相關(guān)系數(shù)和偏相關(guān)系數(shù)的一個(gè)指標(biāo) 計(jì)算公式如下 式中 rij是變量和變量之間的簡(jiǎn)單相關(guān)系數(shù) pij是它們之間的偏相關(guān)系數(shù) 可見(jiàn) KMO統(tǒng)計(jì)量的取值在0和1之間 當(dāng)所有變量之間的簡(jiǎn)單相關(guān)系數(shù)平方和遠(yuǎn)遠(yuǎn)大于偏相關(guān)系數(shù)平方和時(shí) KMO值接近1 KMO值越接近1 則越適合作因子分析 KMO越小 則越不適合作因子分析 Kaiser給出了一個(gè)KMO的度量標(biāo)準(zhǔn) 0 9以上非常適合 0 8適合 0 7一般 0 6不太適合 0 5以下不適合 2020 3 17 105 SPSS的因子分析案例 2001年10月 我們?yōu)樯轿髯C券的一個(gè)營(yíng)業(yè)部作了一次客戶(hù)滿(mǎn)意度研究 采用因子分析作了分析 調(diào)查的項(xiàng)目包括18項(xiàng)指標(biāo) 基本上可以涵蓋客戶(hù)服務(wù)的各個(gè)方面 這些指標(biāo)包括 技術(shù) 環(huán)境 人員 股市 服務(wù)等方面的多項(xiàng)指標(biāo) 2020 3 17 106 因子分析的過(guò)程 單擊Analyze DataReduction Factor 于是出現(xiàn)下面的窗口 2020 3 17 107 Extraction對(duì)話框 2020 3 17 108 小結(jié) 因子分析是數(shù)據(jù)縮減的一種多元分析方法 它是基于信息損失最小化而提出的一種非常有效的方法 它把眾多的指標(biāo)綜合成幾個(gè)為數(shù)較少的指標(biāo) 這些指標(biāo)即因子指標(biāo) 因子的特點(diǎn)是 第一 因子變量的數(shù)量遠(yuǎn)遠(yuǎn)少于原始變量的個(gè)數(shù) 第二 因子變量并非原始變量的簡(jiǎn)單取舍 而是一種新的綜合 第三 因子變量之間沒(méi)有線性關(guān)系 第四 因子變量具有明明解釋性 可以最大限度地發(fā)揮專(zhuān)業(yè)分析的作用 因子分析就是以最少的信息損失 將眾多的原始變量濃縮成為少數(shù)幾個(gè)因子變量 使得變量具有更高的可解釋性的一種數(shù)據(jù)縮減方法 是多元分析的主干技術(shù)之一 2020 3 17 109 祝大家學(xué)習(xí)愉快- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 主成份與因子分析 成份 因子分析 PPT 課件
鏈接地址:http://m.appdesigncorp.com/p-7250220.html