主成分分析與因子分析詳細的異同和SPSS軟件.doc
《主成分分析與因子分析詳細的異同和SPSS軟件.doc》由會員分享,可在線閱讀,更多相關(guān)《主成分分析與因子分析詳細的異同和SPSS軟件.doc(11頁珍藏版)》請在裝配圖網(wǎng)上搜索。
主成分分析與因子分析詳細的異同和SPSS軟件 摘要:主成分分析與因子分析(R-型)應(yīng)用十分廣泛,但一些論文和一些SPSS軟件教科書(見附文)出錯。本文指出了這些錯誤及其成因,指出了出錯造成的危害,從原理上給出了主成分分析與R-型因子分析數(shù)學(xué)模型詳細的異同,給出了避免出錯的方法, 并對SPSS軟件及有關(guān)教科書提出了一些建議。 關(guān)鍵詞:主成分分析;因子分析;SPSS軟件;出錯;避免 設(shè)=(X1 ,…,XP為標(biāo)準(zhǔn)化隨機向量(p≥2),R為相關(guān)系數(shù)矩陣, =(F1 ,…,Fm 為主成分向量,=(Z1 ,…,Zm 為因子向量,m≤p,為方便,因子、因子估計、因子得分用同一記號。 一、問題的提出與結(jié)論 主成分分析與R-型因子分析是多元統(tǒng)計分析中的兩個重要方法,同是降維技術(shù),應(yīng)用范圍十分廣泛,但通過流行甚廣的SPSS軟件調(diào)用這兩種方法的過程命令,使用者容易出錯,是什么原因造成這些錯誤呢?主成分分析與R-型因子分析到底有何異同呢?出錯會造成什么危害呢? 由于SPSS軟件在經(jīng)濟、醫(yī)學(xué)、管理等領(lǐng)域中的廣泛流行使用,解決這些問題尤其必要。 經(jīng)過對一些論文和一些SPSS軟件教科書(見附文)仔細查證分析、比較、研究得出: 出錯原因:有些使用者和書作者對主成分分析與R-型因子分析的原理、異同與解題步驟掌握不透,現(xiàn)行SPSS軟件及其書中沒有完善這兩種方法的研究(對高校師生出錯影響很大)。 結(jié)論:主成分分析與R-型因子分析有10處主要的不同,致使主成分分析與因子分析的定量綜合評價體系不同,混淆在一起是不同定量值交替錯誤,綜合評價必須分開進行。 出錯帶來的危害:企業(yè)經(jīng)濟效益、競爭力等的綜合評價會帶來誤評,醫(yī)學(xué)診斷會帶來誤診,決策會帶來誤斷等。 二、一些使用者出現(xiàn)的錯誤及其成因分析 經(jīng)過仔細查證分析,有下列錯誤: 使用主成分分析時①對主成分分析的原理沒有掌握, 如敘述主成分分析概念出錯。②主成分F求解出錯,如=中(為單位矩陣,的意義見表1)。③不知主成分F的命名依據(jù),對主成分F命名出錯。④解釋變量某Xk 被丟失。⑤對錯誤地進行旋轉(zhuǎn)。⑥錯誤地進行回歸求F。⑦把因子分析法(含沒有旋轉(zhuǎn)過程的)錯誤地當(dāng)作主成分分析法。 使用因子分析時①對因子分析的原理沒有掌握, 如將因子分析的思想敘述為主成分分析的思想。②不知因子Zi的命名依據(jù),對因子Zi 的命名出錯,如用因子得分函數(shù)對因子Zi進行命名。③解釋變量某Xk 被丟失。④將主成分或因子錯誤地表示為(的意義見表1)。⑤不知相關(guān)系數(shù)矩陣特征值與因子貢獻vi的區(qū)別,如綜合因子得分函數(shù)Z綜 =Zi中的vi錯誤地取為特征值。使用SPSS軟件時①由于SPSS軟件本身無主成分分析模塊,有些使用者就用因子分析中一些模塊來制造主成分的結(jié)果,出現(xiàn)了混亂的定量過程。②由于SPSS軟件教科書中因子分析內(nèi)容處混淆主成分分析與因子分析,致使有些使用者也混淆這兩種方法出錯。 從以上可看出出錯的原因是:有些使用者對主成分分析與R-型因子分析的原理(原理可見[4])、異同與解題步驟掌握不透,現(xiàn)行SPSS軟件及其書中沒有完善這兩種方法的研究。 三、主成分分析與R-型因子分析數(shù)學(xué)模型的異同比較 這里給出的主成分分析與R-型因子分析的異同,與現(xiàn)行觀點相比,是內(nèi)容與過程上的比較,更透徹、更準(zhǔn)確,是認識的深入。 相同之處:主成分分析與R-型因子分析都是對協(xié)差陣的逼近,都是打算降維解釋數(shù)據(jù)集。具體為指標(biāo)的正向化[3], 指標(biāo)的標(biāo)準(zhǔn)化(SPSS軟件自動執(zhí)行),通過相關(guān)系數(shù)矩陣判斷變量間的相關(guān)性,求相關(guān)系數(shù)矩陣的特征值和特征向量, 主成分間、因子間線性無關(guān),用累計貢獻率(%)、變量不出現(xiàn)丟失確定主成分、因子個數(shù)m, 前m個主成分與前m個因子對X的綜合貢獻相同、是最大化的,命名依據(jù)都是主成分、因子與變量的相關(guān)系數(shù)。 不同之處:方差, 最大化方向, 所處的坐標(biāo)系(標(biāo)準(zhǔn)正交性), 應(yīng)用上側(cè)重等見表1。 表1??????????????????????? 主成分分析與R-型因子分析的不同 區(qū)別項目 主成分分析數(shù)學(xué)模型: R-型因子分析數(shù)學(xué)模型: 表達式與系數(shù)矩陣 =()=(…,),,是相應(yīng)的特征值和單位特征向量,≥…≥≥ 0。 +(為特殊因子), 因子載荷矩陣m = ()=, =( …,) 為初等因子載荷矩陣*(同左)。 因變量方差最大化??? Fi依次達到信息貢獻最大化, Var Fi=。?? ?????????? Zi沒有達到最大化,Var Zi=1。 矩陣方差最大化旋轉(zhuǎn) 無, 旋轉(zhuǎn)后就不是主成分了,因為 Var Fi ≠λi 。 有,為方差最大正交旋轉(zhuǎn)矩陣,m達到方差最大化。 標(biāo)準(zhǔn)正交性 是,即(判據(jù)之一)。 非,因為。 因變量對X 的貢獻 特征值。 vi=,vi,通常> v1 。 相關(guān)系數(shù) =。 =。 命名依據(jù) 用(,…,)式中系數(shù)絕對值大的對應(yīng)變量對Fj命名,有時命名清晰性低。 將的第j列絕對值大的對應(yīng)變量歸為Zj一類并由此對Zj命名,命名清晰性高(精細)。 回歸過程 無。 有,因子得分函數(shù) 綜合評價函數(shù)及方差 F綜 = Fi , Var F綜 = (,或 …+, 通常VarF綜 > VarZ綜, 即F綜 的取值范圍通常比Z綜 大。 Z綜 =Zi, vi(判據(jù)之一) Var Z綜 = ((旋轉(zhuǎn)后因子貢獻從變?yōu)関i,因此權(quán)數(shù)應(yīng)取為vi/), 或v1 + v2 +…+vm 。 應(yīng)用上側(cè)重 信息貢獻影響力綜合評價。 成因清晰性的綜合評價。 注意:主成分分析有時命名清晰, 此時既能達到信息貢獻影響力綜合評價效果, 又能達到成因清晰性的綜合評價效果,此時主成分分析的結(jié)果多數(shù)優(yōu)于因子分析的結(jié)果。 以上說明:主成分分析與因子分析定量上不同的顯著性標(biāo)志是方差。事實上,VarFi >(<) VarZi =1,即Fi 的取值范圍比Zi 的取值范圍大(小);通常VarF綜 > VarZ綜 ,即F綜 的取值范圍比Z綜 的取值范圍大(見表5、8),這些都肯定了主成分分析與因子分析的定量值評價體系不同。 結(jié)論:主成分分析與因子分析兩種方法方差、最大化方向不同,直接導(dǎo)致主成分值、因子得分值、綜合評價值和應(yīng)用側(cè)重上不同,綜合評價應(yīng)該分開進行, 混淆在一起是不同定量值交替錯誤。 出錯帶來的危害:如在企業(yè)的綜合評價中,某行業(yè)通過樣本搜集,可確定出主成分分析、因子分析各自優(yōu)、良、中、一般的定量值范圍,兩種方法確定的定量值范圍肯定不同,如果混用二種方法,那么就會帶來二種方法定量值的誤用, 甚至誤評,使企業(yè)失去公平競爭機會。在醫(yī)學(xué)診斷、經(jīng)濟競爭力等綜合評價問題中也是如此。 檢驗: 用實際結(jié)果、經(jīng)驗和原始數(shù)據(jù)做聚類分析對綜合評價值進行檢驗。 爭議解決:用原始數(shù)據(jù)做判別分析解決綜合評價中的爭議。 ? 四、避免出錯的方法步驟 1.主成分分析法和SPSS軟件應(yīng)用時一對一的正確步驟: ①指標(biāo)的正向化[2]。 ②指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化(SPSS軟件自動執(zhí)行)。 ③指標(biāo)之間的相關(guān)性判定: 用SPSS軟件中表“Correlation Matrix(相關(guān)系數(shù)矩陣)”判定。 ④確定主成分個數(shù)m:用SPSS軟件中表“Total Variance Explained(總方差解釋)” 的主成分方差累計貢獻率%、結(jié)合表“Component Matrix(初始因子載荷陣)”中變量不出現(xiàn)丟失確定主成分個數(shù)m。?? ⑤主成分Fi表達式(這是SPSS軟件及其教科書中沒完善的地方):將SPSS軟件中表“Component Matrix”中的第i列向量除以第i個特征根的開根后就得到第i個主成分函數(shù)Fi的系數(shù)(在“transform -->compute”中進行計算),由此寫出主成分Fi表達式。用的=檢驗之。 ⑥主成分Fi命名:用SPSS軟件中表“Component Matrix”中的第i列中系數(shù)絕對值大的對應(yīng)變量對Fi命名(有時命名清晰性低)。 ⑦主成分與綜合主成分(評價)值(這是SPSS軟件及其教科書中沒完善的地方):綜合主成分(評價)公式 F綜 = Fi (在“transform -->compute”中進行計算[3]), 在SPSS軟件中表“Total Variance Explained”下“Initial Eigrnvalues(主成分方差)”欄的 “% of Variance(方差率)”中。Var F綜 = =(。 ⑧檢驗:綜合主成分(評價)值用實際結(jié)果、經(jīng)驗與原始數(shù)據(jù)做聚類分析進行檢驗(對有爭議的結(jié)果,可用原始數(shù)據(jù)做判別分析解決爭議)。 ⑨綜合實證分析。 2. 因子分析法和SPSS軟件應(yīng)用時一對一的正確步驟: ①∽③步驟同主成分分析步驟。 ④確定因子個數(shù)m:用SPSS軟件中表“Total Variance Explained”特征值累計貢獻率%、結(jié)合表“Rotated Component Matrix(旋轉(zhuǎn)后因子載荷陣)”中變量不出現(xiàn)丟失確定因子個數(shù)m。 ⑤求因子載荷矩陣: SPSS軟件中表“Rotated Component Matrix”。 ⑥因子Zi的命名:將SPSS軟件中表“Rotated Component Matrix”因子載荷矩陣的第i列絕對值大的對應(yīng)變量歸為Zi一類, 并由此對Zi命名(命名清晰性高)。 ⑦回歸求因子得分函數(shù)Zi表達式:SPSS軟件中表“Component Score Coefficient Matrix(因子得分系數(shù)矩陣)”的第i列向量為第i個因子得分函數(shù)Zi的系數(shù),由此寫出因子得分函數(shù)Zi表達式。 ⑧求因子得分值與綜合因子得分(評價)值:綜合因子得分(評價)公式Z綜=Zi (在“transform -->compute”中進行計算),在SPSS軟件中表“Total Variance Explained”下“Rotation Sums of Squared Loadings(旋轉(zhuǎn)后因子對X的方差)”欄的“% of Variance”中。用vi=檢驗, 通常> v1 ,Var Z綜 = (。 ⑨檢驗:綜合評價值用實際結(jié)果、經(jīng)驗與原始數(shù)據(jù)做聚類分析進行檢驗(對有爭議的結(jié)果,可用原始數(shù)據(jù)做判別分析解決爭議)。 ⑩綜合實證分析。 ? 五、對SPSS軟件及其書中的建議 ①應(yīng)單列主成分分析這一重要內(nèi)容。②通過兩種方法與軟件相應(yīng)結(jié)果一對一的步驟化, 完善軟件研究和教科書的正確編寫。③因子分析中Component(成分)應(yīng)寫為factor(因子)。④因子分析中將不應(yīng)有“主成分分析”“主成分”的用詞和內(nèi)容刪除。⑤由于因子分析中旋轉(zhuǎn)后的因子貢獻與相關(guān)系數(shù)矩陣的特征值不等,應(yīng)將兩者區(qū)分使用。⑥筆者對SPSS軟件的教科書有一分詳細的更正資料,需要者可來涵。 六、應(yīng)用例子。 2002年16家上市公司4項指標(biāo)的數(shù)據(jù)[5]見表2,定量綜合贏利能力分析如下: 表2 公司 銷售凈利率 (X1) 資產(chǎn)凈利率 (X2) 凈資產(chǎn)收益率 (X3) 銷售毛利率 (X4) 歌華有線 五糧液? 用友軟件 太太藥業(yè) 浙江陽光 煙臺萬華 方正科技 紅河光明 貴州茅臺 中鐵二局 紅星發(fā)展 伊利股份 青島海爾 湖北宜化 雅戈爾? 福建南紙 43.31 17.11 21.11 29.55 11.00 17.63 2.73 29.11 20.29 3.99 22.65 4.43 5.40 7.06 19.82 7.26 7.39 12.13 6.03 8.62 8.41 13.86 4.22 5.44 9.48 4.64 11.13 7.30 8.90 2.79 10.53 2.99 8.73 17.29 7.00 10.13 11.83 15.41 17.16 6.09 12.97 9.35 14.3 14.36 12.53 5.24 18.55 6.99 54.89 44.25 89.37 73 25.22 36.44 9.96 56.26 82.23 13.04 50.51 29.04 65.5 19.79 42.04 22.72 1. 主成分分析的做法 用SPSS軟件輸入數(shù)據(jù),先對四個指標(biāo)進行標(biāo)準(zhǔn)化處理,并把標(biāo)準(zhǔn)化后的數(shù)據(jù)保存在數(shù)據(jù)編輯窗口中然后利用SPSS的factor過程對數(shù)據(jù)進行主成分分析(指標(biāo)之間的相關(guān)性判定略)。得出的相關(guān)系數(shù)矩陣的特征根及方差貢獻率見表3,由于前2個主成分貢獻率≥85%、結(jié)合表4中變量不出現(xiàn)丟失,所以提取的主成分個數(shù)m=2。 ? 表3??主成分方差????????????????????????????????????????????????? ??????表4??初始因子載荷陣 ? 初始因子載荷陣見表4,表4還不能得出主成分的表達式,還需要把表4中的每列的系數(shù)除以其相應(yīng)的特征根的開根后才能得到主成分系數(shù)向量,于是主成分函數(shù)的表達式為: ?????????????????? F1= 0.531zx1+0.594zx2+0.261zx3+0.546zx4 ?????????????????? F2= -0.412zx1+0.404zx2+0.720zx3-0.383zx4?? (其中,zxi為標(biāo)準(zhǔn)化后的數(shù)據(jù)) 表4中每列表示相應(yīng)主成分與對應(yīng)變量的相關(guān)系數(shù)[4],第一主成分F1反映的是銷售凈利率、資產(chǎn)凈利率、銷售毛利率的信息,而第二主成分F2則反映的是凈資產(chǎn)收益率的信息。 最后利用主成分函數(shù)、綜合主成分公式:F=0.47429F1+0.3874F2 求出16家上市公司的主成分值、綜合主成分(贏利能力)值見表5。 表5. 主成分、綜合主成分(贏利能力)值????????????????????????????????????????????????????? ? 公司 F1 F2 F 煙臺萬華 五糧液 雅戈爾 紅星發(fā)展 貴州茅臺 青島海爾 太太藥業(yè) 伊利股份 浙江陽光 歌華有線 方正科技 用友軟件 紅河光明 中鐵二局 福建南紙 湖北宜化 1.21 1.16 1.03 1.20 1.41 0.21 1.31 -0.83 -0.56 1.23 -1.72 0.62 0.09 -2.00 -2.07 -2.29 1.46 1.46 1.41 0.53 -0.31 0.35 -1.08 1.06 0.60 -1.69 1.52 -1.89 -1.88 0.15 -0.72 -0.99 1.14 1.12 1.03 0.77 0.55 0.24 0.20 0.02 -0.03 -0.07 -0.23 -0.44 -0.69 -0.89 -1.26 -1.47 ???????????????????????? ????????????????????? ?2. 因子分析法的做法????????????? 表8. 因子得分、綜合因子得分(贏利能力)值 ??? 公司 Z1 Z2 Z 煙臺萬華 五糧液 貴州茅臺 紅星發(fā)展 雅戈爾 太太藥業(yè) 歌華有線 用友軟件 青島海爾 紅河光明 浙江陽光 伊利股份 方正科技 中鐵二局 福建南紙 湖北宜化 0.03 0.00 0.98 0.46 -0.06 1.28 1.52 1.25 -0.04 0.93 -0.61 -0.95 -1.73 -1.25 -0.89 -0.89 1.47 1.45 0.4 0.85 1.36 -0.16 -0.58 -0.97 0.32 -1.19 0.15 0.35 0.26 -0.74 -1.35 -1.61 0.626 0.605 0.601 0.559 0.541 0.504 0.432 0.150 0.116 -0.084 -0.207 -0.294 -0.658 -0.866 -0.956 -1.069 用SPSS軟件輸入數(shù)據(jù),先對四個指標(biāo)進行標(biāo)準(zhǔn)化處理,并把標(biāo)準(zhǔn)化后的數(shù)據(jù)保存在數(shù)據(jù)編輯窗口中然后利用SPSS的factor過程對數(shù)據(jù)進行因子分析(指標(biāo)之間的相關(guān)性判定略)。得出的相關(guān)系數(shù)矩陣的特征根及方差貢獻率見表3,由于前2個因子貢獻率≥85%、結(jié)合表7中變量不 ? 表6??旋轉(zhuǎn)后因子對X的方差????????????????????????? ? ?? ?表7? ?旋轉(zhuǎn)后的因子載荷陣 出現(xiàn)丟失,所以提取的因子個數(shù)m=2。 對主成分法提取的初始因子載荷陣(見表4)進行varimax (方差最大化正交旋轉(zhuǎn)), 旋轉(zhuǎn)后的因子貢獻及貢獻率見表6。旋轉(zhuǎn)后的因子載荷陣見表7,依據(jù)表7,因子Z1看成 是反映銷售凈利率和銷售毛利率的銷售能力指標(biāo),因子Z2看成是反映資產(chǎn)凈利率和凈資產(chǎn)收益率的資產(chǎn)獲利能力指標(biāo)。 利用regression(回歸法)求得各個單因子得分函數(shù): ?????????????? Z1= 0.506zx1+0.161zx2-0.183zx3+0.502zx4 ?????????????? Z2= -0.045zx1+0.515zx2+0.581zx3-0.02zx4?? (其中,zxi為標(biāo)準(zhǔn)化后的數(shù)據(jù)) 利用單因子得分函數(shù)、綜合因子得分公式: Z=0.44486Z 1+0.41.684Z2 計算出16家上市公司因子得分值、綜合因子得分(贏利能力)值見表8: ? 有關(guān)同仁提過建議,在此表示感謝。 使用本論文成果開發(fā)的軟件產(chǎn)品,開發(fā)商須征得本論文作者的同意。 ?- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
32 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 成分 分析 因子分析 詳細 異同 SPSS 軟件
鏈接地址:http://m.appdesigncorp.com/p-1579335.html