主成分分析與因子分析詳細(xì)的異同和SPSS軟件.doc
主成分分析與因子分析詳細(xì)的異同和SPSS軟件摘要:主成分分析與因子分析(R-型)應(yīng)用十分廣泛,但一些論文和一些SPSS軟件教科書(見附文)出錯(cuò)。本文指出了這些錯(cuò)誤及其成因,指出了出錯(cuò)造成的危害,從原理上給出了主成分分析與R-型因子分析數(shù)學(xué)模型詳細(xì)的異同,給出了避免出錯(cuò)的方法, 并對(duì)SPSS軟件及有關(guān)教科書提出了一些建議。關(guān)鍵詞:主成分分析;因子分析;SPSS軟件;出錯(cuò);避免設(shè)=(X1 ,XP為標(biāo)準(zhǔn)化隨機(jī)向量(p2),R為相關(guān)系數(shù)矩陣, =(F1 ,Fm 為主成分向量,=(Z1 ,Zm 為因子向量,mp,為方便,因子、因子估計(jì)、因子得分用同一記號(hào)。一、問題的提出與結(jié)論主成分分析與R-型因子分析是多元統(tǒng)計(jì)分析中的兩個(gè)重要方法,同是降維技術(shù),應(yīng)用范圍十分廣泛,但通過流行甚廣的SPSS軟件調(diào)用這兩種方法的過程命令,使用者容易出錯(cuò),是什么原因造成這些錯(cuò)誤呢?主成分分析與R-型因子分析到底有何異同呢?出錯(cuò)會(huì)造成什么危害呢?由于SPSS軟件在經(jīng)濟(jì)、醫(yī)學(xué)、管理等領(lǐng)域中的廣泛流行使用,解決這些問題尤其必要。經(jīng)過對(duì)一些論文和一些SPSS軟件教科書(見附文)仔細(xì)查證分析、比較、研究得出:出錯(cuò)原因:有些使用者和書作者對(duì)主成分分析與R-型因子分析的原理、異同與解題步驟掌握不透,現(xiàn)行SPSS軟件及其書中沒有完善這兩種方法的研究(對(duì)高校師生出錯(cuò)影響很大)。結(jié)論:主成分分析與R-型因子分析有10處主要的不同,致使主成分分析與因子分析的定量綜合評(píng)價(jià)體系不同,混淆在一起是不同定量值交替錯(cuò)誤,綜合評(píng)價(jià)必須分開進(jìn)行。出錯(cuò)帶來的危害:企業(yè)經(jīng)濟(jì)效益、競(jìng)爭(zhēng)力等的綜合評(píng)價(jià)會(huì)帶來誤評(píng),醫(yī)學(xué)診斷會(huì)帶來誤診,決策會(huì)帶來誤斷等。二、一些使用者出現(xiàn)的錯(cuò)誤及其成因分析經(jīng)過仔細(xì)查證分析,有下列錯(cuò)誤:使用主成分分析時(shí)對(duì)主成分分析的原理沒有掌握, 如敘述主成分分析概念出錯(cuò)。主成分F求解出錯(cuò),如=中(為單位矩陣,的意義見表1)。不知主成分F的命名依據(jù),對(duì)主成分F命名出錯(cuò)。解釋變量某Xk 被丟失。對(duì)錯(cuò)誤地進(jìn)行旋轉(zhuǎn)。錯(cuò)誤地進(jìn)行回歸求F。把因子分析法(含沒有旋轉(zhuǎn)過程的)錯(cuò)誤地當(dāng)作主成分分析法。使用因子分析時(shí)對(duì)因子分析的原理沒有掌握, 如將因子分析的思想敘述為主成分分析的思想。不知因子Zi的命名依據(jù),對(duì)因子Zi 的命名出錯(cuò),如用因子得分函數(shù)對(duì)因子Zi進(jìn)行命名。解釋變量某Xk 被丟失。將主成分或因子錯(cuò)誤地表示為(的意義見表1)。不知相關(guān)系數(shù)矩陣特征值與因子貢獻(xiàn)vi的區(qū)別,如綜合因子得分函數(shù)Z綜 =Zi中的vi錯(cuò)誤地取為特征值。使用SPSS軟件時(shí)由于SPSS軟件本身無主成分分析模塊,有些使用者就用因子分析中一些模塊來制造主成分的結(jié)果,出現(xiàn)了混亂的定量過程。由于SPSS軟件教科書中因子分析內(nèi)容處混淆主成分分析與因子分析,致使有些使用者也混淆這兩種方法出錯(cuò)。從以上可看出出錯(cuò)的原因是:有些使用者對(duì)主成分分析與R-型因子分析的原理(原理可見4)、異同與解題步驟掌握不透,現(xiàn)行SPSS軟件及其書中沒有完善這兩種方法的研究。三、主成分分析與R-型因子分析數(shù)學(xué)模型的異同比較這里給出的主成分分析與R-型因子分析的異同,與現(xiàn)行觀點(diǎn)相比,是內(nèi)容與過程上的比較,更透徹、更準(zhǔn)確,是認(rèn)識(shí)的深入。相同之處:主成分分析與R-型因子分析都是對(duì)協(xié)差陣的逼近,都是打算降維解釋數(shù)據(jù)集。具體為指標(biāo)的正向化3, 指標(biāo)的標(biāo)準(zhǔn)化(SPSS軟件自動(dòng)執(zhí)行),通過相關(guān)系數(shù)矩陣判斷變量間的相關(guān)性,求相關(guān)系數(shù)矩陣的特征值和特征向量, 主成分間、因子間線性無關(guān),用累計(jì)貢獻(xiàn)率(%)、變量不出現(xiàn)丟失確定主成分、因子個(gè)數(shù)m, 前m個(gè)主成分與前m個(gè)因子對(duì)X的綜合貢獻(xiàn)相同、是最大化的,命名依據(jù)都是主成分、因子與變量的相關(guān)系數(shù)。不同之處:方差, 最大化方向, 所處的坐標(biāo)系(標(biāo)準(zhǔn)正交性), 應(yīng)用上側(cè)重等見表1。表1 主成分分析與R-型因子分析的不同區(qū)別項(xiàng)目主成分分析數(shù)學(xué)模型:R-型因子分析數(shù)學(xué)模型:表達(dá)式與系數(shù)矩陣=()=(,),是相應(yīng)的特征值和單位特征向量, 0。 +(為特殊因子),因子載荷矩陣m = ()=,=( ,)為初等因子載荷矩陣*(同左)。 因變量方差最大化 Fi依次達(dá)到信息貢獻(xiàn)最大化,Var Fi=。 Zi沒有達(dá)到最大化,Var Zi=1。 矩陣方差最大化旋轉(zhuǎn)無, 旋轉(zhuǎn)后就不是主成分了,因?yàn)閂ar Fi i 。 有,為方差最大正交旋轉(zhuǎn)矩陣,m達(dá)到方差最大化。標(biāo)準(zhǔn)正交性是,即(判據(jù)之一)。非,因?yàn)?。因變量?duì)X的貢獻(xiàn)特征值。vi=,vi,通常> v1 。相關(guān)系數(shù)=。=。命名依據(jù)用(,)式中系數(shù)絕對(duì)值大的對(duì)應(yīng)變量對(duì)Fj命名,有時(shí)命名清晰性低。將的第j列絕對(duì)值大的對(duì)應(yīng)變量歸為Zj一類并由此對(duì)Zj命名,命名清晰性高(精細(xì))。回歸過程無。有,因子得分函數(shù)綜合評(píng)價(jià)函數(shù)及方差F綜 = Fi ,Var F綜 = (,或+, 通常VarF綜 > VarZ綜,即F綜 的取值范圍通常比Z綜 大。Z綜 =Zi, vi(判據(jù)之一) Var Z綜 = ((旋轉(zhuǎn)后因子貢獻(xiàn)從變?yōu)関i,因此權(quán)數(shù)應(yīng)取為vi/),或v1 + v2 +vm 。應(yīng)用上側(cè)重信息貢獻(xiàn)影響力綜合評(píng)價(jià)。成因清晰性的綜合評(píng)價(jià)。注意:主成分分析有時(shí)命名清晰, 此時(shí)既能達(dá)到信息貢獻(xiàn)影響力綜合評(píng)價(jià)效果, 又能達(dá)到成因清晰性的綜合評(píng)價(jià)效果,此時(shí)主成分分析的結(jié)果多數(shù)優(yōu)于因子分析的結(jié)果。以上說明:主成分分析與因子分析定量上不同的顯著性標(biāo)志是方差。事實(shí)上,VarFi >(<) VarZi =1,即Fi 的取值范圍比Zi 的取值范圍大(小);通常VarF綜 > VarZ綜 ,即F綜 的取值范圍比Z綜 的取值范圍大(見表5、8),這些都肯定了主成分分析與因子分析的定量值評(píng)價(jià)體系不同。結(jié)論:主成分分析與因子分析兩種方法方差、最大化方向不同,直接導(dǎo)致主成分值、因子得分值、綜合評(píng)價(jià)值和應(yīng)用側(cè)重上不同,綜合評(píng)價(jià)應(yīng)該分開進(jìn)行, 混淆在一起是不同定量值交替錯(cuò)誤。出錯(cuò)帶來的危害:如在企業(yè)的綜合評(píng)價(jià)中,某行業(yè)通過樣本搜集,可確定出主成分分析、因子分析各自優(yōu)、良、中、一般的定量值范圍,兩種方法確定的定量值范圍肯定不同,如果混用二種方法,那么就會(huì)帶來二種方法定量值的誤用, 甚至誤評(píng),使企業(yè)失去公平競(jìng)爭(zhēng)機(jī)會(huì)。在醫(yī)學(xué)診斷、經(jīng)濟(jì)競(jìng)爭(zhēng)力等綜合評(píng)價(jià)問題中也是如此。檢驗(yàn): 用實(shí)際結(jié)果、經(jīng)驗(yàn)和原始數(shù)據(jù)做聚類分析對(duì)綜合評(píng)價(jià)值進(jìn)行檢驗(yàn)。爭(zhēng)議解決:用原始數(shù)據(jù)做判別分析解決綜合評(píng)價(jià)中的爭(zhēng)議。 四、避免出錯(cuò)的方法步驟1.主成分分析法和SPSS軟件應(yīng)用時(shí)一對(duì)一的正確步驟:指標(biāo)的正向化2。 指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化(SPSS軟件自動(dòng)執(zhí)行)。 指標(biāo)之間的相關(guān)性判定: 用SPSS軟件中表“Correlation Matrix(相關(guān)系數(shù)矩陣)”判定。確定主成分個(gè)數(shù)m:用SPSS軟件中表“Total Variance Explained(總方差解釋)” 的主成分方差累計(jì)貢獻(xiàn)率%、結(jié)合表“Component Matrix(初始因子載荷陣)”中變量不出現(xiàn)丟失確定主成分個(gè)數(shù)m。 主成分Fi表達(dá)式(這是SPSS軟件及其教科書中沒完善的地方):將SPSS軟件中表“Component Matrix”中的第i列向量除以第i個(gè)特征根的開根后就得到第i個(gè)主成分函數(shù)Fi的系數(shù)(在“transform ->compute”中進(jìn)行計(jì)算),由此寫出主成分Fi表達(dá)式。用的=檢驗(yàn)之。主成分Fi命名:用SPSS軟件中表“Component Matrix”中的第i列中系數(shù)絕對(duì)值大的對(duì)應(yīng)變量對(duì)Fi命名(有時(shí)命名清晰性低)。主成分與綜合主成分(評(píng)價(jià))值(這是SPSS軟件及其教科書中沒完善的地方):綜合主成分(評(píng)價(jià))公式 F綜 = Fi (在“transform ->compute”中進(jìn)行計(jì)算3), 在SPSS軟件中表“Total Variance Explained”下“Initial Eigrnvalues(主成分方差)”欄的“% of Variance(方差率)”中。Var F綜 = =(。檢驗(yàn):綜合主成分(評(píng)價(jià))值用實(shí)際結(jié)果、經(jīng)驗(yàn)與原始數(shù)據(jù)做聚類分析進(jìn)行檢驗(yàn)(對(duì)有爭(zhēng)議的結(jié)果,可用原始數(shù)據(jù)做判別分析解決爭(zhēng)議)。綜合實(shí)證分析。2. 因子分析法和SPSS軟件應(yīng)用時(shí)一對(duì)一的正確步驟:步驟同主成分分析步驟。確定因子個(gè)數(shù)m:用SPSS軟件中表“Total Variance Explained”特征值累計(jì)貢獻(xiàn)率%、結(jié)合表“Rotated Component Matrix(旋轉(zhuǎn)后因子載荷陣)”中變量不出現(xiàn)丟失確定因子個(gè)數(shù)m。求因子載荷矩陣: SPSS軟件中表“Rotated Component Matrix”。因子Zi的命名:將SPSS軟件中表“Rotated Component Matrix”因子載荷矩陣的第i列絕對(duì)值大的對(duì)應(yīng)變量歸為Zi一類, 并由此對(duì)Zi命名(命名清晰性高)。 回歸求因子得分函數(shù)Zi表達(dá)式:SPSS軟件中表“Component Score Coefficient Matrix(因子得分系數(shù)矩陣)”的第i列向量為第i個(gè)因子得分函數(shù)Zi的系數(shù),由此寫出因子得分函數(shù)Zi表達(dá)式。求因子得分值與綜合因子得分(評(píng)價(jià))值:綜合因子得分(評(píng)價(jià))公式Z綜=Zi (在“transform ->compute”中進(jìn)行計(jì)算),在SPSS軟件中表“Total Variance Explained”下“Rotation Sums of Squared Loadings(旋轉(zhuǎn)后因子對(duì)X的方差)”欄的“% of Variance”中。用vi=檢驗(yàn), 通常> v1 ,Var Z綜 = (。檢驗(yàn):綜合評(píng)價(jià)值用實(shí)際結(jié)果、經(jīng)驗(yàn)與原始數(shù)據(jù)做聚類分析進(jìn)行檢驗(yàn)(對(duì)有爭(zhēng)議的結(jié)果,可用原始數(shù)據(jù)做判別分析解決爭(zhēng)議)。綜合實(shí)證分析。 五、對(duì)SPSS軟件及其書中的建議應(yīng)單列主成分分析這一重要內(nèi)容。通過兩種方法與軟件相應(yīng)結(jié)果一對(duì)一的步驟化, 完善軟件研究和教科書的正確編寫。因子分析中Component(成分)應(yīng)寫為factor(因子)。因子分析中將不應(yīng)有“主成分分析”“主成分”的用詞和內(nèi)容刪除。由于因子分析中旋轉(zhuǎn)后的因子貢獻(xiàn)與相關(guān)系數(shù)矩陣的特征值不等,應(yīng)將兩者區(qū)分使用。筆者對(duì)SPSS軟件的教科書有一分詳細(xì)的更正資料,需要者可來涵。六、應(yīng)用例子。2002年16家上市公司4項(xiàng)指標(biāo)的數(shù)據(jù)5見表2,定量綜合贏利能力分析如下: 表2 公司銷售凈利率(X1)資產(chǎn)凈利率(X2)凈資產(chǎn)收益率(X3)銷售毛利率(X4)歌華有線五糧液 用友軟件太太藥業(yè)浙江陽光煙臺(tái)萬華方正科技紅河光明貴州茅臺(tái)中鐵二局紅星發(fā)展伊利股份青島海爾湖北宜化雅戈?duì)?#160; 福建南紙43.3117.1121.1129.5511.0017.632.7329.1120.293.9922.654.435.407.0619.827.267.3912.136.038.628.4113.864.225.449.484.6411.137.308.902.7910.532.998.7317.297.0010.1311.8315.4117.166.0912.979.3514.314.3612.535.2418.556.9954.8944.2589.377325.2236.449.9656.2682.2313.0450.5129.0465.519.7942.0422.721. 主成分分析的做法用SPSS軟件輸入數(shù)據(jù),先對(duì)四個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,并把標(biāo)準(zhǔn)化后的數(shù)據(jù)保存在數(shù)據(jù)編輯窗口中然后利用SPSS的factor過程對(duì)數(shù)據(jù)進(jìn)行主成分分析(指標(biāo)之間的相關(guān)性判定略)。得出的相關(guān)系數(shù)矩陣的特征根及方差貢獻(xiàn)率見表3,由于前2個(gè)主成分貢獻(xiàn)率85%、結(jié)合表4中變量不出現(xiàn)丟失,所以提取的主成分個(gè)數(shù)m=2。 表3 主成分方差 表4 初始因子載荷陣 初始因子載荷陣見表4,表4還不能得出主成分的表達(dá)式,還需要把表4中的每列的系數(shù)除以其相應(yīng)的特征根的開根后才能得到主成分系數(shù)向量,于是主成分函數(shù)的表達(dá)式為: F1= 0.531zx1+0.594zx2+0.261zx3+0.546zx4 F2= -0.412zx1+0.404zx2+0.720zx3-0.383zx4 (其中,zxi為標(biāo)準(zhǔn)化后的數(shù)據(jù))表4中每列表示相應(yīng)主成分與對(duì)應(yīng)變量的相關(guān)系數(shù)4,第一主成分F1反映的是銷售凈利率、資產(chǎn)凈利率、銷售毛利率的信息,而第二主成分F2則反映的是凈資產(chǎn)收益率的信息。最后利用主成分函數(shù)、綜合主成分公式:F=0.47429F1+0.3874F2求出16家上市公司的主成分值、綜合主成分(贏利能力)值見表5。表5. 主成分、綜合主成分(贏利能力)值 公司F1F2F煙臺(tái)萬華五糧液雅戈?duì)柤t星發(fā)展貴州茅臺(tái)青島海爾太太藥業(yè)伊利股份浙江陽光歌華有線方正科技用友軟件紅河光明中鐵二局福建南紙湖北宜化1.211.161.031.201.410.211.31-0.83-0.561.23-1.720.620.09-2.00-2.07-2.291.461.461.410.53-0.310.35-1.081.060.60-1.691.52-1.89-1.880.15-0.72-0.991.141.121.030.770.550.240.200.02-0.03-0.07-0.23-0.44-0.69-0.89-1.26-1.47 2. 因子分析法的做法 表8. 因子得分、綜合因子得分(贏利能力)值 公司Z1Z2Z煙臺(tái)萬華五糧液貴州茅臺(tái)紅星發(fā)展雅戈?duì)柼帢I(yè)歌華有線用友軟件青島海爾紅河光明浙江陽光伊利股份方正科技中鐵二局福建南紙湖北宜化0.030.000.980.46-0.061.281.521.25-0.040.93-0.61-0.95-1.73-1.25-0.89-0.891.471.450.40.851.36-0.16-0.58-0.970.32-1.190.150.350.26-0.74-1.35-1.610.6260.6050.6010.5590.5410.5040.4320.1500.116-0.084-0.207-0.294-0.658-0.866-0.956-1.069用SPSS軟件輸入數(shù)據(jù),先對(duì)四個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,并把標(biāo)準(zhǔn)化后的數(shù)據(jù)保存在數(shù)據(jù)編輯窗口中然后利用SPSS的factor過程對(duì)數(shù)據(jù)進(jìn)行因子分析(指標(biāo)之間的相關(guān)性判定略)。得出的相關(guān)系數(shù)矩陣的特征根及方差貢獻(xiàn)率見表3,由于前2個(gè)因子貢獻(xiàn)率85%、結(jié)合表7中變量不 表6 旋轉(zhuǎn)后因子對(duì)X的方差 表7 旋轉(zhuǎn)后的因子載荷陣 出現(xiàn)丟失,所以提取的因子個(gè)數(shù)m=2。對(duì)主成分法提取的初始因子載荷陣(見表4)進(jìn)行varimax (方差最大化正交旋轉(zhuǎn)), 旋轉(zhuǎn)后的因子貢獻(xiàn)及貢獻(xiàn)率見表6。旋轉(zhuǎn)后的因子載荷陣見表7,依據(jù)表7,因子Z1看成是反映銷售凈利率和銷售毛利率的銷售能力指標(biāo),因子Z2看成是反映資產(chǎn)凈利率和凈資產(chǎn)收益率的資產(chǎn)獲利能力指標(biāo)。利用regression(回歸法)求得各個(gè)單因子得分函數(shù): Z1= 0.506zx1+0.161zx2-0.183zx3+0.502zx4 Z2= -0.045zx1+0.515zx2+0.581zx3-0.02zx4 (其中,zxi為標(biāo)準(zhǔn)化后的數(shù)據(jù))利用單因子得分函數(shù)、綜合因子得分公式:Z=0.44486Z 1+0.41.684Z2計(jì)算出16家上市公司因子得分值、綜合因子得分(贏利能力)值見表8: 有關(guān)同仁提過建議,在此表示感謝。使用本論文成果開發(fā)的軟件產(chǎn)品,開發(fā)商須征得本論文作者的同意。