SPSS數據分析教程-13-主成分分析與因子分析-sp.ppt
《SPSS數據分析教程-13-主成分分析與因子分析-sp.ppt》由會員分享,可在線閱讀,更多相關《SPSS數據分析教程-13-主成分分析與因子分析-sp.ppt(31頁珍藏版)》請在裝配圖網上搜索。
第13章 主成分分析與因子分析,介紹: 1、主成分分析與因子分析的概念 2、主成分分析與因子分析的過程,主成分分析與因子分析的概念,需要與可能:在各個領域的科學研究中,往往需要對反映事物的多個變量進行大量的觀測,收集大量數據以便進行分析尋找規(guī)律。多變量大樣本無疑會為科學研究提供豐富的信息,但也在一定程度上增加了數據采集的工作量,更重要的是在大多數情況下,許多變量之間可能存在相關性而增加了問題分析的復雜性,同時對分析帶來不便。如果分別分析每個指標,分析又可能是孤立的,而不是綜合的。盲目減少指標會損失很多信息,容易產生錯誤的結論。因此需要找到一個合理的方法,減少分析指標的同時,盡量減少原指標包含信息的損失,對所收集的資料作全面的分析。由于各變量間存在一定的相關關系,因此有可能用較少的綜合指標分別綜合存在于各變量中的各類信息。主成分分析與因子分析就是這樣一種降維的方法。 主成分分析與因子分析是將多個實測變量轉換為少數幾個不相關的綜合指標的多元統(tǒng)計分析方法 直線綜合指標往往是不能直接觀測到的,但它更能反映事物的本質。因此在醫(yī)學、心理學、經濟學等科學領域以及社會化生產中得到廣泛的應用。,主成分分析與因子分析的概念(續(xù)),由于實測的變量間存在一定的相關關系,因此有可能用較少數的綜合指標分別綜合存在于各變量中的各類信息,而綜合指標之間彼此不相關,即各指標代表的信息不重疊。綜合指標稱為因子或主成分(提取幾個因子),一般有兩種方法: 特征值1 累計貢獻率0.8,主成分分析實例P316不旋轉,使用默認值進行最簡單的主成分分析(默認為主成分分析法:Principal components) 例子P316:對美國洛杉磯12個人口調查區(qū)的5個經濟學變量的數據進行因子分析,data13-01a,數據見下一張幻燈片) 菜單:AnalyzeData ReductionFactor Variables :pop,School,employ,Services, house 其他使用默認值(主成分分析法Principal components,選取特征值1,不旋轉) 比較有用的結果:兩個主成分(因子)f1,f2及因子載荷矩陣(Component Matrix),根據該表可以寫出每個原始變量(標準化值)的因子表達式: Pop0.581f1 + 0.806f2 School 0.767f1 - 0.545f2 employ 0.672f1 + 0.726f2 Services 0.932f1 - 0.104f2 house 0.791f1 - 0.558f2 每個原始變量都可以是5個因子的線性組合,提取兩個因子f1和f2,可以概括原始變量所包含信息的93.4%。 f1和f2前的系數表示該因子對變量的影響程度,也稱為變量在因子上的載荷。 但每個因子(主成分)的系數(載荷)沒有很明顯的差別,所以不好命名。因此為了對因子進行命名,可以進行旋轉,使系數向0和1兩極分化,這就要使用選擇項。,洛衫磯對12個人口調查區(qū)的數據,編號 總人口 中等學校平均 總雇員數 專業(yè)服務 中等房價 no pop 校齡School employ 項目數Services house 1 5700 12.8 2500 270 25000 2 1000 10.9 600 10 10000 3 3400 8.8 1000 10 9000 4 3800 13.6 1700 140 25000 5 4000 12.8 1600 140 25000 6 8200 8.3 2600 60 12000 7 1200 11.4 400 10 16000 8 9100 11.5 3300 60 14000 9 9900 12.5 3400 180 18000 10 9600 13.7 3600 390 25000 11 9600 9.6 3300 80 12000 12 9400 11.4 4000 100 13000,因子分析實例322旋轉Rotation,由于系數沒有很明顯的差別,所以要進行旋轉(Rotation:method一般用Varimax方差最大旋轉),使系數向0和1兩極分化, 例子同上 菜單:AnalyzeData ReductionFactor Variables :pop,School,employ,Services, house Extraction:使用默認值( method:Principal components,選取特征值1) Rotation:method選Varimax Score:Save as variables 和Display factor score Coefficient matrix 比較有用的結果:兩個主成分(因子)f1,f2及旋轉后的因子載荷矩陣(Rotated Component Matrix) ,根據該表可以寫出每個原始變量(標準化值)的因子表達式: Pop 0.01602 f1 + 0.9946f2 School 0 .941f1 - 0.00882f2 employ 0.137f1 + 0.98f2 Services 0.825f1 +0.447f2 house 0.968f1 - 0.00605f2 第一主因子對中等學校平均校齡,專業(yè)服務項目,中等房價有絕對值較大的載荷(代表一般社會福利-福利條件因子); 而第二主因子對總人口和總雇員數有較大的載荷(代表人口-人口因子). P326 比較有用的結果:因子得分fac1_1, fac2_1。其計算公式:因子得分系數和原始變量的標準化值的乘積之和(P326)。然后可以利用因子得分進行聚類p327(Analyze-Classify-Hierarchical Cluster)。,主成分分析實例P330 不旋轉 市場研究中的顧客偏好分析,在市場研究中,常常要求分析顧客的偏好和當前市場的產品與顧客偏好之間的差別,從而找出新產品開發(fā)的方向。顧客偏好分析時常用到主成分分析方法(因子沒有旋轉)。 例子P330:數據來自SAS公司,1980年一個汽車制造商在競爭對手中選擇了17種車型,訪問了25個顧客,要求他們根據自己的偏好對17種車型打分。打分范圍09.9, 9.9表示最高程度的偏好。data13-02a(1725:17個case,25個變量V1-V25) 菜單:AnalyzeData ReductionFactor Variables :V1-V25 Extraction:method:Principal components Extract:Number of factors:3 要三個主成分 Score:Save as variables 比較有用的結果:3個主成分及其因子載荷矩陣(Component Matrix):第一主成分和第二主成分的載荷圖(Loading plots) 比較有用的結果:因子得分fac1_1, fac2_1 , fac3_1。然后可以利用因子得分進行各種分析:做偏好圖: 用fac1_1, fac2_1做散點圖(Graphs-Scatter:X- fac1_1 , Y- fac2_1):第一主成分反映了車的產地,第二主成分反映了車的特性(質量、動力、座位數等) 具體見P332-334,補充:主成分分析和因子分析,以下的講義是吳喜之教授有關主成分分析和因子分析的講義,我覺得比書上講得清楚。,主成分分析和因子分析,匯報什么?,假定你是一個公司的財務經理,掌握了公司的所有數據,比如固定資產、流動資金、每一筆借貸的數額和期限、各種稅費、工資支出、原料消耗、產值、利潤、折舊、職工人數、職工的分工和教育程度等等。 如果讓你向上面介紹公司狀況,你能夠把這些指標和數字都原封不動地擺出去嗎? 當然不能。 你必須要把各個方面作出高度概括,用一兩個指標簡單明了地把情況說清楚。,主成分分析,每個人都會遇到有很多變量的數據。 比如全國或各個地區(qū)的帶有許多經濟和社會變量的數據;各個學校的研究、教學等各種變量的數據等等。 這些數據的共同特點是變量很多,在如此多的變量之中,有很多是相關的。人們希望能夠找出它們的少數“代表”來對它們進行描述。 本章就介紹兩種把變量維數降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。實際上主成分分析可以說是因子分析的一個特例。在引進主成分分析之前,先看下面的例子。,成績數據(student.sav),100個學生的數學、物理、化學、語文、歷史、英語的成績如下表(部分)。,從本例可能提出的問題,目前的問題是,能不能把這個數據的6個變量用一兩個綜合變量來表示呢? 這一兩個綜合變量包含有多少原來的信息呢? 能不能利用找到的綜合變量來對學生排序呢?這一類數據所涉及的問題可以推廣到對企業(yè),對學校進行分析、排序、判別和分類等問題。,主成分分析,例中的的數據點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。 先假定只有二維,即只有兩個變量,它們由橫坐標和縱坐標所代表;因此每個觀測值都有相應于這兩個坐標軸的兩個坐標值;如果這些數據形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的) 那么這個橢圓有一個長軸和一個短軸。在短軸方向上,數據變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。,主成分分析,當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數據的主要變化,而代表短軸的變量就描述了數據的次要變化。 但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。 如果長軸變量代表了數據包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。 橢圓(球)的長短軸相差得越大,降維也越有道理。,主成分分析,對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。 首先把高維橢球的主軸找出來,再用代表大多數數據信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。 注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principal component)。,主成分分析,正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。 選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。,對于我們的數據,SPSS輸出為,這里的Initial Eigenvalues就是這里的六個主軸長度,又稱特征值(數據相關陣的特征值)。頭兩個成分特征值累積占了總方差的81.142%。后面的特征值的貢獻越來越少。,特征值的貢獻還可以從SPSS的所謂碎石圖看出,怎么解釋這兩個主成分。前面說過主成分是原始六個變量的線性組合。是怎么樣的組合呢?SPSS可以輸出下面的表。,這里每一列代表一個主成分作為原來變量線性組合的系數(比例)。比如第一主成分作為數學、物理、化學、語文、歷史、英語這六個原先變量的線性組合,系數(比例)為-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。,如用x1,x2,x3,x4,x5,x6分別表示原先的六個變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六個變量x1,x2,x3,x4,x5,x6與第一和第二主成分y1,y2的關系為: X1=-0.806y1 + 0.353y2 X2=-0.674y1 + 0.531y2 X3=-0.675y1 + 0.513y2 X4= 0.893y1 + 0.306y2 x5= 0.825y1 + 0.435y2 x6= 0.836y1 + 0.425y2 這些系數稱為主成分載荷(loading),它表示主成分和相應的原先變量的相關系數。 比如x1表示式中y1的系數為-0.806,這就是說第一主成分和數學變量的相關系數為-0.806。 相關系數(絕對值)越大,主成分對該變量的代表性也越大??梢钥吹贸?,第一主成分對各個變量解釋得都很充分。而最后的幾個主成分和原先的變量就不那么相關了。,可以把第一和第二主成分的載荷點出一個二維圖以直觀地顯示它們如何解釋原來的變量的。這個圖叫做載荷圖。,該圖左面三個點是數學、物理、化學三科,右邊三個點是語文、歷史、外語三科。圖中的六個點由于比較擠,不易分清,但只要認識到這些點的坐標是前面的第一二主成分載荷,坐標是前面表中第一二列中的數目,還是可以識別的。,因子分析,主成分分析從原理上是尋找橢球的所有主軸。因此,原先有幾個變量,就有幾個主成分。 而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)(比如兩個),那就找兩個。 這使得在數學模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計算也復雜得多。根據因子分析模型的特點,它還多一道工序:因子旋轉(factor rotation);這個步驟可以使結果更好。 當然,對于計算機來說,因子分析并不比主成分分析多費多少時間。 從輸出的結果來看,因子分析也有因子載荷(factor loading)的概念,代表了因子和原先變量的相關系數。但是在輸出中的因子和原來變量相關系數的公式中的系數不是因子載荷,也給出了二維圖;該圖雖然不是載荷圖,但解釋和主成分分析的載荷圖類似。,主成分分析與因子分析的公式上的區(qū)別,主成分分析 P312,因子分析(mp) P314,因子得分 P315,對于我們的數據,SPSS因子分析輸出為,這里,第一個因子主要和語文、歷史、英語三科有很強的正相關;而第二個因子主要和數學、物理、化學三科有很強的正相關。因此可以給第一個因子起名為“文科因子”,而給第二個因子起名為“理科因子”。從這個例子可以看出,因子分析的結果比主成分分析解釋性更強。,這兩個因子的系數所形成的散點圖(雖然不是載荷,在SPSS中也稱載荷圖,,可以直觀看出每個因子代表了一類學科,計算因子得分,可以根據前面的因子得分公式(因子得分系數和原始變量的標準化值的乘積之和),算出每個學生的第一個因子和第二個因子的大小,即算出每個學生的因子得分f1和f2。 人們可以根據這兩套因子得分對學生分別按照文科和理科排序。當然得到因子得分只是SPSS軟件的一個選項(可將因子得分存為新變量、顯示因子得分系數矩陣),因子分析和主成分分析的一些注意事項,可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。 另外,如果原始變量都本質上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數綜合的變量概括。數據越相關,降維效果就越好。 在得到分析的結果時,并不一定會都得到如我們例子那樣清楚的結果。這與問題的性質,選取的原始變量以及數據的質量等都有關系 在用因子得分進行排序時要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。,SPSS實現(xiàn)(因子分析與主成分分析),拿student.sav為例,選AnalyzeData ReductionFactor進入主對話框; 把math、phys、chem、literat、history、english選入Variables,然后點擊Extraction, 在Method選擇一個方法(如果是主成分分析,則選Principal Components), 下面的選項可以隨意,比如要畫碎石圖就選Scree plot,另外在Extract選項可以按照特征值的大小選主成分(或因子),也可以選定因子的數目; 之后回到主對話框(用Continue)。然后點擊Rotation,再在該對話框中的Method選擇一個旋轉方法(如果是主成分分析就選None), 在Display選Rotated solution(以輸出和旋轉有關的結果)和Loading plot(以輸出載荷圖);之后回到主對話框(用Continue)。 如果要計算因子得分就要點擊Scores,再選擇Save as variables(因子得分就會作為變量存在數據中的附加列上)和計算因子得分的方法(比如Regression);之后回到主對話框(用Continue)。這時點OK即可。,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- SPSS 數據 分析 教程 13 成分 因子分析 sp
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://m.appdesigncorp.com/p-2985161.html