《SPSS的聚類分析》PPT課件.ppt
《《SPSS的聚類分析》PPT課件.ppt》由會員分享,可在線閱讀,更多相關《《SPSS的聚類分析》PPT課件.ppt(28頁珍藏版)》請在裝配圖網(wǎng)上搜索。
2020年5月13日星期三,1,第九章SPSS的聚類分析,2020年5月13日星期三,2,9.1聚類分析的一般問題,9.1.1聚類分析的意義聚類分析是統(tǒng)計學中研究“物以類聚”問題的多元統(tǒng)計分析方法。聚類分析是一種建立分類的多元統(tǒng)計分析方法,它能夠將一批樣本(或變量)數(shù)據(jù)根據(jù)其諸多特征,按照在性質上的親疏程度在沒有先驗知識的情況下進行自動分類,產(chǎn)生多個分類結果。類內(nèi)部的個體在特征上具有相似性,不同類間個體特征的差異性較大。,2020年5月13日星期三,3,例如,學校里有些同學經(jīng)常在一起,關系比較密切,而他們與另一些同學卻很少來往,關系比較疏遠。究其原因可能會發(fā)現(xiàn),經(jīng)常在一起的同學的家庭情況、性格、學習成績、課余愛好等方面有許多共同之處,而關系比較疏遠的同學在這些方面有較大的差異性。為了研究家庭情況、性格、學習成績、課余愛好等是否會成為劃分學生小群體的主要決定因素,可以從有關這些方面的數(shù)據(jù)入手,進行客觀分組,然后比較所得的分組是否與實際相吻合。對學生的客觀分組就可采用聚類分析方法。,2020年5月13日星期三,4,9.1.2聚類分析中“親疏程度”的度量方法1、定距型變量個體間距離的計算方式歐式距離(Euclideandistance)平方歐式距離(SquaredEuclideandistance)切比雪夫(Chebychev)距離Block距離明考斯基(Minkowski)距離夾角余弦(Cosine)距離用戶自定義(Customized)距離,2020年5月13日星期三,5,2、計數(shù)變量個體間距離的計算方式卡方(Chi-Squaremeasure)距離Phi方(Phi-Squaremeasure)距離3、二值(Binary)變量個體間距離的計算方式簡單匹配系數(shù)(SimpleMatching)雅科比系數(shù)(Jaccard)注:聚類分析的幾點說明所選擇的變量應符合聚類的要求各變量的變量值不應有數(shù)量級上的差異各變量間不應有較強的線性相關關系,2020年5月13日星期三,6,9.2層次聚類,9.2.1層次聚類的兩種類型和兩種方式層次聚類又稱系統(tǒng)聚類,簡單地講是指聚類過程是按照一定層次進行的。層次聚類有兩種類型,分別是Q型聚類和R型聚類;層次聚類的聚類方式又有兩種,分別是凝聚方式聚類和分解方式聚類。,2020年5月13日星期三,7,Q型聚類:對樣本進行聚類,使具有相似特征的樣本聚集在一起,使差異性大的樣本分離開來。R型聚類:對變量進行聚類,使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實現(xiàn)減少變量個數(shù),達到變量降維的目的。,2020年5月13日星期三,8,凝聚方式聚類:其過程是,首先,每個個體自成一類;然后,按照某種方法度量所有個體間的親疏程度,并將其中最“親密”的個體聚成一小類,形成n-1個類;接下來,再次度量剩余個體和小類間的親疏程度,并將當前最親密的個體或小類再聚到一類;重復上述過程,直到所有個體聚成一個大類為止??梢?,這種聚類方式對n個個體通過n-1步可凝聚成一大類。分解方式聚類:其過程是,首先,所有個體都屬一大類;然后,按照某種方法度量所有個體間的親疏程度,將大類中彼此間最“疏遠”的個體分離出去,形成兩類;接下來,再次度量類中剩余個體間的親疏程度,并將最疏遠的個體再分離出去;重復上述過程,不斷進行類分解,直到所有個體自成一類為止??梢?,這種聚類方式對包含n個個體的大類通過n-1步可分解成n個個體。SPSS中的層次聚類采用的是凝聚方式。,2020年5月13日星期三,9,9.2.2個體與小類、小類與小類間“親疏程度”的度量方法SPSS中提供了多種度量個體與小類、小類與小類間“親疏程度”的方法。與個體間“親疏程度”的測度方法類似,應首先定義個體與小類、小類與小類的距離。距離小的關系親密,距離大的關系疏遠。這里的距離是在個體間距離的基礎上定義的,常見的距離有:,2020年5月13日星期三,10,最近鄰居(NearestNeighbor)距離:個體與小類中每個個體距離的最小值。最遠鄰居(FurthestNeighbor)距離:個體與小類中每個個體距離的最大值。組間平均鏈鎖(Between-groupslinkage)距離:個體與小類中每個個體距離的平均值。組內(nèi)平均鏈鎖(Within-groupslinkage)距離:個體與小類中每個個體距離以及小類內(nèi)各個體間距離的平均值。重心(Centroidclustering)距離:個體與小類的重心點的距離。離差平方和法(Ward’smethod):聚類過程中使小類內(nèi)離差平方和增加最小的兩小類應首先合并為一類。,2020年5月13日星期三,11,9.2.3層次聚類的基本操作1、選擇菜單Analyze-Classify-HierarchicalCluster,出現(xiàn)窗口:,2020年5月13日星期三,12,2、把參與層次聚類分析的變量選到Variable(s)框中。3、把一個字符型變量作為標記變量選到LabelCasesby框中,它將大大增強聚類分析結果的可讀性。4、在Cluster框中選擇聚類類型。其中Cases表示進行Q型聚類(默認類型);Variables表示進行R型聚類。5、在Display框中選擇輸出內(nèi)容。其中Statistics表示輸出聚類分析的相關統(tǒng)計量;Plot表示輸出聚類分析的相關圖形。,2020年5月13日星期三,13,6、單擊Method按鈕指定距離的計算方法。,2020年5月13日星期三,14,Measure框中給出的是不同變量類型下的個體距離的計算方法。其中Interval框中的方法適用于連續(xù)型定距變量;Counts框中的方法適用于計數(shù)型變量;Binary框中的方法適用于二值變量。ClusterMethod框中給出的是計算個體與小類、小類與小類間距離的方法。7、如果參與聚類分析的變量存在數(shù)量級上的差異,應在TransformValues框中的Standardize選項中選擇消除數(shù)量級差的方法。并指定處理是針對變量的還是針對樣本的。Byvariable表示針對變量,適于Q型聚類分析;Bycase表示針對樣本,適于R型聚類分析。,2020年5月13日星期三,15,8、單擊Statistics按鈕指定輸出哪些統(tǒng)計量,2020年5月13日星期三,16,Agglomerationschedule表示輸出聚類分析的凝聚狀態(tài)表;Proximitymatrix表示輸出個體間的距離矩陣;ClusterMembership框中,None表示不輸出樣本所屬類,SingleSolution表示指定輸出當分成n類時各樣本所屬類,是單一解。Rangeofsolution表示指定輸出當分成m至n類(m小于等于n)時各樣本所屬類,是多個解。,2020年5月13日星期三,17,9、單擊Plot按鈕指定輸出哪種聚類分析圖。,2020年5月13日星期三,18,Dendrogram選項表示表示輸出聚類分析樹形圖;在Icicle框中指定輸出冰掛圖,其中,Allclusters表示輸出聚類分析每個階段的冰掛圖,Specifiedrangeofclusters表示只輸出某個階段的冰掛圖,輸入從第幾步開始,到第幾步結束,中間間隔幾步;在Orientation框中指定如何顯示冰掛圖,其中,Vertical表示縱向顯示,Horizontal表示橫向水平顯示。樹形圖以躺倒樹的形式展現(xiàn)了聚類分析中的每一次類合并的情況。SPSS自動將各類間的距離映射到0~25之間,并將凝聚過程近似地表示在圖上。,2020年5月13日星期三,19,10、單擊Save按鈕可以將聚類分析的結果以變量的形式保存到數(shù)據(jù)編輯窗口中。生成的變量名為clun_m(如clu2_1),其中n表示類數(shù)(如2),m表示是第m次分析(如1)。由于不同的距離計算方法會產(chǎn)生不同的聚類分析結果,即使聚成n類,同一樣本的類歸屬也會因計算方法的不同而不同。因此實際分析中應反復嘗試以最終得到符合實際的合理解,并保存于SPSS變量中。,2020年5月13日星期三,20,9.2.4層次聚類的應用舉例1、利用對5個商廈的評分做聚類分析。2、例:31個省市自治區(qū)小康和現(xiàn)代化指數(shù)的層次聚類分析。利用SPSS層次聚類Q型聚類對31個省市自治區(qū)進行分類分析。其中個體距離采用歐式距離,類間距離采用平均組間鏈鎖距離,由于數(shù)據(jù)不存在數(shù)量級上的差異,因此無需進行標準化處理。,2020年5月13日星期三,21,9.3K-Means聚類,9.3.1K-Means聚類分析的核心步驟K-Means聚類也稱快速聚類,仍將數(shù)據(jù)看成k維空間上的點,仍以距離作為測度個體“親疏程度”的指標,并通過犧牲多個解為代價換得高的執(zhí)行效率,其核心步驟是:第一,指定聚類數(shù)目K第二,確定K個初始類中心SPSS中初始類中心的指定方式有兩種:一是用戶指定方式;二是系統(tǒng)指定方式。,2020年5月13日星期三,22,第三,根據(jù)距離最近原則進行分類依次計算每個樣本數(shù)據(jù)點到K個類中心點的歐式距離,并按距K個類中心點距離最短的原則將所有樣本分成K類。第四,重新確定K個類中心中心點的確定原則是,依次計算各類中k個變量的均值,并以均值點作為K個類的中心點。第五,判斷是否已滿足中止聚類分析的條件條件有兩個:一是迭代次數(shù)(SPSS默認為10);二是類中心點偏移程度,即新確定的類中心點距上個類中心點的最大偏移量小于指定的量(SPSS默認為0.02)時中止聚類。,2020年5月13日星期三,23,9.3.2K-Means聚類分析的操作步驟1.選擇選項Analyze-Classify-K-MeansCluster,打開主窗口。,2020年5月13日星期三,24,2.選定參與K-Means聚類的變量放入Variables框中。3.選擇一個字符型變量作為標記變量放入LabelCases框中,增加分析結果的可讀性。4.在NumberofClusters框中輸入聚類數(shù)目,該數(shù)應小于樣本數(shù)。5.如果用戶自行指定初始類中心點,則單擊Centers按鈕,并在Readinitialfrom框后給出存放初始類中心的SPSS數(shù)據(jù)文件名;否則本步可略去。,2020年5月13日星期三,25,6.在Method框中指定聚類過程是否調整類中心點。其中,Iterateandclassify表示在聚類分析的每一步都重新確定類中心點(SPSS默認);Classifyonly表示聚類分析過程中類中心點始終為初始類中心點,此時僅進行一次迭代。7.單擊Iterate按鈕確定中止聚類的條件。在Maximumiterations框后輸入最大迭代次數(shù),在Convergencecriterion框后輸入類中心的偏移量。另外,Userunningmeans選項,選中表示每當一個樣本被分配到一類時便立即重新計算新的類中心點,此時類中心點與樣本分配的前后順序有關;不選該項表示只有當完成了所有樣本的類分配后再計算類中心,該方式可節(jié)省運算時間,通常不選中該選項。,2020年5月13日星期三,26,8.單擊Save按鈕將聚類分析的部分結果以SPSS變量的形式保存到數(shù)據(jù)編輯窗口中,其中Clustermembership表示保存樣本所屬類的類號;Distancefromclustercenter表示保存樣本距各自類中心點的距離。9.單擊Option按鈕確定輸出哪些相關分析結果和缺失值的處理方式。Statistics框中,Initialclustercenters表示輸出初始類中心點;ANOVAtable表示以聚類分析產(chǎn)生的類為控制變量,以k個變量為觀測變量進行單因素方差分析,并輸出各個變量的方差分析表;Clusterinformationforeachcase表示輸出樣本分類信息及距所屬類中心點的距離。至此完成了K-Means聚類分析的全部操作。,2020年5月13日星期三,27,9.3.3K-Means聚類分析應用舉例,用2001年全國31個省市自治區(qū)各類小康好人現(xiàn)代化指數(shù)的數(shù)據(jù),對地區(qū)進行K-Means聚類分析,要求分成3類,初始類中心點由SPSS自行確定。,2020年5月13日星期三,28,,,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- SPSS的聚類分析 SPSS 聚類分析 PPT 課件
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
鏈接地址:http://m.appdesigncorp.com/p-12669057.html