《SPSS的聚類分析》PPT課件.ppt
《《SPSS的聚類分析》PPT課件.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《《SPSS的聚類分析》PPT課件.ppt(28頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
2020年5月13日星期三,1,第九章SPSS的聚類分析,2020年5月13日星期三,2,9.1聚類分析的一般問(wèn)題,9.1.1聚類分析的意義聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”問(wèn)題的多元統(tǒng)計(jì)分析方法。聚類分析是一種建立分類的多元統(tǒng)計(jì)分析方法,它能夠?qū)⒁慌鷺颖荆ɑ蜃兞浚?shù)據(jù)根據(jù)其諸多特征,按照在性質(zhì)上的親疏程度在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行自動(dòng)分類,產(chǎn)生多個(gè)分類結(jié)果。類內(nèi)部的個(gè)體在特征上具有相似性,不同類間個(gè)體特征的差異性較大。,2020年5月13日星期三,3,例如,學(xué)校里有些同學(xué)經(jīng)常在一起,關(guān)系比較密切,而他們與另一些同學(xué)卻很少來(lái)往,關(guān)系比較疏遠(yuǎn)。究其原因可能會(huì)發(fā)現(xiàn),經(jīng)常在一起的同學(xué)的家庭情況、性格、學(xué)習(xí)成績(jī)、課余愛(ài)好等方面有許多共同之處,而關(guān)系比較疏遠(yuǎn)的同學(xué)在這些方面有較大的差異性。為了研究家庭情況、性格、學(xué)習(xí)成績(jī)、課余愛(ài)好等是否會(huì)成為劃分學(xué)生小群體的主要決定因素,可以從有關(guān)這些方面的數(shù)據(jù)入手,進(jìn)行客觀分組,然后比較所得的分組是否與實(shí)際相吻合。對(duì)學(xué)生的客觀分組就可采用聚類分析方法。,2020年5月13日星期三,4,9.1.2聚類分析中“親疏程度”的度量方法1、定距型變量個(gè)體間距離的計(jì)算方式歐式距離(Euclideandistance)平方歐式距離(SquaredEuclideandistance)切比雪夫(Chebychev)距離Block距離明考斯基(Minkowski)距離夾角余弦(Cosine)距離用戶自定義(Customized)距離,2020年5月13日星期三,5,2、計(jì)數(shù)變量個(gè)體間距離的計(jì)算方式卡方(Chi-Squaremeasure)距離Phi方(Phi-Squaremeasure)距離3、二值(Binary)變量個(gè)體間距離的計(jì)算方式簡(jiǎn)單匹配系數(shù)(SimpleMatching)雅科比系數(shù)(Jaccard)注:聚類分析的幾點(diǎn)說(shuō)明所選擇的變量應(yīng)符合聚類的要求各變量的變量值不應(yīng)有數(shù)量級(jí)上的差異各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系,2020年5月13日星期三,6,9.2層次聚類,9.2.1層次聚類的兩種類型和兩種方式層次聚類又稱系統(tǒng)聚類,簡(jiǎn)單地講是指聚類過(guò)程是按照一定層次進(jìn)行的。層次聚類有兩種類型,分別是Q型聚類和R型聚類;層次聚類的聚類方式又有兩種,分別是凝聚方式聚類和分解方式聚類。,2020年5月13日星期三,7,Q型聚類:對(duì)樣本進(jìn)行聚類,使具有相似特征的樣本聚集在一起,使差異性大的樣本分離開(kāi)來(lái)。R型聚類:對(duì)變量進(jìn)行聚類,使具有相似性的變量聚集在一起,差異性大的變量分離開(kāi)來(lái),可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)到變量降維的目的。,2020年5月13日星期三,8,凝聚方式聚類:其過(guò)程是,首先,每個(gè)個(gè)體自成一類;然后,按照某種方法度量所有個(gè)體間的親疏程度,并將其中最“親密”的個(gè)體聚成一小類,形成n-1個(gè)類;接下來(lái),再次度量剩余個(gè)體和小類間的親疏程度,并將當(dāng)前最親密的個(gè)體或小類再聚到一類;重復(fù)上述過(guò)程,直到所有個(gè)體聚成一個(gè)大類為止??梢?jiàn),這種聚類方式對(duì)n個(gè)個(gè)體通過(guò)n-1步可凝聚成一大類。分解方式聚類:其過(guò)程是,首先,所有個(gè)體都屬一大類;然后,按照某種方法度量所有個(gè)體間的親疏程度,將大類中彼此間最“疏遠(yuǎn)”的個(gè)體分離出去,形成兩類;接下來(lái),再次度量類中剩余個(gè)體間的親疏程度,并將最疏遠(yuǎn)的個(gè)體再分離出去;重復(fù)上述過(guò)程,不斷進(jìn)行類分解,直到所有個(gè)體自成一類為止。可見(jiàn),這種聚類方式對(duì)包含n個(gè)個(gè)體的大類通過(guò)n-1步可分解成n個(gè)個(gè)體。SPSS中的層次聚類采用的是凝聚方式。,2020年5月13日星期三,9,9.2.2個(gè)體與小類、小類與小類間“親疏程度”的度量方法SPSS中提供了多種度量個(gè)體與小類、小類與小類間“親疏程度”的方法。與個(gè)體間“親疏程度”的測(cè)度方法類似,應(yīng)首先定義個(gè)體與小類、小類與小類的距離。距離小的關(guān)系親密,距離大的關(guān)系疏遠(yuǎn)。這里的距離是在個(gè)體間距離的基礎(chǔ)上定義的,常見(jiàn)的距離有:,2020年5月13日星期三,10,最近鄰居(NearestNeighbor)距離:個(gè)體與小類中每個(gè)個(gè)體距離的最小值。最遠(yuǎn)鄰居(FurthestNeighbor)距離:個(gè)體與小類中每個(gè)個(gè)體距離的最大值。組間平均鏈鎖(Between-groupslinkage)距離:個(gè)體與小類中每個(gè)個(gè)體距離的平均值。組內(nèi)平均鏈鎖(Within-groupslinkage)距離:個(gè)體與小類中每個(gè)個(gè)體距離以及小類內(nèi)各個(gè)體間距離的平均值。重心(Centroidclustering)距離:個(gè)體與小類的重心點(diǎn)的距離。離差平方和法(Ward’smethod):聚類過(guò)程中使小類內(nèi)離差平方和增加最小的兩小類應(yīng)首先合并為一類。,2020年5月13日星期三,11,9.2.3層次聚類的基本操作1、選擇菜單Analyze-Classify-HierarchicalCluster,出現(xiàn)窗口:,2020年5月13日星期三,12,2、把參與層次聚類分析的變量選到Variable(s)框中。3、把一個(gè)字符型變量作為標(biāo)記變量選到LabelCasesby框中,它將大大增強(qiáng)聚類分析結(jié)果的可讀性。4、在Cluster框中選擇聚類類型。其中Cases表示進(jìn)行Q型聚類(默認(rèn)類型);Variables表示進(jìn)行R型聚類。5、在Display框中選擇輸出內(nèi)容。其中Statistics表示輸出聚類分析的相關(guān)統(tǒng)計(jì)量;Plot表示輸出聚類分析的相關(guān)圖形。,2020年5月13日星期三,13,6、單擊Method按鈕指定距離的計(jì)算方法。,2020年5月13日星期三,14,Measure框中給出的是不同變量類型下的個(gè)體距離的計(jì)算方法。其中Interval框中的方法適用于連續(xù)型定距變量;Counts框中的方法適用于計(jì)數(shù)型變量;Binary框中的方法適用于二值變量。ClusterMethod框中給出的是計(jì)算個(gè)體與小類、小類與小類間距離的方法。7、如果參與聚類分析的變量存在數(shù)量級(jí)上的差異,應(yīng)在TransformValues框中的Standardize選項(xiàng)中選擇消除數(shù)量級(jí)差的方法。并指定處理是針對(duì)變量的還是針對(duì)樣本的。Byvariable表示針對(duì)變量,適于Q型聚類分析;Bycase表示針對(duì)樣本,適于R型聚類分析。,2020年5月13日星期三,15,8、單擊Statistics按鈕指定輸出哪些統(tǒng)計(jì)量,2020年5月13日星期三,16,Agglomerationschedule表示輸出聚類分析的凝聚狀態(tài)表;Proximitymatrix表示輸出個(gè)體間的距離矩陣;ClusterMembership框中,None表示不輸出樣本所屬類,SingleSolution表示指定輸出當(dāng)分成n類時(shí)各樣本所屬類,是單一解。Rangeofsolution表示指定輸出當(dāng)分成m至n類(m小于等于n)時(shí)各樣本所屬類,是多個(gè)解。,2020年5月13日星期三,17,9、單擊Plot按鈕指定輸出哪種聚類分析圖。,2020年5月13日星期三,18,Dendrogram選項(xiàng)表示表示輸出聚類分析樹(shù)形圖;在Icicle框中指定輸出冰掛圖,其中,Allclusters表示輸出聚類分析每個(gè)階段的冰掛圖,Specifiedrangeofclusters表示只輸出某個(gè)階段的冰掛圖,輸入從第幾步開(kāi)始,到第幾步結(jié)束,中間間隔幾步;在Orientation框中指定如何顯示冰掛圖,其中,Vertical表示縱向顯示,Horizontal表示橫向水平顯示。樹(shù)形圖以躺倒樹(shù)的形式展現(xiàn)了聚類分析中的每一次類合并的情況。SPSS自動(dòng)將各類間的距離映射到0~25之間,并將凝聚過(guò)程近似地表示在圖上。,2020年5月13日星期三,19,10、單擊Save按鈕可以將聚類分析的結(jié)果以變量的形式保存到數(shù)據(jù)編輯窗口中。生成的變量名為clun_m(如clu2_1),其中n表示類數(shù)(如2),m表示是第m次分析(如1)。由于不同的距離計(jì)算方法會(huì)產(chǎn)生不同的聚類分析結(jié)果,即使聚成n類,同一樣本的類歸屬也會(huì)因計(jì)算方法的不同而不同。因此實(shí)際分析中應(yīng)反復(fù)嘗試以最終得到符合實(shí)際的合理解,并保存于SPSS變量中。,2020年5月13日星期三,20,9.2.4層次聚類的應(yīng)用舉例1、利用對(duì)5個(gè)商廈的評(píng)分做聚類分析。2、例:31個(gè)省市自治區(qū)小康和現(xiàn)代化指數(shù)的層次聚類分析。利用SPSS層次聚類Q型聚類對(duì)31個(gè)省市自治區(qū)進(jìn)行分類分析。其中個(gè)體距離采用歐式距離,類間距離采用平均組間鏈鎖距離,由于數(shù)據(jù)不存在數(shù)量級(jí)上的差異,因此無(wú)需進(jìn)行標(biāo)準(zhǔn)化處理。,2020年5月13日星期三,21,9.3K-Means聚類,9.3.1K-Means聚類分析的核心步驟K-Means聚類也稱快速聚類,仍將數(shù)據(jù)看成k維空間上的點(diǎn),仍以距離作為測(cè)度個(gè)體“親疏程度”的指標(biāo),并通過(guò)犧牲多個(gè)解為代價(jià)換得高的執(zhí)行效率,其核心步驟是:第一,指定聚類數(shù)目K第二,確定K個(gè)初始類中心SPSS中初始類中心的指定方式有兩種:一是用戶指定方式;二是系統(tǒng)指定方式。,2020年5月13日星期三,22,第三,根據(jù)距離最近原則進(jìn)行分類依次計(jì)算每個(gè)樣本數(shù)據(jù)點(diǎn)到K個(gè)類中心點(diǎn)的歐式距離,并按距K個(gè)類中心點(diǎn)距離最短的原則將所有樣本分成K類。第四,重新確定K個(gè)類中心中心點(diǎn)的確定原則是,依次計(jì)算各類中k個(gè)變量的均值,并以均值點(diǎn)作為K個(gè)類的中心點(diǎn)。第五,判斷是否已滿足中止聚類分析的條件條件有兩個(gè):一是迭代次數(shù)(SPSS默認(rèn)為10);二是類中心點(diǎn)偏移程度,即新確定的類中心點(diǎn)距上個(gè)類中心點(diǎn)的最大偏移量小于指定的量(SPSS默認(rèn)為0.02)時(shí)中止聚類。,2020年5月13日星期三,23,9.3.2K-Means聚類分析的操作步驟1.選擇選項(xiàng)Analyze-Classify-K-MeansCluster,打開(kāi)主窗口。,2020年5月13日星期三,24,2.選定參與K-Means聚類的變量放入Variables框中。3.選擇一個(gè)字符型變量作為標(biāo)記變量放入LabelCases框中,增加分析結(jié)果的可讀性。4.在NumberofClusters框中輸入聚類數(shù)目,該數(shù)應(yīng)小于樣本數(shù)。5.如果用戶自行指定初始類中心點(diǎn),則單擊Centers按鈕,并在Readinitialfrom框后給出存放初始類中心的SPSS數(shù)據(jù)文件名;否則本步可略去。,2020年5月13日星期三,25,6.在Method框中指定聚類過(guò)程是否調(diào)整類中心點(diǎn)。其中,Iterateandclassify表示在聚類分析的每一步都重新確定類中心點(diǎn)(SPSS默認(rèn));Classifyonly表示聚類分析過(guò)程中類中心點(diǎn)始終為初始類中心點(diǎn),此時(shí)僅進(jìn)行一次迭代。7.單擊Iterate按鈕確定中止聚類的條件。在Maximumiterations框后輸入最大迭代次數(shù),在Convergencecriterion框后輸入類中心的偏移量。另外,Userunningmeans選項(xiàng),選中表示每當(dāng)一個(gè)樣本被分配到一類時(shí)便立即重新計(jì)算新的類中心點(diǎn),此時(shí)類中心點(diǎn)與樣本分配的前后順序有關(guān);不選該項(xiàng)表示只有當(dāng)完成了所有樣本的類分配后再計(jì)算類中心,該方式可節(jié)省運(yùn)算時(shí)間,通常不選中該選項(xiàng)。,2020年5月13日星期三,26,8.單擊Save按鈕將聚類分析的部分結(jié)果以SPSS變量的形式保存到數(shù)據(jù)編輯窗口中,其中Clustermembership表示保存樣本所屬類的類號(hào);Distancefromclustercenter表示保存樣本距各自類中心點(diǎn)的距離。9.單擊Option按鈕確定輸出哪些相關(guān)分析結(jié)果和缺失值的處理方式。Statistics框中,Initialclustercenters表示輸出初始類中心點(diǎn);ANOVAtable表示以聚類分析產(chǎn)生的類為控制變量,以k個(gè)變量為觀測(cè)變量進(jìn)行單因素方差分析,并輸出各個(gè)變量的方差分析表;Clusterinformationforeachcase表示輸出樣本分類信息及距所屬類中心點(diǎn)的距離。至此完成了K-Means聚類分析的全部操作。,2020年5月13日星期三,27,9.3.3K-Means聚類分析應(yīng)用舉例,用2001年全國(guó)31個(gè)省市自治區(qū)各類小康好人現(xiàn)代化指數(shù)的數(shù)據(jù),對(duì)地區(qū)進(jìn)行K-Means聚類分析,要求分成3類,初始類中心點(diǎn)由SPSS自行確定。,2020年5月13日星期三,28,,,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- SPSS的聚類分析 SPSS 聚類分析 PPT 課件
鏈接地址:http://m.appdesigncorp.com/p-12669057.html