SPSS課件10-聚類分析.ppt
《SPSS課件10-聚類分析.ppt》由會員分享,可在線閱讀,更多相關(guān)《SPSS課件10-聚類分析.ppt(28頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1,第10章 聚類分析,10.1 聚類分析的一般問題 10.2 層次聚類 10.3 K-Means 聚類(快速聚類),2,例 對10位應(yīng)聘者做智能檢驗。3項指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計方法對應(yīng)聘者進(jìn)行分類。,3,什么是聚類分析,聚類分析是統(tǒng)計學(xué)所研究的“物以類聚”問題的一種方法,它屬于多元統(tǒng)計分析的范疇. 它是一種建立分類的方法,能夠?qū)⒁慌鷺颖緮?shù)據(jù)(或變量)按照它們在性質(zhì)上的親疏程度在沒有先驗知識的情況下自動進(jìn)行分類。這里,一個類就是一個具有相似性的個體的集合,不同類之間具有明顯的非相似性。在分類過程中,不必事先給出一個分類標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),客觀地決定分類標(biāo)準(zhǔn)。,4,樣品間親疏程度的測度,研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個樣品看作p維空間的一個點,并用某種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點應(yīng)屬于不同的類。,5,變量之間的聚類即R型聚類分析,常用相似系數(shù)來測度變量之間的親疏程度。而樣品之間的聚類即Q型聚類分析,則常用距離來測度樣品之間的親疏程度。,6,常用距離的算法,設(shè) 和 是第i和 j 個樣品的觀測值,則二者之間的距離 為:,歐氏距離,歐氏距離測度,7,聚類分析的幾點說明,1.所選擇的變量應(yīng)符合聚類的要求 2.各變量的變量值不應(yīng)有數(shù)量級的差異 消除數(shù)量級常用的方法是 標(biāo)準(zhǔn)化處理: 3.各變量間不應(yīng)有較強(qiáng)的線性相關(guān)性,8,層次聚類法,層次聚類分析的基本思想是,在聚類分析的開始,每個樣本自成一類;然后,按照某種方法度量所有樣本之間的親疏程度,并把其中最親密或稱最相似的樣本首先聚成一小類;接下來,度量剩余的樣本和小類之間的親疏程度,并將當(dāng)前最親密的樣本或小類再聚成一類;再接下來,再度量剩余下的樣本和小類(或小類和小類)間的親疏程度,并將當(dāng)前最親密的樣本或小類再聚成一類;如此反復(fù),直到所有的樣本分別聚成一類為止。,由此可見,層次聚類方法中,度量數(shù)據(jù)之間的親疏程度是極為關(guān)鍵的。要注意的是,這里并沒有給定分類的標(biāo)準(zhǔn),也沒有給出所有數(shù)據(jù)分成幾類,而要求比較客觀地從數(shù)據(jù)自身出發(fā)進(jìn)行分類。 層次聚類分析的結(jié)果是凝聚狀態(tài)表、冰柱圖和樹形圖。 連續(xù)變量的樣本距離測度方法有歐氏距離,歐氏距離平方,切比雪夫距離,Block距離,明考夫斯基距離,夾角余弦距離,用戶自定義距離等。 樣本數(shù)據(jù)與小類、小類與小類間親疏程度的度量方法有最短距離法,最長距離法,組間平均鏈鎖法,組內(nèi)平均鏈鎖法,重心法,離差平方和法。,10,樣本數(shù)據(jù)與小類、小類與小類之間的度量,1 、最短距離(Nearest Neighbor),,11,最長距離(Furthest Neighbor ),,12,,,?,?,?,?,?,?,,,,,,,,,,組間平均連接(Between-group Linkage),13,1 、組內(nèi)平均連接法(Within-group Linkage),,,,,,,14,重心法(Centroid clustering):均值點的距離,,15,用spss輸出的凝聚狀態(tài)表,16,冰柱圖,17,K-Means 聚類(快速聚類),一、思想 層次聚類法是一種比較成功的聚類方法。然而當(dāng)樣本點數(shù)量十分龐大時,則是一件非常繁重的工作,且聚類的計算速度也比較慢。比如在市場抽樣調(diào)查中,有4萬人就其對衣著的偏好作了回答,希望能迅速將他們分為幾類。這時,采用層次聚類法就很困難,而快速聚類法就會顯得方便,適用。,18,和層次聚類分析一致,快速聚類分析也以距離為樣本間親疏程度的標(biāo)志。 但兩者的不同點在于: 層次聚類可以對不同的聚類類數(shù)產(chǎn)生一系列的聚類解,而快速聚類只能產(chǎn)生固定類數(shù)的聚類解,類數(shù)需要用戶事先指定。,19,快速聚類分析的計算過程,首先需要用戶指定聚類成多少類(如k類) 然后確定k個類的初始類中心。指定方式有兩種:1)用戶指定;2)系統(tǒng)指定。Spss系統(tǒng)會根據(jù)樣本數(shù)據(jù)的實際情況,選擇k個有代表性的樣本數(shù)據(jù)作為初始類中心。 計算所有樣本數(shù)據(jù)點到k個類中心的歐氏距離,并按照距k個類中心點距離最短原則,把所有樣本數(shù)據(jù)點分派到各中心點所在的類中,形成一個新的k類,完成一次迭代過程。,20,,重新確定k個類中心。 Spss計算每個類中各個變量的變量值均值,并以均值點作為新的類中心點。 然后重復(fù)上面的兩步計算過程,直到達(dá)到指定的迭代次數(shù),或終止迭代的判斷要求為止。,21,(a)空間的群點 (b) 任取兩個聚核,,,,,,,(c) 第一次分類 (d) 求各類中心,,,,,,,22,(e) 第二次分類,,,,23,,可見,與層次聚類不同,快速聚類是一個反復(fù)迭代的分類過程,在聚類過程中,樣本所屬的類會不斷調(diào)整,直到最終達(dá)到穩(wěn)定為止。,24,用spss輸出的結(jié)果,25,,26,27,,28,,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- SPSS 課件 10 聚類分析
鏈接地址:http://m.appdesigncorp.com/p-2991730.html