spss聚類分析結(jié)果解釋ppt課件

上傳人：鐘***

文檔編號：5022926

上傳時間：2020-01-18

格式：PPT

頁數(shù)：83

大?。?.85MB

《spss聚類分析結(jié)果解釋ppt課件》由會員分享，可在線閱讀，更多相關(guān)《spss聚類分析結(jié)果解釋ppt課件（83頁珍藏版）》請在裝配圖網(wǎng)上搜索。

第14章聚類分析與判別分析介紹 1 聚類分析2 判別分析分類學(xué)是人類認(rèn)識世界的基礎(chǔ)科學(xué) 聚類分析和判別分析是研究事物分類的基本方法廣泛地應(yīng)用于自然科學(xué) 社會科學(xué) 工農(nóng)業(yè)生產(chǎn)的各個領(lǐng)域 1 14 1 1聚類分析根據(jù)事物本身的特性研究個體分類的方法原則是同一類中的個體有較大的相似性不同類中的個體差異很大根據(jù)分類對象的不同分為樣品觀測量聚類和變量聚類兩種樣品聚類對觀測量 Case 進行聚類不同的目的選用不同的指標(biāo)作為分類的依據(jù) 如選拔運動員與分課外活動小組變量聚類找出彼此獨立且有代表性的自變量而又不丟失大部分信息在生產(chǎn)活動中不乏有變量聚類的實例如衣服號碼身長胸圍褲長腰圍鞋的號碼變量聚類使批量生產(chǎn)成為可能 2 14 1 2判別分析判別分析是根據(jù)表明事物特點的變量值和它們所屬的類求出判別函數(shù) 根據(jù)判別函數(shù)對未知所屬類別的事物進行分類的一種分析方法在自然科學(xué)和社會科學(xué)的各個領(lǐng)域經(jīng)常遇到需要對某個個體屬于哪一類進行判斷如動物學(xué)家對動物如何分類的研究和某個動物屬于哪一類目綱的判斷不同判別分析和聚類分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值并且已知各個體的分類訓(xùn)練樣本 3 14 1 3聚類分析與判別分析的SPSS過程在Analyze Classify下 K MeansCluster 觀測量快速聚類分析過程HierarchicalCluster 分層聚類進行觀測量聚類和變量聚類的過程Discriminant 進行判別分析的過程 4 14 2快速樣本聚類過程 QuickCluster 使用k均值分類法對觀測量進行聚類可使用系統(tǒng)的默認(rèn)選項或自己設(shè)置選項如分為幾類指定初始類中心是否將聚類結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等快速聚類實例 P342 data14 01a 使用系統(tǒng)的默認(rèn)值進行對運動員的分類分為4類 Analyze Classify K MeansClusterVariables x1 x2 x3LabelCaseBy noNumberofCluster 4比較有用的結(jié)果聚類結(jié)果形成的最后四類中心點 FinalClusterCenters 和每類的觀測量數(shù)目 NumberofCasesineachCluster 但不知每個運動員究竟屬于哪一類這就要用到Save選項 5 14 2快速樣本聚類過程 QuickCluster 中的選項使用快速聚類的選擇項類中心數(shù)據(jù)的輸入與輸出 Centers選項輸出數(shù)據(jù)選擇項 Save選項聚類方法選擇項 Method選項聚類何時停止選擇項 Iterate選項輸出統(tǒng)計量選擇項 Option選項 6 14 2指定初始類中心的聚類方法例題P343 數(shù)據(jù)同上 data14 01a 以四個四類成績突出者的數(shù)據(jù)為初始聚類中心種子進行聚類類中心數(shù)據(jù)文件data14 01b 但缺一列Cluster 不能直接使用要修改對運動員的分類還是分為4類 Analyze Classify K MeansClusterVariables x1 x2 x3LabelCaseBy noNumberofCluster 4Center Readinitialfrom data14 01bSave Clustermembership和DistancefromClusterCenter比較有用的結(jié)果可將結(jié)果與前面沒有初始類中心比較聚類結(jié)果形成的最后四類中心點 FinalClusterCenters 每類的觀測量數(shù)目 NumberofCasesineachCluster 在數(shù)據(jù)文件中的兩個新變量qc1 1 每個觀測量最終被分配到哪一類和qc1 2 觀測量與所屬類中心點的距離 7 14 3分層聚類 HierarchicalCluster 分層聚類方法分解法先視為一大類再分成幾類凝聚法先視每個為一類再合并為幾大類可用于觀測量樣本聚類 Q型和變量聚類 R型一般分為兩步自動可從Paste的語句知道 P359 Proximities 先對數(shù)據(jù)進行的預(yù)處理標(biāo)準(zhǔn)化和計算距離等 Cluster 然后進行聚類分析兩種統(tǒng)計圖樹形圖 Dendrogram 和冰柱圖 Icicle 各類型數(shù)據(jù)的標(biāo)準(zhǔn)化距離和相似性計算P348 354定距變量分類變量二值變量標(biāo)準(zhǔn)化方法p353 ZScores Range 1to1 Range0to1等 8 14 3 4用分層聚類法進行觀測量聚類實例P358 對20種啤酒進行分類 data14 02 變量包括 Beername 啤酒名稱 calorie 熱量 sodium 鈉含量 alcohol 酒精含量 cost 價格 Analyze Classify HierarchicalCluster Variables calorie sodium alcohol cost成分和價格LabelCaseBy BeernameCluster Case Q聚類Display 選中Statistics 單擊StatisticsAgglomerationSchedule凝聚狀態(tài)表Proximitymatrix 距離矩陣Clustermembership Singlesolution 4顯示分為4類時各觀測量所屬的類Method Cluster FurthestNeighbor Measure Interval SquaredEuclideandistance TransformValue Range0 1 Byvariable 值最小值極差 Plots Dendrogram Icicle Specifiedrangeofcluster Start 1 Stop 4 by 1 Orientation Vertical縱向作圖 Save ClusterMembership Singlesolution 4 比較有用的結(jié)果根據(jù)需要進行分類在數(shù)據(jù)文件中的分類新變量clu4 1等 9 14 3 5用分層聚類法進行變量聚類變量聚類是一種降維的方法用于在變量眾多時尋找有代表性的變量以便在用少量有代表性的變量代替大變量集時損失信息很少與進行觀測量聚類雷同不同點在于選擇Variable而非CaseSave選項失效不建立的新變量 10 14 3 6變量聚類實例1P366 上面啤酒分類問題data14 02 Analyze Classify HierarchicalCluster Variables calorie sodium alcohol cost成分和價格Cluster Variable R聚類Method ClusterMethod FurthestNeighborMeasure Interval PearsonCorrelationTransformValues ZScore ByVariable Plots Dendrogram樹型圖Statistics Proximitymatrix 相關(guān)矩陣比較有用的結(jié)果根據(jù)相關(guān)矩陣和樹型圖可知calorie 熱量和alcohol 酒精含量的相關(guān)系數(shù)最大首先聚為一類從整體上看聚為三類是比較好的結(jié)果至于熱量和酒精含量選擇哪個作為典型指標(biāo)代替原來的兩個變量可以根據(jù)專業(yè)知識或測度的難易程度決定 11 14 3 6變量聚類實例2P368 有10個測試項目分別用變量X1 X10表示 50名學(xué)生參加測試想從10個變量中選擇幾個典型指標(biāo) data14 03Analyze Classify HierarchicalCluster Variables X1 X10Cluster Variable R聚類Method ClusterMethod FurthestNeighborMeasure Interval PearsonCorrelationPlots Dendrogram樹型圖Statistics Proximitymatrix相關(guān)矩陣比較有用的結(jié)果可以從樹型圖中看出聚類過程具體聚為幾類最為合理根據(jù)專業(yè)知識來定而每類中的典型指標(biāo)的選擇可用p370的相關(guān)指數(shù)公式的計算然后比較類中各個變量間的相關(guān)指數(shù) 哪個大就選哪個變量作為此類的代表變量 12 14 4判別分析P374 判別分析的概念是根據(jù)觀測到的若干變量值判斷研究對象如何分類的方法要先建立判別函數(shù)Y a1x1 a2x2 anxn 其中 Y為判別分?jǐn)?shù) 判別值 x1x2 xn為反映研究對象特征的變量 a1a2 an為系數(shù)SPSS對于分為m類的研究對象建立m個線性判別函數(shù) 對于每個個體進行判別時把觀測量的各變量值代入判別函數(shù) 得出判別分?jǐn)?shù) 從而確定該個體屬于哪一類或計算屬于各類的概率從而判別該個體屬于哪一類還建立標(biāo)準(zhǔn)化和未標(biāo)準(zhǔn)化的典則判別函數(shù) 具體見下面吳喜之教授有關(guān)判別分析的講義 13 補充聚類分析與判別分析以下的講義是吳喜之教授有關(guān)聚類分析與判別分析的講義我覺得比書上講得清楚先是聚類分析一章再是判別分析一章 14 聚類分析 15 分類俗語說物以類聚人以群分但什么是分類的根據(jù)呢比如要想把中國的縣分成若干類就有很多種分類法可以按照自然條件來分比如考慮降水土地日照濕度等各方面也可以考慮收入教育水準(zhǔn) 醫(yī)療條件基礎(chǔ)設(shè)施等指標(biāo) 既可以用某一項來分類也可以同時考慮多項指標(biāo)來分類 16 聚類分析對于一個數(shù)據(jù) 人們既可以對變量指標(biāo) 進行分類相當(dāng)于對數(shù)據(jù)中的列分類也可以對觀測值事件樣品來分類相當(dāng)于對數(shù)據(jù)中的行分類比如學(xué)生成績數(shù)據(jù)就可以對學(xué)生按照理科或文科成績或者綜合考慮各科成績分類當(dāng)然并不一定事先假定有多少類完全可以按照數(shù)據(jù)本身的規(guī)律來分類本章要介紹的分類的方法稱為聚類分析 clusteranalysis 對變量的聚類稱為R型聚類而對觀測值聚類稱為Q型聚類這兩種聚類在數(shù)學(xué)上是對稱的沒有什么不同 17 飲料數(shù)據(jù) drink sav 16種飲料的熱量咖啡因鈉及價格四種變量 18 如何度量遠近如果想要對100個學(xué)生進行分類如果僅僅知道他們的數(shù)學(xué)成績則只好按照數(shù)學(xué)成績來分類這些成績在直線上形成100個點這樣就可以把接近的點放到一類如果還知道他們的物理成績這樣數(shù)學(xué)和物理成績就形成二維平面上的100個點也可以按照距離遠近來分類三維或者更高維的情況也是類似只不過三維以上的圖形無法直觀地畫出來而已在飲料數(shù)據(jù)中每種飲料都有四個變量值這就是四維空間點的問題了 19 兩個距離概念按照遠近程度來聚類需要明確兩個概念一個是點和點之間的距離一個是類和類之間的距離點間距離有很多定義方式最簡單的是歐氏距離還有其他的距離當(dāng)然還有一些和距離相反但起同樣作用的概念比如相似性等兩點越相似度越大就相當(dāng)于距離越短由一個點組成的類是最基本的類如果每一類都由一個點組成那么點間的距離就是類間距離但是如果某一類包含不止一個點那么就要確定類間距離類間距離是基于點間距離定義的比如兩類之間最近點之間的距離可以作為這兩類之間的距離也可以用兩類中最遠點之間的距離作為這兩類之間的距離當(dāng)然也可以用各類的中心之間的距離來作為類間距離在計算時各種點間距離和類間距離的選擇是通過統(tǒng)計軟件的選項實現(xiàn)的不同的選擇的結(jié)果會不同但一般不會差太多 20 向量x x1 xp 與y y1 yp 之間的距離或相似系數(shù) 歐氏距離 Euclidean 平方歐氏距離 SquaredEuclidean 夾角余弦相似系數(shù)1 cosine Pearsoncorrelation 相似系數(shù)2 Chebychev Maxi xi yi Block 絕對距離 Si xi yi Minkowski 當(dāng)變量的測量值相差懸殊時要先進行標(biāo)準(zhǔn)化如R為極差 s為標(biāo)準(zhǔn)差則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個觀測值減去均值后再除以R或s 當(dāng)觀測值大于0時有人采用Lance和Williams的距離 21 類Gp與類Gq之間的距離Dpq d xi xj 表示點xi Gp和xj Gq之間的距離最短距離法最長距離法重心法離差平方和 Wald 類平均法中間距離可變平均法可變法等可參考各書在用歐氏距離時有統(tǒng)一的遞推公式假設(shè)Gr是從Gp和Gq合并而來 22 Lance和Williams給出對歐氏距離統(tǒng)一遞推公式 D2 k r apD2 k p aqD2 k q bD2 p q g D2 k p D2 k q 前面方法的遞推公式可選擇參數(shù)而得方法ai i p q bg最短距離 0 1 2最長距離 01 2重心ni nr apaq0類平均ni nr00離差平方和 ni nk nr nk nk nr nk 0中間距離1 2 1 40可變法 1 b 2b 1 0可變平均 1 b ni nrb 1 0 23 有了上面的點間距離和類間距離的概念就可以介紹聚類的方法了這里介紹兩個簡單的方法 24

下載提示(請認(rèn)真閱讀)

1.請仔細(xì)閱讀文檔，確保文檔完整性，對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請點此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開始全文預(yù)覽

文檔包含非法信息？點此舉報后獲取現(xiàn)金獎勵！

文檔加載中……請稍候！
如果長時間未打開，您也可以點擊刷新試試。

下載文檔到電腦，查找使用更方便

30 積分

還剩頁未讀，繼續(xù)閱讀

舉報

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標(biāo)，表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: spss 聚類分析結(jié)果解釋 ppt 課件

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請勿作他用。

關(guān)于本文

本文標(biāo)題：spss聚類分析結(jié)果解釋ppt課件
鏈接地址：http://m.appdesigncorp.com/p-5022926.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

spss 聚類分析 結(jié)果 解釋 ppt 課件

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

spss聚類分析結(jié)果解釋ppt課件

最新文檔