spss聚類(lèi)分析結(jié)果解釋ppt課件
《spss聚類(lèi)分析結(jié)果解釋ppt課件》由會(huì)員分享,可在線(xiàn)閱讀,更多相關(guān)《spss聚類(lèi)分析結(jié)果解釋ppt課件(83頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第14章聚類(lèi)分析與判別分析 介紹 1 聚類(lèi)分析2 判別分析分類(lèi)學(xué)是人類(lèi)認(rèn)識(shí)世界的基礎(chǔ)科學(xué) 聚類(lèi)分析和判別分析是研究事物分類(lèi)的基本方法 廣泛地應(yīng)用于自然科學(xué) 社會(huì)科學(xué) 工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域 1 14 1 1聚類(lèi)分析 根據(jù)事物本身的特性研究個(gè)體分類(lèi)的方法 原則是同一類(lèi)中的個(gè)體有較大的相似性 不同類(lèi)中的個(gè)體差異很大 根據(jù)分類(lèi)對(duì)象的不同 分為樣品 觀(guān)測(cè)量 聚類(lèi)和變量聚類(lèi)兩種 樣品聚類(lèi) 對(duì)觀(guān)測(cè)量 Case 進(jìn)行聚類(lèi) 不同的目的選用不同的指標(biāo)作為分類(lèi)的依據(jù) 如選拔運(yùn)動(dòng)員與分課外活動(dòng)小組 變量聚類(lèi) 找出彼此獨(dú)立且有代表性的自變量 而又不丟失大部分信息 在生產(chǎn)活動(dòng)中不乏有變量聚類(lèi)的實(shí)例 如 衣服號(hào)碼 身長(zhǎng) 胸圍 褲長(zhǎng) 腰圍 鞋的號(hào)碼 變量聚類(lèi)使批量生產(chǎn)成為可能 2 14 1 2判別分析 判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類(lèi) 求出判別函數(shù) 根據(jù)判別函數(shù)對(duì)未知所屬類(lèi)別的事物進(jìn)行分類(lèi)的一種分析方法 在自然科學(xué)和社會(huì)科學(xué)的各個(gè)領(lǐng)域經(jīng)常遇到需要對(duì)某個(gè)個(gè)體屬于哪一類(lèi)進(jìn)行判斷 如動(dòng)物學(xué)家對(duì)動(dòng)物如何分類(lèi)的研究和某個(gè)動(dòng)物屬于哪一類(lèi) 目 綱的判斷 不同 判別分析和聚類(lèi)分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值 并且已知各個(gè)體的分類(lèi) 訓(xùn)練樣本 3 14 1 3聚類(lèi)分析與判別分析的SPSS過(guò)程 在Analyze Classify下 K MeansCluster 觀(guān)測(cè)量快速聚類(lèi)分析過(guò)程HierarchicalCluster 分層聚類(lèi) 進(jìn)行觀(guān)測(cè)量聚類(lèi)和變量聚類(lèi)的過(guò)程Discriminant 進(jìn)行判別分析的過(guò)程 4 14 2快速樣本聚類(lèi)過(guò)程 QuickCluster 使用k均值分類(lèi)法對(duì)觀(guān)測(cè)量進(jìn)行聚類(lèi)可使用系統(tǒng)的默認(rèn)選項(xiàng)或自己設(shè)置選項(xiàng) 如分為幾類(lèi) 指定初始類(lèi)中心 是否將聚類(lèi)結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等 快速聚類(lèi)實(shí)例 P342 data14 01a 使用系統(tǒng)的默認(rèn)值進(jìn)行 對(duì)運(yùn)動(dòng)員的分類(lèi) 分為4類(lèi) Analyze Classify K MeansClusterVariables x1 x2 x3LabelCaseBy noNumberofCluster 4比較有用的結(jié)果 聚類(lèi)結(jié)果形成的最后四類(lèi)中心點(diǎn) FinalClusterCenters 和每類(lèi)的觀(guān)測(cè)量數(shù)目 NumberofCasesineachCluster 但不知每個(gè)運(yùn)動(dòng)員究竟屬于哪一類(lèi) 這就要用到Save選項(xiàng) 5 14 2快速樣本聚類(lèi)過(guò)程 QuickCluster 中的選項(xiàng) 使用快速聚類(lèi)的選擇項(xiàng) 類(lèi)中心數(shù)據(jù)的輸入與輸出 Centers選項(xiàng)輸出數(shù)據(jù)選擇項(xiàng) Save選項(xiàng)聚類(lèi)方法選擇項(xiàng) Method選項(xiàng)聚類(lèi)何時(shí)停止選擇項(xiàng) Iterate選項(xiàng)輸出統(tǒng)計(jì)量選擇項(xiàng) Option選項(xiàng) 6 14 2指定初始類(lèi)中心的聚類(lèi)方法例題P343 數(shù)據(jù)同上 data14 01a 以四個(gè)四類(lèi)成績(jī)突出者的數(shù)據(jù)為初始聚類(lèi)中心 種子 進(jìn)行聚類(lèi) 類(lèi)中心數(shù)據(jù)文件data14 01b 但缺一列Cluster 不能直接使用 要修改 對(duì)運(yùn)動(dòng)員的分類(lèi) 還是分為4類(lèi) Analyze Classify K MeansClusterVariables x1 x2 x3LabelCaseBy noNumberofCluster 4Center Readinitialfrom data14 01bSave Clustermembership和DistancefromClusterCenter比較有用的結(jié)果 可將結(jié)果與前面沒(méi)有初始類(lèi)中心比較 聚類(lèi)結(jié)果形成的最后四類(lèi)中心點(diǎn) FinalClusterCenters 每類(lèi)的觀(guān)測(cè)量數(shù)目 NumberofCasesineachCluster 在數(shù)據(jù)文件中的兩個(gè)新變量qc1 1 每個(gè)觀(guān)測(cè)量最終被分配到哪一類(lèi) 和qc1 2 觀(guān)測(cè)量與所屬類(lèi)中心點(diǎn)的距離 7 14 3分層聚類(lèi) HierarchicalCluster 分層聚類(lèi)方法 分解法 先視為一大類(lèi) 再分成幾類(lèi)凝聚法 先視每個(gè)為一類(lèi) 再合并為幾大類(lèi)可用于觀(guān)測(cè)量 樣本 聚類(lèi) Q型 和變量聚類(lèi) R型 一般分為兩步 自動(dòng) 可從Paste的語(yǔ)句知道 P359 Proximities 先對(duì)數(shù)據(jù)進(jìn)行的預(yù)處理 標(biāo)準(zhǔn)化和計(jì)算距離等 Cluster 然后進(jìn)行聚類(lèi)分析兩種統(tǒng)計(jì)圖 樹(shù)形圖 Dendrogram 和冰柱圖 Icicle 各類(lèi)型數(shù)據(jù)的標(biāo)準(zhǔn)化 距離和相似性計(jì)算P348 354定距變量 分類(lèi)變量 二值變量標(biāo)準(zhǔn)化方法p353 ZScores Range 1to1 Range0to1等 8 14 3 4用分層聚類(lèi)法進(jìn)行觀(guān)測(cè)量聚類(lèi)實(shí)例P358 對(duì)20種啤酒進(jìn)行分類(lèi) data14 02 變量包括 Beername 啤酒名稱(chēng) calorie 熱量 sodium 鈉含量 alcohol 酒精含量 cost 價(jià)格 Analyze Classify HierarchicalCluster Variables calorie sodium alcohol cost成分和價(jià)格LabelCaseBy BeernameCluster Case Q聚類(lèi)Display 選中Statistics 單擊StatisticsAgglomerationSchedule凝聚狀態(tài)表Proximitymatrix 距離矩陣Clustermembership Singlesolution 4顯示分為4類(lèi)時(shí) 各觀(guān)測(cè)量所屬的類(lèi)Method Cluster FurthestNeighbor Measure Interval SquaredEuclideandistance TransformValue Range0 1 Byvariable 值 最小值 極差 Plots Dendrogram Icicle Specifiedrangeofcluster Start 1 Stop 4 by 1 Orientation Vertical縱向作圖 Save ClusterMembership Singlesolution 4 比較有用的結(jié)果 根據(jù)需要進(jìn)行分類(lèi) 在數(shù)據(jù)文件中的分類(lèi)新變量clu4 1等 9 14 3 5用分層聚類(lèi)法進(jìn)行變量聚類(lèi) 變量聚類(lèi) 是一種降維的方法 用于在變量眾多時(shí)尋找有代表性的變量 以便在用少量 有代表性的變量代替大變量集時(shí) 損失信息很少 與進(jìn)行觀(guān)測(cè)量聚類(lèi)雷同 不同點(diǎn)在于 選擇Variable而非CaseSave選項(xiàng)失效 不建立的新變量 10 14 3 6變量聚類(lèi)實(shí)例1P366 上面啤酒分類(lèi)問(wèn)題data14 02 Analyze Classify HierarchicalCluster Variables calorie sodium alcohol cost成分和價(jià)格Cluster Variable R聚類(lèi)Method ClusterMethod FurthestNeighborMeasure Interval PearsonCorrelationTransformValues ZScore ByVariable Plots Dendrogram樹(shù)型圖Statistics Proximitymatrix 相關(guān)矩陣比較有用的結(jié)果 根據(jù)相關(guān)矩陣和樹(shù)型圖 可知calorie 熱量 和alcohol 酒精含量 的相關(guān)系數(shù)最大 首先聚為一類(lèi) 從整體上看 聚為三類(lèi)是比較好的結(jié)果 至于熱量和酒精含量選擇哪個(gè)作為典型指標(biāo)代替原來(lái)的兩個(gè)變量 可以根據(jù)專(zhuān)業(yè)知識(shí)或測(cè)度的難易程度決定 11 14 3 6變量聚類(lèi)實(shí)例2P368 有10個(gè)測(cè)試項(xiàng)目 分別用變量X1 X10表示 50名學(xué)生參加測(cè)試 想從10個(gè)變量中選擇幾個(gè)典型指標(biāo) data14 03Analyze Classify HierarchicalCluster Variables X1 X10Cluster Variable R聚類(lèi)Method ClusterMethod FurthestNeighborMeasure Interval PearsonCorrelationPlots Dendrogram樹(shù)型圖Statistics Proximitymatrix相關(guān)矩陣比較有用的結(jié)果 可以從樹(shù)型圖中看出聚類(lèi)過(guò)程 具體聚為幾類(lèi)最為合理 根據(jù)專(zhuān)業(yè)知識(shí)來(lái)定 而每類(lèi)中的典型指標(biāo)的選擇 可用p370的相關(guān)指數(shù)公式的計(jì)算 然后比較類(lèi)中各個(gè)變量間的相關(guān)指數(shù) 哪個(gè)大 就選哪個(gè)變量作為此類(lèi)的代表變量 12 14 4判別分析P374 判別分析的概念 是根據(jù)觀(guān)測(cè)到的若干變量值 判斷研究對(duì)象如何分類(lèi)的方法 要先建立判別函數(shù)Y a1x1 a2x2 anxn 其中 Y為判別分?jǐn)?shù) 判別值 x1x2 xn為反映研究對(duì)象特征的變量 a1a2 an為系數(shù)SPSS對(duì)于分為m類(lèi)的研究對(duì)象 建立m個(gè)線(xiàn)性判別函數(shù) 對(duì)于每個(gè)個(gè)體進(jìn)行判別時(shí) 把觀(guān)測(cè)量的各變量值代入判別函數(shù) 得出判別分?jǐn)?shù) 從而確定該個(gè)體屬于哪一類(lèi) 或計(jì)算屬于各類(lèi)的概率 從而判別該個(gè)體屬于哪一類(lèi) 還建立標(biāo)準(zhǔn)化和未標(biāo)準(zhǔn)化的典則判別函數(shù) 具體見(jiàn)下面吳喜之教授有關(guān)判別分析的講義 13 補(bǔ)充 聚類(lèi)分析與判別分析 以下的講義是吳喜之教授有關(guān)聚類(lèi)分析與判別分析的講義 我覺(jué)得比書(shū)上講得清楚 先是聚類(lèi)分析一章再是判別分析一章 14 聚類(lèi)分析 15 分類(lèi) 俗語(yǔ)說(shuō) 物以類(lèi)聚 人以群分 但什么是分類(lèi)的根據(jù)呢 比如 要想把中國(guó)的縣分成若干類(lèi) 就有很多種分類(lèi)法 可以按照自然條件來(lái)分 比如考慮降水 土地 日照 濕度等各方面 也可以考慮收入 教育水準(zhǔn) 醫(yī)療條件 基礎(chǔ)設(shè)施等指標(biāo) 既可以用某一項(xiàng)來(lái)分類(lèi) 也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類(lèi) 16 聚類(lèi)分析 對(duì)于一個(gè)數(shù)據(jù) 人們既可以對(duì)變量 指標(biāo) 進(jìn)行分類(lèi) 相當(dāng)于對(duì)數(shù)據(jù)中的列分類(lèi) 也可以對(duì)觀(guān)測(cè)值 事件 樣品 來(lái)分類(lèi) 相當(dāng)于對(duì)數(shù)據(jù)中的行分類(lèi) 比如學(xué)生成績(jī)數(shù)據(jù)就可以對(duì)學(xué)生按照理科或文科成績(jī) 或者綜合考慮各科成績(jī) 分類(lèi) 當(dāng)然 并不一定事先假定有多少類(lèi) 完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類(lèi) 本章要介紹的分類(lèi)的方法稱(chēng)為聚類(lèi)分析 clusteranalysis 對(duì)變量的聚類(lèi)稱(chēng)為R型聚類(lèi) 而對(duì)觀(guān)測(cè)值聚類(lèi)稱(chēng)為Q型聚類(lèi) 這兩種聚類(lèi)在數(shù)學(xué)上是對(duì)稱(chēng)的 沒(méi)有什么不同 17 飲料數(shù)據(jù) drink sav 16種飲料的熱量 咖啡因 鈉及價(jià)格四種變量 18 如何度量遠(yuǎn)近 如果想要對(duì)100個(gè)學(xué)生進(jìn)行分類(lèi) 如果僅僅知道他們的數(shù)學(xué)成績(jī) 則只好按照數(shù)學(xué)成績(jī)來(lái)分類(lèi) 這些成績(jī)?cè)谥本€(xiàn)上形成100個(gè)點(diǎn) 這樣就可以把接近的點(diǎn)放到一類(lèi) 如果還知道他們的物理成績(jī) 這樣數(shù)學(xué)和物理成績(jī)就形成二維平面上的100個(gè)點(diǎn) 也可以按照距離遠(yuǎn)近來(lái)分類(lèi) 三維或者更高維的情況也是類(lèi)似 只不過(guò)三維以上的圖形無(wú)法直觀(guān)地畫(huà)出來(lái)而已 在飲料數(shù)據(jù)中 每種飲料都有四個(gè)變量值 這就是四維空間點(diǎn)的問(wèn)題了 19 兩個(gè)距離概念 按照遠(yuǎn)近程度來(lái)聚類(lèi)需要明確兩個(gè)概念 一個(gè)是點(diǎn)和點(diǎn)之間的距離 一個(gè)是類(lèi)和類(lèi)之間的距離 點(diǎn)間距離有很多定義方式 最簡(jiǎn)單的是歐氏距離 還有其他的距離 當(dāng)然還有一些和距離相反但起同樣作用的概念 比如相似性等 兩點(diǎn)越相似度越大 就相當(dāng)于距離越短 由一個(gè)點(diǎn)組成的類(lèi)是最基本的類(lèi) 如果每一類(lèi)都由一個(gè)點(diǎn)組成 那么點(diǎn)間的距離就是類(lèi)間距離 但是如果某一類(lèi)包含不止一個(gè)點(diǎn) 那么就要確定類(lèi)間距離 類(lèi)間距離是基于點(diǎn)間距離定義的 比如兩類(lèi)之間最近點(diǎn)之間的距離可以作為這兩類(lèi)之間的距離 也可以用兩類(lèi)中最遠(yuǎn)點(diǎn)之間的距離作為這兩類(lèi)之間的距離 當(dāng)然也可以用各類(lèi)的中心之間的距離來(lái)作為類(lèi)間距離 在計(jì)算時(shí) 各種點(diǎn)間距離和類(lèi)間距離的選擇是通過(guò)統(tǒng)計(jì)軟件的選項(xiàng)實(shí)現(xiàn)的 不同的選擇的結(jié)果會(huì)不同 但一般不會(huì)差太多 20 向量x x1 xp 與y y1 yp 之間的距離或相似系數(shù) 歐氏距離 Euclidean 平方歐氏距離 SquaredEuclidean 夾角余弦 相似系數(shù)1 cosine Pearsoncorrelation 相似系數(shù)2 Chebychev Maxi xi yi Block 絕對(duì)距離 Si xi yi Minkowski 當(dāng)變量的測(cè)量值相差懸殊時(shí) 要先進(jìn)行標(biāo)準(zhǔn)化 如R為極差 s為標(biāo)準(zhǔn)差 則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個(gè)觀(guān)測(cè)值減去均值后再除以R或s 當(dāng)觀(guān)測(cè)值大于0時(shí) 有人采用Lance和Williams的距離 21 類(lèi)Gp與類(lèi)Gq之間的距離Dpq d xi xj 表示點(diǎn)xi Gp和xj Gq之間的距離 最短距離法 最長(zhǎng)距離法 重心法 離差平方和 Wald 類(lèi)平均法 中間距離 可變平均法 可變法等可參考各書(shū) 在用歐氏距離時(shí) 有統(tǒng)一的遞推公式 假設(shè)Gr是從Gp和Gq合并而來(lái) 22 Lance和Williams給出 對(duì)歐氏距離 統(tǒng)一遞推公式 D2 k r apD2 k p aqD2 k q bD2 p q g D2 k p D2 k q 前面方法的遞推公式可選擇參數(shù)而得 方法ai i p q bg最短距離 0 1 2最長(zhǎng)距離 01 2重心ni nr apaq0類(lèi)平均ni nr00離差平方和 ni nk nr nk nk nr nk 0中間距離1 2 1 40可變法 1 b 2b 1 0可變平均 1 b ni nrb 1 0 23 有了上面的點(diǎn)間距離和類(lèi)間距離的概念 就可以介紹聚類(lèi)的方法了 這里介紹兩個(gè)簡(jiǎn)單的方法 24- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
30 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- spss 聚類(lèi)分析 結(jié)果 解釋 ppt 課件
鏈接地址:http://m.appdesigncorp.com/p-5022926.html