聚類分析結(jié)果解釋.ppt

上傳人：sh****n

文檔編號：9127692

上傳時間：2020-04-03

格式：PPT

頁數(shù)：83

大?。?.67MB

《聚類分析結(jié)果解釋.ppt》由會員分享，可在線閱讀，更多相關(guān)《聚類分析結(jié)果解釋.ppt（83頁珍藏版）》請在裝配圖網(wǎng)上搜索。

第14章聚類分析與判別分析介紹 1 聚類分析2 判別分析分類學(xué)是人類認(rèn)識世界的基礎(chǔ)科學(xué) 聚類分析和判別分析是研究事物分類的基本方法廣泛地應(yīng)用于自然科學(xué) 社會科學(xué) 工農(nóng)業(yè)生產(chǎn)的各個領(lǐng)域 14 1 1聚類分析根據(jù)事物本身的特性研究個體分類的方法原則是同一類中的個體有較大的相似性不同類中的個體差異很大根據(jù)分類對象的不同分為樣品觀測量聚類和變量聚類兩種樣品聚類對觀測量 Case 進(jìn)行聚類不同的目的選用不同的指標(biāo)作為分類的依據(jù) 如選拔運(yùn)動員與分課外活動小組變量聚類找出彼此獨(dú)立且有代表性的自變量而又不丟失大部分信息在生產(chǎn)活動中不乏有變量聚類的實(shí)例如衣服號碼身長胸圍褲長腰圍鞋的號碼變量聚類使批量生產(chǎn)成為可能 14 1 2判別分析判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類求出判別函數(shù) 根據(jù)判別函數(shù)對未知所屬類別的事物進(jìn)行分類的一種分析方法在自然科學(xué)和社會科學(xué)的各個領(lǐng)域經(jīng)常遇到需要對某個個體屬于哪一類進(jìn)行判斷如動物學(xué)家對動物如何分類的研究和某個動物屬于哪一類目綱的判斷不同判別分析和聚類分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值并且已知各個體的分類訓(xùn)練樣本 14 1 3聚類分析與判別分析的SPSS過程在Analyze Classify下 K MeansCluster 觀測量快速聚類分析過程HierarchicalCluster 分層聚類進(jìn)行觀測量聚類和變量聚類的過程Discriminant 進(jìn)行判別分析的過程 14 2快速樣本聚類過程 QuickCluster 使用k均值分類法對觀測量進(jìn)行聚類可使用系統(tǒng)的默認(rèn)選項(xiàng)或自己設(shè)置選項(xiàng) 如分為幾類指定初始類中心是否將聚類結(jié)果或中間數(shù)據(jù)數(shù)據(jù)存入數(shù)據(jù)文件等快速聚類實(shí)例 P342 data14 01a 使用系統(tǒng)的默認(rèn)值進(jìn)行對運(yùn)動員的分類分為4類 Analyze Classify K MeansClusterVariables x1 x2 x3LabelCaseBy noNumberofCluster 4比較有用的結(jié)果聚類結(jié)果形成的最后四類中心點(diǎn) FinalClusterCenters 和每類的觀測量數(shù)目 NumberofCasesineachCluster 但不知每個運(yùn)動員究竟屬于哪一類這就要用到Save選項(xiàng) 14 2快速樣本聚類過程 QuickCluster 中的選項(xiàng) 使用快速聚類的選擇項(xiàng) 類中心數(shù)據(jù)的輸入與輸出 Centers選項(xiàng)輸出數(shù)據(jù)選擇項(xiàng) Save選項(xiàng)聚類方法選擇項(xiàng) Method選項(xiàng)聚類何時停止選擇項(xiàng) Iterate選項(xiàng)輸出統(tǒng)計量選擇項(xiàng) Option選項(xiàng) 14 2指定初始類中心的聚類方法例題P343 數(shù)據(jù)同上 data14 01a 以四個四類成績突出者的數(shù)據(jù)為初始聚類中心種子進(jìn)行聚類類中心數(shù)據(jù)文件data14 01b 但缺一列Cluster 不能直接使用要修改對運(yùn)動員的分類還是分為4類 Analyze Classify K MeansClusterVariables x1 x2 x3LabelCaseBy noNumberofCluster 4Center Readinitialfrom data14 01bSave Clustermembership和DistancefromClusterCenter比較有用的結(jié)果可將結(jié)果與前面沒有初始類中心比較聚類結(jié)果形成的最后四類中心點(diǎn) FinalClusterCenters 每類的觀測量數(shù)目 NumberofCasesineachCluster 在數(shù)據(jù)文件中的兩個新變量qc1 1 每個觀測量最終被分配到哪一類和qc1 2 觀測量與所屬類中心點(diǎn)的距離 14 3分層聚類 HierarchicalCluster 分層聚類方法分解法先視為一大類再分成幾類凝聚法先視每個為一類再合并為幾大類可用于觀測量樣本聚類 Q型和變量聚類 R型一般分為兩步自動可從Paste的語句知道 P359 Proximities 先對數(shù)據(jù)進(jìn)行的預(yù)處理標(biāo)準(zhǔn)化和計算距離等 Cluster 然后進(jìn)行聚類分析兩種統(tǒng)計圖樹形圖 Dendrogram 和冰柱圖 Icicle 各類型數(shù)據(jù)的標(biāo)準(zhǔn)化距離和相似性計算P348 354定距變量分類變量二值變量標(biāo)準(zhǔn)化方法p353 ZScores Range 1to1 Range0to1等 14 3 4用分層聚類法進(jìn)行觀測量聚類實(shí)例P358 對20種啤酒進(jìn)行分類 data14 02 變量包括 Beername 啤酒名稱 calorie 熱量 sodium 鈉含量 alcohol 酒精含量 cost 價格 Analyze Classify HierarchicalCluster Variables calorie sodium alcohol cost成分和價格LabelCaseBy BeernameCluster Case Q聚類Display 選中Statistics 單擊StatisticsAgglomerationSchedule凝聚狀態(tài)表Proximitymatrix 距離矩陣Clustermembership Singlesolution 4顯示分為4類時各觀測量所屬的類Method Cluster FurthestNeighbor Measure Interval SquaredEuclideandistance TransformValue Range0 1 Byvariable 值最小值極差 Plots Dendrogram Icicle Specifiedrangeofcluster Start 1 Stop 4 by 1 Orientation Vertical縱向作圖 Save ClusterMembership Singlesolution 4 比較有用的結(jié)果根據(jù)需要進(jìn)行分類在數(shù)據(jù)文件中的分類新變量clu4 1等 14 3 5用分層聚類法進(jìn)行變量聚類變量聚類是一種降維的方法用于在變量眾多時尋找有代表性的變量以便在用少量有代表性的變量代替大變量集時損失信息很少與進(jìn)行觀測量聚類雷同不同點(diǎn)在于選擇Variable而非CaseSave選項(xiàng)失效不建立的新變量 14 3 6變量聚類實(shí)例1P366 上面啤酒分類問題data14 02 Analyze Classify HierarchicalCluster Variables calorie sodium alcohol cost成分和價格Cluster Variable R聚類Method ClusterMethod FurthestNeighborMeasure Interval PearsonCorrelationTransformValues ZScore ByVariable Plots Dendrogram樹型圖Statistics Proximitymatrix 相關(guān)矩陣比較有用的結(jié)果根據(jù)相關(guān)矩陣和樹型圖可知calorie 熱量和alcohol 酒精含量的相關(guān)系數(shù)最大首先聚為一類從整體上看聚為三類是比較好的結(jié)果至于熱量和酒精含量選擇哪個作為典型指標(biāo)代替原來的兩個變量可以根據(jù)專業(yè)知識或測度的難易程度決定 14 3 6變量聚類實(shí)例2P368 有10個測試項(xiàng)目分別用變量X1 X10表示 50名學(xué)生參加測試想從10個變量中選擇幾個典型指標(biāo) data14 03Analyze Classify HierarchicalCluster Variables X1 X10Cluster Variable R聚類Method ClusterMethod FurthestNeighborMeasure Interval PearsonCorrelationPlots Dendrogram樹型圖Statistics Proximitymatrix相關(guān)矩陣比較有用的結(jié)果可以從樹型圖中看出聚類過程具體聚為幾類最為合理根據(jù)專業(yè)知識來定而每類中的典型指標(biāo)的選擇可用p370的相關(guān)指數(shù)公式的計算然后比較類中各個變量間的相關(guān)指數(shù) 哪個大就選哪個變量作為此類的代表變量 14 4判別分析P374 判別分析的概念是根據(jù)觀測到的若干變量值判斷研究對象如何分類的方法要先建立判別函數(shù)Y a1x1 a2x2 anxn 其中 Y為判別分?jǐn)?shù) 判別值 x1x2 xn為反映研究對象特征的變量 a1a2 an為系數(shù)SPSS對于分為m類的研究對象建立m個線性判別函數(shù) 對于每個個體進(jìn)行判別時把觀測量的各變量值代入判別函數(shù) 得出判別分?jǐn)?shù) 從而確定該個體屬于哪一類或計算屬于各類的概率從而判別該個體屬于哪一類還建立標(biāo)準(zhǔn)化和未標(biāo)準(zhǔn)化的典則判別函數(shù) 具體見下面吳喜之教授有關(guān)判別分析的講義補(bǔ)充聚類分析與判別分析以下的講義是吳喜之教授有關(guān)聚類分析與判別分析的講義我覺得比書上講得清楚先是聚類分析一章再是判別分析一章聚類分析分類俗語說物以類聚人以群分但什么是分類的根據(jù)呢比如要想把中國的縣分成若干類就有很多種分類法可以按照自然條件來分比如考慮降水土地日照濕度等各方面也可以考慮收入教育水準(zhǔn) 醫(yī)療條件基礎(chǔ)設(shè)施等指標(biāo) 既可以用某一項(xiàng)來分類也可以同時考慮多項(xiàng)指標(biāo)來分類聚類分析對于一個數(shù)據(jù) 人們既可以對變量指標(biāo) 進(jìn)行分類相當(dāng)于對數(shù)據(jù)中的列分類也可以對觀測值事件樣品來分類相當(dāng)于對數(shù)據(jù)中的行分類比如學(xué)生成績數(shù)據(jù)就可以對學(xué)生按照理科或文科成績或者綜合考慮各科成績分類當(dāng)然并不一定事先假定有多少類完全可以按照數(shù)據(jù)本身的規(guī)律來分類本章要介紹的分類的方法稱為聚類分析 clusteranalysis 對變量的聚類稱為R型聚類而對觀測值聚類稱為Q型聚類這兩種聚類在數(shù)學(xué)上是對稱的沒有什么不同飲料數(shù)據(jù) drink sav 16種飲料的熱量咖啡因鈉及價格四種變量如何度量遠(yuǎn)近如果想要對100個學(xué)生進(jìn)行分類如果僅僅知道他們的數(shù)學(xué)成績則只好按照數(shù)學(xué)成績來分類這些成績在直線上形成100個點(diǎn) 這樣就可以把接近的點(diǎn)放到一類如果還知道他們的物理成績這樣數(shù)學(xué)和物理成績就形成二維平面上的100個點(diǎn) 也可以按照距離遠(yuǎn)近來分類三維或者更高維的情況也是類似只不過三維以上的圖形無法直觀地畫出來而已在飲料數(shù)據(jù)中每種飲料都有四個變量值這就是四維空間點(diǎn)的問題了兩個距離概念按照遠(yuǎn)近程度來聚類需要明確兩個概念一個是點(diǎn)和點(diǎn)之間的距離一個是類和類之間的距離點(diǎn)間距離有很多定義方式最簡單的是歐氏距離還有其他的距離當(dāng)然還有一些和距離相反但起同樣作用的概念比如相似性等兩點(diǎn)越相似度越大就相當(dāng)于距離越短由一個點(diǎn)組成的類是最基本的類如果每一類都由一個點(diǎn)組成那么點(diǎn)間的距離就是類間距離但是如果某一類包含不止一個點(diǎn) 那么就要確定類間距離類間距離是基于點(diǎn)間距離定義的比如兩類之間最近點(diǎn)之間的距離可以作為這兩類之間的距離也可以用兩類中最遠(yuǎn)點(diǎn)之間的距離作為這兩類之間的距離當(dāng)然也可以用各類的中心之間的距離來作為類間距離在計算時各種點(diǎn)間距離和類間距離的選擇是通過統(tǒng)計軟件的選項(xiàng)實(shí)現(xiàn)的不同的選擇的結(jié)果會不同但一般不會差太多向量x x1 xp 與y y1 yp 之間的距離或相似系數(shù) 歐氏距離 Euclidean 平方歐氏距離 SquaredEuclidean 夾角余弦相似系數(shù)1 cosine Pearsoncorrelation 相似系數(shù)2 Chebychev Maxi xi yi Block 絕對距離 Si xi yi Minkowski 當(dāng)變量的測量值相差懸殊時要先進(jìn)行標(biāo)準(zhǔn)化如R為極差 s為標(biāo)準(zhǔn)差則標(biāo)準(zhǔn)化的數(shù)據(jù)為每個觀測值減去均值后再除以R或s 當(dāng)觀測值大于0時有人采用Lance和Williams的距離類Gp與類Gq之間的距離Dpq d xi xj 表示點(diǎn)xi Gp和xj Gq之間的距離最短距離法最長距離法重心法離差平方和 Wald 類平均法中間距離可變平均法可變法等可參考各書在用歐氏距離時有統(tǒng)一的遞推公式假設(shè)Gr是從Gp和Gq合并而來 Lance和Williams給出對歐氏距離統(tǒng)一遞推公式 D2 k r apD2 k p aqD2 k q bD2 p q g D2 k p D2 k q 前面方法的遞推公式可選擇參數(shù)而得方法ai i p q bg最短距離 0 1 2最長距離 01 2重心ni nr apaq0類平均ni nr00離差平方和 ni nk nr nk nk nr nk 0中間距離1 2 1 40可變法 1 b 2b 1 0可變平均 1 b ni nrb 1 0 有了上面的點(diǎn)間距離和類間距離的概念就可以介紹聚類的方法了這里介紹兩個簡單的方法事先要確定分多少類 k 均值聚類前面說過聚類可以走著瞧不一定事先確定有多少類但是這里的k 均值聚類 k meanscluster 也叫快速聚類 quickcluster 卻要求你先說好要分多少類看起來有些主觀是吧假定你說分3類這個方法還進(jìn)一步要求你事先確定3個點(diǎn)為聚類種子 SPSS軟件自動為你選種子也就是說把這3個點(diǎn)作為三類中每一類的基石然后根據(jù)和這三個點(diǎn)的距離遠(yuǎn)近把所有點(diǎn)分成三類再把這三類的中心均值作為新的基石或種子原來的種子就沒用了重新按照距離分類如此疊代下去直到達(dá)到停止疊代的要求比如各類最后變化不大了或者疊代次數(shù)太多了顯然前面的聚類種子的選擇并不必太認(rèn)真它們很可能最后還會分到同一類中呢下面用飲料例的數(shù)據(jù)來做k 均值聚類假定要把這16種飲料分成3類利用SPSS 只疊代了三次就達(dá)到目標(biāo)了計算機(jī)選的種子還可以這樣就可以得到最后的三類的中心以及每類有多少點(diǎn) 根據(jù)需要可以輸出哪些點(diǎn)分在一起結(jié)果是第一類為飲料1 10 第二類為飲料2 4 8 11 12 13 14 第三類為剩下的飲料3 5 6 7 9 15 16 SPSS實(shí)現(xiàn) 聚類分析 K 均值聚類以數(shù)據(jù)drink sav為例在SPSS中選擇Analyze Classify K MenasCluster 然后把calorie 熱量 caffeine 咖啡因 sodium 鈉 price 價格選入Variables 在NumberofClusters處選擇3 想要分的類數(shù) 如果想要知道哪種飲料分到哪類則選Save 再選ClusterMembership等注意k 均值聚類只能做Q型聚類如要做R型聚類需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置事先不用確定分多少類分層聚類另一種聚類稱為分層聚類或系統(tǒng)聚類 hierarchicalcluster 開始時有多少點(diǎn)就是多少類它第一步先把最近的兩類點(diǎn) 合并成一類然后再把剩下的最近的兩類合并成一類這樣下去每次都少一類直到最后只有一大類為止顯然越是后來合并的類距離就越遠(yuǎn) 再對飲料例子來實(shí)施分層聚類對于我們的數(shù)據(jù) SPSS輸出的樹型圖為聚類要注意的問題聚類結(jié)果主要受所選擇的變量影響如果去掉一些變量或者增加一些變量結(jié)果會很不同相比之下聚類方法的選擇則不那么重要了因此聚類之前一定要目標(biāo)明確另外就分成多少類來說也要有道理只要你高興從分層聚類的計算機(jī)結(jié)果可以得到任何可能數(shù)量的類但是聚類的目的是要使各類距離盡可能的遠(yuǎn) 而類中點(diǎn)的距離盡可能的近而且分類結(jié)果還要有令人信服的解釋這一點(diǎn)就不是數(shù)學(xué)可以解決的了 SPSS實(shí)現(xiàn) 聚類分析分層聚類對drink sav數(shù)據(jù)在SPSS中選擇Analyze Classify HierarchicalCluster 然后把calorie 熱量 caffeine 咖啡因 sodium 鈉 price 價格選入Variables 在Cluster選Cases 這是Q型聚類對觀測值聚類如果要對變量聚類 R型聚類則選Variables 為了畫出樹狀圖選Plots 再點(diǎn)Dendrogram等啤酒成分和價格數(shù)據(jù) data14 02 啤酒名熱量鈉含量酒精價格Budweiser144 0019 004 70 43Schlitz181 0019 004 90 43Ionenbrau157 0015 004 90 48Kronensourc170 007 005 20 73Heineken152 0011 005 00 77Old milnaukee145 0023 004 60 26Aucsberger175 0024 005 50 40Strchs bohemi149 0027 004 70 42Miller lite99 0010 004 30 43Sudeiser lich113 006 003 70 44Coors140 0016 004 60 44Coorslicht102 0015 004 10 46Michelos lich135 0011 004 20 50Secrs150 0019 004 70 76Kkirin149 006 005 00 79Pabst extra l68 0015 002 30 36Hamms136 0019 004 40 43Heilemans old144 0024 004 90 43Olympia gold 72 006 002 90 46Schlite light97 007 004 20 47 Statistics Classify HierarchicalCluster Variables 啤酒名和成分價格等Cluster Case Q型聚類 Display Statistics AgglomerationSchedule凝聚狀態(tài)表 Proximitymatrix Clustermembership Singlesolution 4 Method Cluster FurthestNeighbor Measure Interval SquaredEuclideandistance TransformValue Range0 1 Byvariable 值最小值極差 Plots Dendrogram Icicle Specifiedrangeofcluster Start 1 Stop 4 by 1 Orientation Vertical Save ClusterMembership Singlesolution 4 啤酒例子下表 Proximitymatrix 中行列交叉點(diǎn)為兩種啤酒之間各變量的歐氏距離平方和凝聚過程 Coefficients為不相似系數(shù) 由于是歐氏距離小的先合并分為四類的聚類結(jié)果冰柱圖 icicle 聚類樹型圖學(xué)生測驗(yàn)數(shù)據(jù) data14 03 50個學(xué)生 X1 X10個測驗(yàn)項(xiàng)目要對這10個變量進(jìn)行變量聚類 R型聚類過程和Q型聚類觀測量聚類對cases 一樣 Statistics Classify HierarchicalCluster Variables x1 x10Cluster Variable R型聚類 Display Statistics Proximitymatrix Clustermembership Singlesolution 2 Method Cluster FurthestNeighbor Measure Interval Pearsoncorrelation 用Pearson相關(guān)系數(shù) Plots Icicle AllCluster 學(xué)生測驗(yàn)例子下表 Proximitymatrix 中行列交叉點(diǎn)為兩個變量之間變量的歐氏距離平方和分為兩類的聚類結(jié)果冰柱圖 icicle 判別分析判別有一些昆蟲的性別很難看出只有通過解剖才能夠判別但是雄性和雌性昆蟲在若干體表度量上有些綜合的差異于是統(tǒng)計學(xué)家就根據(jù)已知雌雄的昆蟲體表度量這些用作度量的變量亦稱為預(yù)測變量得到一個標(biāo)準(zhǔn) 并且利用這個標(biāo)準(zhǔn)來判別其他未知性別的昆蟲這樣的判別雖然不能保證百分之百準(zhǔn)確但至少大部分判別都是對的而且用不著殺死昆蟲來進(jìn)行判別了判別分析 discriminantanalysis 這就是本章要講的是判別分析判別分析和前面的聚類分析有什么不同呢主要不同點(diǎn)就是在聚類分析中一般人們事先并不知道或一定要明確應(yīng)該分成幾類完全根據(jù)數(shù)據(jù)來確定而在判別分析中至少有一個已經(jīng)明確知道類別的訓(xùn)練樣本利用這個數(shù)據(jù) 就可以建立判別準(zhǔn)則并通過預(yù)測變量來為未知類別的觀測值進(jìn)行判別了判別分析例子數(shù)據(jù)disc sav 企圖用一套打分體系來描繪企業(yè)的狀況該體系對每個企業(yè)的一些指標(biāo) 變量進(jìn)行評分這些指標(biāo)包括企業(yè)規(guī)模 is 服務(wù) se 雇員工資比例 sa 利潤增長 prr 市場份額 ms 市場份額增長 msr 流動資金比例 cp 資金周轉(zhuǎn)速度 cs 等等另外有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè) 穩(wěn)定企業(yè)和下降企業(yè) 我們希望根據(jù)這些企業(yè)的上述變量的打分和它們已知的類別三個類別之一 group 1代表上升 group 2代表穩(wěn)定 group 3代表下降找出一個分類標(biāo)準(zhǔn) 以對沒有被該刊物分類的企業(yè)進(jìn)行分類該數(shù)據(jù)有90個企業(yè) 90個觀測值其中30個屬于上升型 30個屬于穩(wěn)定型 30個屬于下降型這個數(shù)據(jù)就是一個訓(xùn)練樣本 Disc sav數(shù)據(jù) 根據(jù)距離的判別不用投影 Disc sav數(shù)據(jù)有8個用來建立判別標(biāo)準(zhǔn) 或判別函數(shù) 的預(yù)測變量另一個 group 是類別因此每一個企業(yè)的打分在這8個變量所構(gòu)成的8維空間中是一個點(diǎn) 這個數(shù)據(jù)有90個點(diǎn) 由于已經(jīng)知道所有點(diǎn)的類別了所以可以求得每個類型的中心這樣只要定義了如何計算距離就可以得到任何給定的點(diǎn) 企業(yè) 到這三個中心的三個距離顯然最簡單的辦法就是離哪個中心距離最近就屬于哪一類通常使用的距離是所謂的Mahalanobis距離用來比較到各個中心距離的數(shù)學(xué)函數(shù)稱為判別函數(shù) discriminantfunction 這種根據(jù)遠(yuǎn)近判別的方法原理簡單直觀易懂 Fisher判別法先進(jìn)行投影所謂Fisher判別法就是一種先投影的方法考慮只有兩個預(yù)測變量的判別分析問題假定這里只有兩類數(shù)據(jù)中的每個觀測值是二維空間的一個點(diǎn) 見圖下一張幻燈片這里只有兩種已知類型的訓(xùn)練樣本其中一類有38個點(diǎn) 用 o 表示另一類有44個點(diǎn) 用表示按照原來的變量橫坐標(biāo)和縱坐標(biāo) 很難將這兩種點(diǎn)分開于是就尋找一個方向也就是圖上的虛線方向沿著這個方向朝和這個虛線垂直的一條直線進(jìn)行投影會使得這兩類分得最清楚可以看出如果向其他方向投影判別效果不會比這個好有了投影之后再用前面講到的距離遠(yuǎn)近的方法來得到判別準(zhǔn)則這種首先進(jìn)行投影的判別方法就是Fisher判別法逐步判別法僅僅是在前面的方法中加入變量選擇的功能有時一些變量對于判別并沒有什么作用為了得到對判別最合適的變量可以使用逐步判別也就是一邊判別一邊引進(jìn)判別能力最強(qiáng)的變量這個過程可以有進(jìn)有出一個變量的判別能力的判斷方法有很多種主要利用各種檢驗(yàn) 例如Wilks Lambda Rao sV TheSquaredMahalanobisDistance SmallestFratio或TheSumofUnexplainedVariations等檢驗(yàn) 其細(xì)節(jié)這里就不贅述了這些不同方法可由統(tǒng)計軟件的各種選項(xiàng)來實(shí)現(xiàn) 逐步判別的其他方面和前面的無異 Disc sav例子利用SPSS軟件的逐步判別法淘汰了不顯著的流動資金比例 cp 還剩下七個變量is se sa prr ms msr cs 得到兩個典則判別函數(shù) CanonicalDiscriminantFunctionCoefficients 0 035IS 3 283SE 0 037SA 0 007PRR 0 068MS 0 023MSR 0 385CS 3 1660 005IS 0 567SE 0 041SA 0 012PRR 0 048MS 0 044MSR 0 159CS 4 384 這兩個函數(shù)實(shí)際上是由Fisher判別法得到的向兩個方向的投影這兩個典則判別函數(shù)的系數(shù)是下面的SPSS輸出得到的 Disc sav例子根據(jù)這兩個函數(shù) 從任何一個觀測值每個觀測值都有7個變量值都可以算出兩個數(shù) 把這兩個數(shù)目當(dāng)成該觀測值的坐標(biāo) 這樣數(shù)據(jù)中的150個觀測值就是二維平面上的150個點(diǎn) 它們的點(diǎn)圖在下面圖中 Disc sav例子從上圖可以看出第一個投影相應(yīng)于來自于第一個典則判別函數(shù)橫坐標(biāo)值已經(jīng)能夠很好地分辨出三個企業(yè)類型了這兩個典則判別函數(shù)并不是平等的其實(shí)一個函數(shù)就已經(jīng)能夠把這三類分清楚了 SPSS的一個輸出就給出了這些判別函數(shù) 投影的重要程度前面說過投影的重要性是和特征值的貢獻(xiàn)率有關(guān) 該表說明第一個函數(shù)的貢獻(xiàn)率已經(jīng)是99 了而第二個只有1 當(dāng)然二維圖要容易看一些投影之后再根據(jù)各點(diǎn)的位置遠(yuǎn)近算出具體的判別公式 SPSS輸出 Disc sav例子具體的判別公式 SPSS輸出由一張分類函數(shù)表給出該表給出了三個線性分類函數(shù)的系數(shù) 把每個觀測點(diǎn)帶入三個函數(shù) 就可以得到分別代表三類的三個值哪個值最大該點(diǎn)就屬于相應(yīng)的那一類當(dāng)然用不著自己去算計算機(jī)軟件的選項(xiàng)可以把這些訓(xùn)練數(shù)據(jù)的每一個點(diǎn)按照這里的分類法分到某一類當(dāng)然我們一開始就知道這些訓(xùn)練數(shù)據(jù)的各個觀測值的歸屬但即使是這些訓(xùn)練樣本的觀測值企業(yè) 按照這里推導(dǎo)出的分類函數(shù)來分類也不一定全都能夠正確劃分 Disc sav例子下面就是對我們的訓(xùn)練樣本的分類結(jié)果 SPSS 誤判和正確判別率從這個表來看我們的分類能夠100 地把訓(xùn)練數(shù)據(jù)的每一個觀測值分到其本來的類該表分成兩部分上面一半 Original 是用從全部數(shù)據(jù)得到的判別函數(shù)來判斷每一個點(diǎn)的結(jié)果前面三行為判斷結(jié)果的數(shù)目而后三行為相應(yīng)的百分比下面一半 Crossvalidated 是對每一個觀測值都用缺少該觀測的全部數(shù)據(jù)得到的判別函數(shù)來判斷的結(jié)果這里的判別結(jié)果是100 判別正確但一般并不一定 Disc sav例子如果就用這個數(shù)據(jù) 但不用所有的變量而只用4個變量進(jìn)行判別企業(yè)規(guī)模 is 服務(wù) se 雇員工資比例 sa 資金周轉(zhuǎn)速度 cs 結(jié)果的圖形和判別的正確與否就不一樣了下圖為兩個典則判別函數(shù)導(dǎo)出的150個企業(yè)的二維點(diǎn)圖它不如前面的圖那么容易分清楚了原先的圖 Disc sav例子下面是基于4個變量時分類結(jié)果表這個表的結(jié)果是有87個點(diǎn) 96 7 得到正確劃分有3個點(diǎn)被錯誤判別其中第二類有兩個被誤判為第一類有一個被誤判為第三類判別分析要注意什么訓(xùn)練樣本中必須有所有要判別的類型分類必須清楚不能有混雜要選擇好可能由于判別的預(yù)測變量這是最重要的一步當(dāng)然在應(yīng)用中選擇的余地不見得有多大要注意數(shù)據(jù)是否有不尋常的點(diǎn)或者模式存在還要看預(yù)測變量中是否有些不適宜的這可以用單變量方差分析 ANOVA 和相關(guān)分析來驗(yàn)證判別分析是為了正確地分類但同時也要注意使用盡可能少的預(yù)測變量來達(dá)到這個目的使用較少的變量意味著節(jié)省資源和易于對結(jié)果進(jìn)行解釋判別分析要注意什么在計算中需要看關(guān)于各個類的有關(guān)變量的均值是否顯著不同的檢驗(yàn)結(jié)果在SPSS選項(xiàng)中選擇Wilks Lambda Rao sV TheSquaredMahalanobisDistance或TheSumofUnexplainedVariations等檢驗(yàn)的計算機(jī)輸出以確定是否分類結(jié)果是僅僅由于隨機(jī)因素此外成員的權(quán)數(shù) SPSS用priorprobability 即先驗(yàn)概率和貝葉斯統(tǒng)計的先驗(yàn)概率有區(qū)別需要考慮一般來說加權(quán)要按照各類觀測值的多少觀測值少的就要按照比例多加權(quán) 對于多個判別函數(shù) 要弄清各自的重要性注意訓(xùn)練樣本的正確和錯誤分類率研究被誤分類的觀測值看是否可以找出原因 SPSS選項(xiàng) 打開disc sav數(shù)據(jù) 然后點(diǎn)擊Analyze Classify Discriminant 把group放入GroupingVariable 再定義范圍即在DefineRange輸入1 3的范圍然后在Independents輸入所有想用的變量但如果要用逐步判別則不選Enterindependentstogether 而選擇Usestepwisemethod 在方法 Method 中選挑選變量的準(zhǔn)則檢驗(yàn)方法默認(rèn)值為Wilks Lambda 為了輸出Fisher分類函數(shù)的結(jié)果可以在Statistics中的FunctionCoefficient選Fisher和UnStandardized 點(diǎn)則判別函數(shù)系數(shù) 在Matrices中選擇輸出所需要的相關(guān)陣還可以在Classify中的Display選summarytable Leave one outclassification 注意在Classify選項(xiàng)中默認(rèn)的PriorProbability為Allgroupsequal表示所有的類都平等對待而另一個選項(xiàng)為Computefromgroupsizes 即按照類的大小加權(quán) 在Plots可選Combined groups Territorialmap等 14 4 3判別分析實(shí)例P379 鳶尾花數(shù)據(jù) 花瓣花萼的長寬 5個變量花瓣長 slen 花瓣寬 swid 花萼長 plen 花萼寬 pwid 分類號 1 Setosa 2 Versicolor 3 Virginica data14 04 Statistics Classify Discriminant Variables independent slen swid plen pwid Grouping spno Definerange min 1 max 3 Classify priorprobability Allgroupequal usecovariancematrix Within groups Plots Combined groups Separate groups Territorialmap Display Summarytable Statistics Descriptive Means FunctionCoefficients Fisher s Unstandardized Matrix Within groupscorrelation Within groupscovariance Separate groupscovariance Totalcovariance Save Predictedgroupmembership DiscriminantScores Probabilityofgroupmembership 鳶尾花數(shù)據(jù) 數(shù)據(jù)分析過程簡明表鳶尾花數(shù)據(jù) 原始數(shù)據(jù)的描述鳶尾花數(shù)據(jù) 合并類內(nèi)相關(guān)陣和協(xié)方差陣鳶尾花數(shù)據(jù) 總協(xié)方差陣鳶尾花數(shù)據(jù) 特征值表 Eigenvalue 用于分析的前兩個典則判別函數(shù)的特征值是組間平方和與組內(nèi)平方和之比值最大特征值與組均值最大的向量對應(yīng) 第二大特征值對應(yīng)著次大的組均值向量典則相關(guān)系數(shù) canonicalcorrelation 是組間平方和與總平方和之比的平方根被平方的是由組間差異解釋的變異總和的比鳶尾花數(shù)據(jù) Wilks Lambda統(tǒng)計量檢驗(yàn)的零假設(shè)是各組變量均值相等 Lambda接近0表示組均值不同接近1表示組均值沒有不同 Chi square是lambda的卡方轉(zhuǎn)換用于確定其顯著性鳶尾花數(shù)據(jù) 有關(guān)判別函數(shù)的輸出標(biāo)準(zhǔn)化的典則判別函數(shù)系數(shù) 使用時必須用標(biāo)準(zhǔn)化的自變量鳶尾花數(shù)據(jù) 有關(guān)判別函數(shù)的輸出典則判別函數(shù)系數(shù) 鳶尾花數(shù)據(jù) 有關(guān)判別函數(shù)的輸出這是類均值重心處的典則判別函數(shù)值這是典則判別函數(shù) 前面兩個函數(shù) 在類均值重心處的值鳶尾花數(shù)據(jù) 用判別函數(shù)對觀測量分類結(jié)果先驗(yàn)概率沒有給費(fèi)歇判別函數(shù)系數(shù)把自變量代入三個式子哪個大歸誰 TerritorialMapCanonicalDiscriminantFunction2 12 0 8 0 4 0 04 08 012 0趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌12 01223122312231223122312238 01223122312231223122312234 0122312231223122312231223 0 122312 231223122312231223 4 0122312231223122312231223 8 0122312231223122312231223 12 01223趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌 12 0 8 0 4 0 04 08 012 0CanonicalDiscriminantFunction1SymbolsusedinterritorialmapSymbolGroupLabel 11剛毛鳶尾花22變色鳶尾花33佛吉尼亞鳶尾花 Indicatesagroupcentroid 鳶尾花數(shù)據(jù)TerritoryMap 區(qū)域圖 CanonicalDiscriminateFunction1VersusCanonicalDiscriminateFunction2三種鳶尾花的典則變量值把一個典則變量組成的坐標(biāo)平面分成三個區(qū)域為中心坐標(biāo) 鳶尾花數(shù)據(jù) 預(yù)測分類結(jié)果小結(jié) 可以看出分錯率

下載提示(請認(rèn)真閱讀)

1.請仔細(xì)閱讀文檔，確保文檔完整性，對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報后獲取現(xiàn)金獎勵！

文檔加載中……請稍候！
如果長時間未打開，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

14.9 積分

還剩頁未讀，繼續(xù)閱讀

舉報

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 聚類分析結(jié)果解釋

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請勿作他用。

關(guān)于本文

本文標(biāo)題：聚類分析結(jié)果解釋.ppt
鏈接地址：http://m.appdesigncorp.com/p-9127692.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

聚類分析 結(jié)果 解釋

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

聚類分析結(jié)果解釋.ppt

最新文檔