多元統(tǒng)計(jì)應(yīng)用第4講(聚類分析).ppt

上傳人：max****ui

文檔編號(hào)：8423340

上傳時(shí)間：2020-03-29

格式：PPT

頁數(shù)：44

大?。?89.16KB

《多元統(tǒng)計(jì)應(yīng)用第4講(聚類分析).ppt》由會(huì)員分享，可在線閱讀，更多相關(guān)《多元統(tǒng)計(jì)應(yīng)用第4講(聚類分析).ppt（44頁珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

數(shù)理統(tǒng)計(jì)及其應(yīng)用聚類分析ClusterAnalysis 第一節(jié)聚類分析方法第二節(jié)聚類統(tǒng)計(jì)量第三節(jié)無量綱化方法第四節(jié)Q型系統(tǒng)聚類法第五節(jié)R型系統(tǒng)聚類法第六節(jié)快速聚類法推薦閱讀第一節(jié)聚類分析方法聚類分析是根據(jù) 物以類聚的道理對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法它們討論的對(duì)象是大量的樣品要求能合理地按各自的特性來進(jìn)行合理的分類沒有任何模式可供參考或依循即是在沒有先驗(yàn)知識(shí)的情況下進(jìn)行的基本思想是根據(jù)事物本身的特性研究個(gè)體分類的方法聚類原則是同一類中的個(gè)體有較大的相似性不同類中的個(gè)體差異很大基本程序是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo) 具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類具體進(jìn)行聚類時(shí) 由于目的要求不同因而產(chǎn)生各種不同的聚類方法由小類合并到大類的方法由大類分解為小類的方法靜態(tài)聚類法動(dòng)態(tài)聚類法按樣本聚類 Q 按指標(biāo)聚類 R 在社會(huì)經(jīng)濟(jì)領(lǐng)域中存在著大量分類問題如對(duì)我國31個(gè)省市自治區(qū)獨(dú)立核算工業(yè)企業(yè)經(jīng)濟(jì)效益進(jìn)行分析一般不是逐省市自治區(qū)去分析而較好地做法是選取能反映企業(yè)經(jīng)濟(jì)效益的代表性指標(biāo) 如百元固定資產(chǎn)實(shí)現(xiàn)利稅資金利稅產(chǎn)值利稅率等根據(jù)這些指標(biāo)對(duì)全國各省市自治區(qū)進(jìn)行分類然后根據(jù)分類結(jié)果對(duì)企業(yè)經(jīng)濟(jì)效益進(jìn)行綜合評(píng)價(jià) 就易于得出科學(xué)的分析第二節(jié)聚類統(tǒng)計(jì)量一概述二 Q型聚類統(tǒng)計(jì)量三 R型聚類統(tǒng)計(jì)量概述設(shè)有n個(gè)樣本單位每個(gè)樣本測(cè)得p項(xiàng)指標(biāo) 變量原始資料陣為 Q型聚類以距離作為統(tǒng)計(jì)量 R型聚類以相似系數(shù)作為統(tǒng)計(jì)量 Q型聚類統(tǒng)計(jì)量距離把n個(gè)樣本點(diǎn)看成p維空間的n個(gè)點(diǎn)1 絕對(duì)距離 Block距離 2 歐氏距離 Euclideandistance 3 明考斯基距離 Minkowski 4 蘭氏距離5 馬氏距離6 切比雪夫距離 Chebychev R型聚類統(tǒng)計(jì)量對(duì)兩個(gè)指標(biāo)之間的相似程度用相似系數(shù)來刻劃相似系數(shù)的絕對(duì)值越接近于1 表示指標(biāo)間的關(guān)系越密切絕對(duì)值越接近于0 表示指標(biāo)間的關(guān)系越疏遠(yuǎn) 1 夾角余弦2 相關(guān)系數(shù)3 同號(hào)率第三節(jié)無量綱化方法所謂無量綱化處理是將原始數(shù)據(jù)矩陣中每個(gè)元素按照某種特定的運(yùn)算把它變成一個(gè)新值且是數(shù)值的變化不依賴于原始數(shù)據(jù)中其它數(shù)據(jù)的新值 1 極差正規(guī)化規(guī)格化變換閾值法 2 標(biāo)準(zhǔn)化變換3 功效系數(shù)法4 相對(duì)化變換例某年我國部分省市經(jīng)濟(jì)效益情況用以上幾種方法對(duì)其無量綱化第四節(jié)Q型系統(tǒng)聚類法系統(tǒng)聚類法層次聚類法在聚類分析的開始每個(gè)樣本自成一類然后按照某種方法度量所有樣本之間的親疏程度并把最相似的樣本首先聚成一小類接下來度量剩余的樣本和小類間的親疏程度并將當(dāng)前最接近的樣本或小類再聚成一類再接下來再度量剩余的樣本和小類間的親疏程度并將當(dāng)前最接近的樣本或小類再聚成一類如此反復(fù) 直到所有樣本聚成一類為止步驟 1 對(duì)數(shù)據(jù)進(jìn)行變換處理消除量綱2 構(gòu)造n個(gè)類每個(gè)類只包含一個(gè)樣本計(jì)算3 n個(gè)樣本兩兩間的距離 dij 4 合并距離最近的兩類為一新類5 計(jì)算新類與當(dāng)前各類的距離重復(fù) 4 6 畫聚類圖7 決定類的個(gè)數(shù)和類類與類間距離的確定一最短距離法二最長距離法三中間距離法四重心距離法五類平均法六離差平方和最短距離法 NearestNeighbor 以當(dāng)前某個(gè)樣本與已經(jīng)形成的小類中的各樣本距離中的最小值作為當(dāng)前樣本與該小類之間的距離例1 為了研究遼寧省5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律根據(jù)調(diào)查資料做類型劃分 spssex ex501 G1 遼寧 G2 浙江 G3 河南 G4 甘肅 G5 青海 7 9 7 68 2 39 77 50 37 2 8 49 11 35 2 12 94 13 3 2 19 27 19 25 2 11 05 14 59 2 2 04 2 75 2 13 29 14 87 2 0 5 11 67d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南與甘肅的距離最近先將二者 3和4 合為一類G6 G2 G4 d61 d 3 4 1 min d13 d14 13 12d62 d 3 4 2 min d23 d24 24 06d65 d 3 4 5 min d35 d45 2 21612560D2 113 120224 0611 67052 2112 8023 540d71 d 3 4 5 1 min d13 d14 d15 12 80 d72 d 3 4 5 2 min d23 d24 d25 23 54712D3 70112 800223 5411 670 河南甘肅與青海并為一新類G7 G6 G5 G3 G4 G6 G8 G1 G2 d78 min d71 d72 12 8078D4 70812 80河南3甘肅4青海5遼寧1浙江2 最長距離法 furthestneighbor 以當(dāng)前某個(gè)樣本與已經(jīng)形成的小類中的各樣本距離中的最大值作為當(dāng)前樣本與該小類之間的距離例2 對(duì)例1的數(shù)據(jù)以最長距離法聚類 d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南與甘肅的距離最近先將二者 3和4 合為一類G6 G2 G4 d61 d 3 4 1 max d13 d14 13 80d62 d 3 4 2 max d23 d24 24 63d65 d 3 4 5 max d35 d45 3 51612560D2 113 800224 6311 67053 5112 8023 540 河南甘肅與青海并為一新類G7 G6 G5 G3 G4 G6 d71 d 3 4 5 1 max d13 d14 d15 13 80d72 d 3 4 5 2 max d23 d24 d25 24 63712D3 70113 800224 6311 670d78 max d71 d72 24 6378D4 70824 630 G8 G1 G2 中位數(shù)法 Medianclustering 用兩位類的中位數(shù)間的距離作為兩類的距離 Gt Gl Gm 重心法用兩類的重心間的距離作為兩類的距離組間平均鏈鎖法 Between groupslinkage 定義兩個(gè)小類之間的距離為所有樣本對(duì)間的平均距離利用了所有樣本對(duì)距離的信息組內(nèi)平均鏈鎖法 Within groupslinkage 對(duì)所有樣本對(duì)的距離求平均值包括小類之間的樣本對(duì) 小類內(nèi)的樣本對(duì) 離差平方和法 Ward smethodword 使小類內(nèi)各樣本的歐氏距離總平方和增加最小的兩小類合并為一類將q固定時(shí) 要選擇使S達(dá)到極小的分類一切可能的分法有 Ward尋找到一個(gè)局部最優(yōu)解的方法先將n個(gè)樣本各成一類然后每次縮小一類每縮小一類離差平方和就要增大選擇使離差平方和S增加最小的兩類合并直至所有樣本歸為一類為止例3 為了研究某年全國各地區(qū)農(nóng)民家庭收支的分布規(guī)律根據(jù)抽樣調(diào)查資料進(jìn)行分類處理共抽取28個(gè)省市自治區(qū)的樣本每個(gè)樣本有六個(gè)指標(biāo) 分別為食品衣著燃料住房生活用品及其它文化生活服務(wù)支出原始資料見spssex ex512 第五節(jié)R型系統(tǒng)聚類法一最小系數(shù)法二最大系數(shù)法三中間系數(shù)法對(duì)變量聚類是一種降維的方法用于在變量眾多時(shí)尋找有代表性的變量以便當(dāng)用少量有代表性的變量代替大變量時(shí)損失信息很少第六節(jié)快速聚類如果選擇了N個(gè)數(shù)值型變量參與聚類分析最后要求聚類數(shù)K 那么可以由系統(tǒng)首先選擇K個(gè)觀測(cè)量作為聚類的種子也稱初始類中心凝聚點(diǎn) 按照距這幾個(gè)類中心的距離最小原則把觀測(cè)量分到各類中心所在的類中去形成第一次迭代形成的K類根據(jù)組成每一類的觀測(cè)量計(jì)算各變量均值每一類中的n個(gè)均值在N維空間中又形成K個(gè)點(diǎn) 這就是第二次迭代的類中心按照這種方法依次迭代下去直到分類比較合理為止凝聚點(diǎn)的選擇 1 經(jīng)驗(yàn)選擇2 對(duì)樣本人為或隨機(jī)分類以每類的重心作為凝聚點(diǎn)3 最小最大距離法如果欲將n個(gè)樣本點(diǎn)分為q類先選取距離最大的兩點(diǎn)xi1 xi2為前兩個(gè)凝聚點(diǎn) 然后選取第3個(gè)凝聚點(diǎn)xi3 由于其余所有點(diǎn)與前兩個(gè)凝聚點(diǎn)都有最短距離在全部最短距離中選擇最長距離這個(gè)距離的兩端一個(gè)是xi1或xi2 而另一個(gè)就是我們要選擇的xi3 4 密度法例4 有15個(gè)樣品每個(gè)樣品有兩個(gè)經(jīng)相對(duì)化處理后的指標(biāo)y1 y2 試用密度法先取凝聚點(diǎn) 距離以歐氏距離計(jì)算球半徑為0 3 數(shù)據(jù)見spssex ex513在SPSS中計(jì)算出距離矩陣歸納出各樣本的密度為凝聚點(diǎn)為樣本6 12 1 13 初始分類 1 人為地分類2 選擇凝聚點(diǎn)后將與其最近的凝聚點(diǎn)歸并3 選擇凝聚點(diǎn)后每個(gè)凝聚點(diǎn)自成一類將樣本依次歸入其距離最近的凝聚點(diǎn)那一類并立即計(jì)算該類的重心以代替原來的凝聚點(diǎn) 再計(jì)算下一個(gè)樣本的歸類 4 先對(duì)樣本數(shù)據(jù)標(biāo)準(zhǔn)化然后計(jì)算統(tǒng)計(jì)量這個(gè)數(shù)接近幾就歸入第幾類快速聚類步驟 1 選擇分析變量2 指定聚類數(shù)目3 選擇k個(gè)樣本作為凝聚點(diǎn)4 按照距初始類中心最小的原則將各觀察量分到聚類中心所在的類中去形成第一步迭代的k類5 計(jì)算每類中所有變量的均值作為第二次迭代的中心6 重復(fù)3 4步直至指定的迭代次數(shù)或達(dá)到終止的條件例5 仍以例3的數(shù)據(jù)資料進(jìn)行快速聚類分為4類例5 仍以例3的數(shù)據(jù)資料進(jìn)行快速聚類分為4類 SPSS 聚類方法的選擇 between groupslinkage 組間連接within groupslinkage 組內(nèi)連接nearestneighbor 最近鄰法furthestneighbor 最遠(yuǎn)鄰法centroidclustering 重心聚類法medianclustering 中位數(shù)法Ward smethod 離差平方和法對(duì)距離的測(cè)度方法選擇 Euclideandistance 歐氏距離squaredEuclideandistance 歐氏距離平方cosine 相似性測(cè)度Pearsoncorrelation 皮爾遜相關(guān)Chebychev 切比雪夫距離block 絕對(duì)距離Minkowski 明考斯基距離customized 自定義選擇統(tǒng)計(jì)表 Dendrogram 樹形圖Icicle 冰柱圖推薦閱讀數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究2003 7 中國可持續(xù)發(fā)展問題特征研究暨中等發(fā)達(dá)國家可持續(xù)發(fā)展模式的聚類分析有問題請(qǐng)?zhí)釂?

下載提示(請(qǐng)認(rèn)真閱讀)

1.請(qǐng)仔細(xì)閱讀文檔，確保文檔完整性，對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
2.下載的文檔，不會(huì)出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請(qǐng)點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報(bào)后獲取現(xiàn)金獎(jiǎng)勵(lì)！

文檔加載中……請(qǐng)稍候！
如果長時(shí)間未打開，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

9.9 積分

還剩頁未讀，繼續(xù)閱讀

舉報(bào)

版權(quán)申訴 word格式文檔無特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
特殊限制：: 部分文檔作品中含有的國旗、國徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 多元統(tǒng)計(jì) 應(yīng)用聚類分析

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請(qǐng)勿作他用。

關(guān)于本文

本文標(biāo)題：多元統(tǒng)計(jì)應(yīng)用第4講(聚類分析).ppt
鏈接地址：http://m.appdesigncorp.com/p-8423340.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

多元 統(tǒng)計(jì) 應(yīng)用 聚類分析

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

多元統(tǒng)計(jì)應(yīng)用第4講(聚類分析).ppt

最新文檔