多元統(tǒng)計(jì)應(yīng)用第4講(聚類分析).ppt
《多元統(tǒng)計(jì)應(yīng)用第4講(聚類分析).ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《多元統(tǒng)計(jì)應(yīng)用第4講(聚類分析).ppt(44頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
數(shù)理統(tǒng)計(jì)及其應(yīng)用 聚類分析ClusterAnalysis 第一節(jié)聚類分析方法第二節(jié)聚類統(tǒng)計(jì)量第三節(jié)無量綱化方法第四節(jié)Q型系統(tǒng)聚類法第五節(jié)R型系統(tǒng)聚類法第六節(jié)快速聚類法推薦閱讀 第一節(jié)聚類分析方法 聚類分析是根據(jù) 物以類聚 的道理 對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法 它們討論的對(duì)象是大量的樣品 要求能合理地按各自的特性來進(jìn)行合理的分類 沒有任何模式可供參考或依循 即是在沒有先驗(yàn)知識(shí)的情況下進(jìn)行的 基本思想是根據(jù)事物本身的特性研究個(gè)體分類的方法 聚類原則是同一類中的個(gè)體有較大的相似性 不同類中的個(gè)體差異很大 基本程序 是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo) 具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量 然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類 具體進(jìn)行聚類時(shí) 由于目的 要求不同 因而產(chǎn)生各種不同的聚類方法 由小類合并到大類的方法由大類分解為小類的方法靜態(tài)聚類法 動(dòng)態(tài)聚類法按樣本聚類 Q 按指標(biāo)聚類 R 在社會(huì)經(jīng)濟(jì)領(lǐng)域中存在著大量分類問題 如 對(duì)我國31個(gè)省市自治區(qū)獨(dú)立核算工業(yè)企業(yè)經(jīng)濟(jì)效益進(jìn)行分析 一般不是逐省市自治區(qū)去分析 而較好地做法是選取能反映企業(yè)經(jīng)濟(jì)效益的代表性指標(biāo) 如百元固定資產(chǎn)實(shí)現(xiàn)利稅 資金利稅 產(chǎn)值利稅率等 根據(jù)這些指標(biāo)對(duì)全國各省市自治區(qū)進(jìn)行分類 然后根據(jù)分類結(jié)果對(duì)企業(yè)經(jīng)濟(jì)效益進(jìn)行綜合評(píng)價(jià) 就易于得出科學(xué)的分析 第二節(jié)聚類統(tǒng)計(jì)量 一 概述二 Q型聚類統(tǒng)計(jì)量三 R型聚類統(tǒng)計(jì)量 概述 設(shè)有n個(gè)樣本單位 每個(gè)樣本測(cè)得p項(xiàng)指標(biāo) 變量 原始資料陣為 Q型聚類以距離作為統(tǒng)計(jì)量 R型聚類以相似系數(shù)作為統(tǒng)計(jì)量 Q型聚類統(tǒng)計(jì)量 距離 把n個(gè)樣本點(diǎn)看成p維空間的n個(gè)點(diǎn)1 絕對(duì)距離 Block距離 2 歐氏距離 Euclideandistance 3 明考斯基距離 Minkowski 4 蘭氏距離5 馬氏距離6 切比雪夫距離 Chebychev R型聚類統(tǒng)計(jì)量 對(duì)兩個(gè)指標(biāo)之間的相似程度用相似系數(shù)來刻劃 相似系數(shù)的絕對(duì)值越接近于1 表示指標(biāo)間的關(guān)系越密切 絕對(duì)值越接近于0 表示指標(biāo)間的關(guān)系越疏遠(yuǎn) 1 夾角余弦2 相關(guān)系數(shù)3 同號(hào)率 第三節(jié)無量綱化方法 所謂無量綱化處理 是將原始數(shù)據(jù)矩陣中每個(gè)元素按照某種特定的運(yùn)算把它變成一個(gè)新值 且是數(shù)值的變化不依賴于原始數(shù)據(jù)中其它數(shù)據(jù)的新值 1 極差正規(guī)化 規(guī)格化變換 閾值法 2 標(biāo)準(zhǔn)化變換3 功效系數(shù)法4 相對(duì)化變換 例 某年我國部分省市經(jīng)濟(jì)效益情況用以上幾種方法對(duì)其無量綱化 第四節(jié)Q型系統(tǒng)聚類法 系統(tǒng)聚類法 層次聚類法 在聚類分析的開始 每個(gè)樣本自成一類 然后 按照某種方法度量所有樣本之間的親疏程度 并把最相似的樣本首先聚成一小類 接下來 度量剩余的樣本和小類間的親疏程度 并將當(dāng)前最接近的樣本或小類再聚成一類 再接下來 再度量剩余的樣本和小類間的親疏程度 并將當(dāng)前最接近的樣本或小類再聚成一類 如此反復(fù) 直到所有樣本聚成一類為止 步驟 1 對(duì)數(shù)據(jù)進(jìn)行變換處理 消除量綱2 構(gòu)造n個(gè)類 每個(gè)類只包含一個(gè)樣本計(jì)算3 n個(gè)樣本兩兩間的距離 dij 4 合并距離最近的兩類為一新類5 計(jì)算新類與當(dāng)前各類的距離 重復(fù) 4 6 畫聚類圖7 決定類的個(gè)數(shù)和類 類與類間距離的確定 一 最短距離法二 最長距離法三 中間距離法四 重心距離法五 類平均法六 離差平方和 最短距離法 NearestNeighbor 以當(dāng)前某個(gè)樣本與已經(jīng)形成的小類中的各樣本距離中的最小值作為當(dāng)前樣本與該小類之間的距離 例1 為了研究遼寧省5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律 根據(jù)調(diào)查資料做類型劃分 spssex ex501 G1 遼寧 G2 浙江 G3 河南 G4 甘肅 G5 青海 7 9 7 68 2 39 77 50 37 2 8 49 11 35 2 12 94 13 3 2 19 27 19 25 2 11 05 14 59 2 2 04 2 75 2 13 29 14 87 2 0 5 11 67d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南與甘肅的距離最近 先將二者 3和4 合為一類G6 G2 G4 d61 d 3 4 1 min d13 d14 13 12d62 d 3 4 2 min d23 d24 24 06d65 d 3 4 5 min d35 d45 2 21612560D2 113 120224 0611 67052 2112 8023 540d71 d 3 4 5 1 min d13 d14 d15 12 80 d72 d 3 4 5 2 min d23 d24 d25 23 54712D3 70112 800223 5411 670 河南 甘肅與青海并為一新類G7 G6 G5 G3 G4 G6 G8 G1 G2 d78 min d71 d72 12 8078D4 70812 80河南3甘肅4青海5遼寧1浙江2 最長距離法 furthestneighbor 以當(dāng)前某個(gè)樣本與已經(jīng)形成的小類中的各樣本距離中的最大值作為當(dāng)前樣本與該小類之間的距離 例2 對(duì)例1的數(shù)據(jù)以最長距離法聚類 d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南與甘肅的距離最近 先將二者 3和4 合為一類G6 G2 G4 d61 d 3 4 1 max d13 d14 13 80d62 d 3 4 2 max d23 d24 24 63d65 d 3 4 5 max d35 d45 3 51612560D2 113 800224 6311 67053 5112 8023 540 河南 甘肅與青海并為一新類G7 G6 G5 G3 G4 G6 d71 d 3 4 5 1 max d13 d14 d15 13 80d72 d 3 4 5 2 max d23 d24 d25 24 63712D3 70113 800224 6311 670d78 max d71 d72 24 6378D4 70824 630 G8 G1 G2 中位數(shù)法 Medianclustering 用兩位類的中位數(shù)間的距離作為兩類的距離 Gt Gl Gm 重心法 用兩類的重心間的距離作為兩類的距離 組間平均鏈鎖法 Between groupslinkage 定義兩個(gè)小類之間的距離為所有樣本對(duì)間的平均距離 利用了所有樣本對(duì)距離的信息 組內(nèi)平均鏈鎖法 Within groupslinkage 對(duì)所有樣本對(duì)的距離求平均值 包括小類之間的樣本對(duì) 小類內(nèi)的樣本對(duì) 離差平方和法 Ward smethodword 使小類內(nèi)各樣本的歐氏距離總平方和增加最小的兩小類合并為一類 將q固定時(shí) 要選擇使S達(dá)到極小的分類 一切可能的分法有 Ward尋找到一個(gè)局部最優(yōu)解的方法 先將n個(gè)樣本各成一類 然后每次縮小一類 每縮小一類離差平方和就要增大 選擇使離差平方和S增加最小的兩類合并 直至所有樣本歸為一類為止 例3 為了研究某年全國各地區(qū)農(nóng)民家庭收支的分布規(guī)律 根據(jù)抽樣調(diào)查資料進(jìn)行分類處理 共抽取28個(gè)省 市 自治區(qū)的樣本 每個(gè)樣本有六個(gè)指標(biāo) 分別為食品 衣著 燃料 住房 生活用品及其它 文化生活服務(wù)支出 原始資料見spssex ex512 第五節(jié)R型系統(tǒng)聚類法 一 最小系數(shù)法二 最大系數(shù)法三 中間系數(shù)法 對(duì)變量聚類 是一種降維的方法 用于在變量眾多時(shí)尋找有代表性的變量 以便當(dāng)用少量 有代表性的變量代替大變量時(shí)損失信息很少 第六節(jié)快速聚類 如果選擇了N個(gè)數(shù)值型變量參與聚類分析 最后要求聚類數(shù)K 那么可以由系統(tǒng)首先選擇K個(gè)觀測(cè)量作為聚類的種子 也稱初始類中心 凝聚點(diǎn) 按照距這幾個(gè)類中心的距離最小原則把觀測(cè)量分到各類中心所在的類中去 形成第一次迭代形成的K類 根據(jù)組成每一類的觀測(cè)量計(jì)算各變量均值 每一類中的n個(gè)均值在N維空間中又形成K個(gè)點(diǎn) 這就是第二次迭代的類中心 按照這種方法依次迭代下去直到分類比較合理為止 凝聚點(diǎn)的選擇 1 經(jīng)驗(yàn)選擇2 對(duì)樣本人為或隨機(jī)分類 以每類的重心作為凝聚點(diǎn)3 最小最大距離法 如果欲將n個(gè)樣本點(diǎn)分為q類 先選取距離最大的兩點(diǎn)xi1 xi2為前兩個(gè)凝聚點(diǎn) 然后選取第3個(gè)凝聚點(diǎn)xi3 由于其余所有點(diǎn)與前兩個(gè)凝聚點(diǎn)都有最短距離 在全部最短距離中選擇最長距離 這個(gè)距離的兩端一個(gè)是xi1或xi2 而另一個(gè)就是我們要選擇的xi3 4 密度法 例4 有15個(gè)樣品 每個(gè)樣品有兩個(gè)經(jīng)相對(duì)化處理后的指標(biāo)y1 y2 試用密度法先取凝聚點(diǎn) 距離以歐氏距離計(jì)算 球半徑為0 3 數(shù)據(jù)見spssex ex513在SPSS中計(jì)算出距離矩陣 歸納出各樣本的密度為 凝聚點(diǎn)為樣本6 12 1 13 初始分類 1 人為地分類2 選擇凝聚點(diǎn)后 將與其最近的凝聚點(diǎn)歸并3 選擇凝聚點(diǎn)后 每個(gè)凝聚點(diǎn)自成一類 將樣本依次歸入其距離最近的凝聚點(diǎn)那一類 并立即計(jì)算該類的重心 以代替原來的凝聚點(diǎn) 再計(jì)算下一個(gè)樣本的歸類 4 先對(duì)樣本數(shù)據(jù)標(biāo)準(zhǔn)化 然后計(jì)算統(tǒng)計(jì)量 這個(gè)數(shù)接近幾 就歸入第幾類 快速聚類步驟 1 選擇分析變量2 指定聚類數(shù)目3 選擇k個(gè)樣本作為凝聚點(diǎn)4 按照距初始類中心最小的原則將各觀察量分到聚類中心所在的類中去 形成第一步迭代的k類5 計(jì)算每類中所有變量的均值 作為第二次迭代的中心6 重復(fù)3 4步 直至指定的迭代次數(shù)或達(dá)到終止的條件例5 仍以例3的數(shù)據(jù)資料 進(jìn)行快速聚類 分為4類 例5 仍以例3的數(shù)據(jù)資料 進(jìn)行快速聚類 分為4類 SPSS 聚類方法的選擇 between groupslinkage 組間連接within groupslinkage 組內(nèi)連接nearestneighbor 最近鄰法furthestneighbor 最遠(yuǎn)鄰法centroidclustering 重心聚類法medianclustering 中位數(shù)法Ward smethod 離差平方和法 對(duì)距離的測(cè)度方法選擇 Euclideandistance 歐氏距離squaredEuclideandistance 歐氏距離平方cosine 相似性測(cè)度Pearsoncorrelation 皮爾遜相關(guān)Chebychev 切比雪夫距離block 絕對(duì)距離Minkowski 明考斯基距離customized 自定義選擇統(tǒng)計(jì)表 Dendrogram 樹形圖Icicle 冰柱圖 推薦閱讀 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究2003 7 中國可持續(xù)發(fā)展問題特征研究暨中等發(fā)達(dá)國家可持續(xù)發(fā)展模式的聚類分析 有問題 請(qǐng)?zhí)釂?- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 多元 統(tǒng)計(jì) 應(yīng)用 聚類分析
鏈接地址:http://m.appdesigncorp.com/p-8423340.html