多元統(tǒng)計應用第4講(聚類分析).ppt
《多元統(tǒng)計應用第4講(聚類分析).ppt》由會員分享,可在線閱讀,更多相關《多元統(tǒng)計應用第4講(聚類分析).ppt(44頁珍藏版)》請在裝配圖網(wǎng)上搜索。
數(shù)理統(tǒng)計及其應用 聚類分析ClusterAnalysis 第一節(jié)聚類分析方法第二節(jié)聚類統(tǒng)計量第三節(jié)無量綱化方法第四節(jié)Q型系統(tǒng)聚類法第五節(jié)R型系統(tǒng)聚類法第六節(jié)快速聚類法推薦閱讀 第一節(jié)聚類分析方法 聚類分析是根據(jù) 物以類聚 的道理 對樣品或指標進行分類的一種多元統(tǒng)計分析方法 它們討論的對象是大量的樣品 要求能合理地按各自的特性來進行合理的分類 沒有任何模式可供參考或依循 即是在沒有先驗知識的情況下進行的 基本思想是根據(jù)事物本身的特性研究個體分類的方法 聚類原則是同一類中的個體有較大的相似性 不同類中的個體差異很大 基本程序 是根據(jù)一批樣品的多個觀測指標 具體地找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量 然后利用統(tǒng)計量將樣品或指標進行歸類 具體進行聚類時 由于目的 要求不同 因而產(chǎn)生各種不同的聚類方法 由小類合并到大類的方法由大類分解為小類的方法靜態(tài)聚類法 動態(tài)聚類法按樣本聚類 Q 按指標聚類 R 在社會經(jīng)濟領域中存在著大量分類問題 如 對我國31個省市自治區(qū)獨立核算工業(yè)企業(yè)經(jīng)濟效益進行分析 一般不是逐省市自治區(qū)去分析 而較好地做法是選取能反映企業(yè)經(jīng)濟效益的代表性指標 如百元固定資產(chǎn)實現(xiàn)利稅 資金利稅 產(chǎn)值利稅率等 根據(jù)這些指標對全國各省市自治區(qū)進行分類 然后根據(jù)分類結(jié)果對企業(yè)經(jīng)濟效益進行綜合評價 就易于得出科學的分析 第二節(jié)聚類統(tǒng)計量 一 概述二 Q型聚類統(tǒng)計量三 R型聚類統(tǒng)計量 概述 設有n個樣本單位 每個樣本測得p項指標 變量 原始資料陣為 Q型聚類以距離作為統(tǒng)計量 R型聚類以相似系數(shù)作為統(tǒng)計量 Q型聚類統(tǒng)計量 距離 把n個樣本點看成p維空間的n個點1 絕對距離 Block距離 2 歐氏距離 Euclideandistance 3 明考斯基距離 Minkowski 4 蘭氏距離5 馬氏距離6 切比雪夫距離 Chebychev R型聚類統(tǒng)計量 對兩個指標之間的相似程度用相似系數(shù)來刻劃 相似系數(shù)的絕對值越接近于1 表示指標間的關系越密切 絕對值越接近于0 表示指標間的關系越疏遠 1 夾角余弦2 相關系數(shù)3 同號率 第三節(jié)無量綱化方法 所謂無量綱化處理 是將原始數(shù)據(jù)矩陣中每個元素按照某種特定的運算把它變成一個新值 且是數(shù)值的變化不依賴于原始數(shù)據(jù)中其它數(shù)據(jù)的新值 1 極差正規(guī)化 規(guī)格化變換 閾值法 2 標準化變換3 功效系數(shù)法4 相對化變換 例 某年我國部分省市經(jīng)濟效益情況用以上幾種方法對其無量綱化 第四節(jié)Q型系統(tǒng)聚類法 系統(tǒng)聚類法 層次聚類法 在聚類分析的開始 每個樣本自成一類 然后 按照某種方法度量所有樣本之間的親疏程度 并把最相似的樣本首先聚成一小類 接下來 度量剩余的樣本和小類間的親疏程度 并將當前最接近的樣本或小類再聚成一類 再接下來 再度量剩余的樣本和小類間的親疏程度 并將當前最接近的樣本或小類再聚成一類 如此反復 直到所有樣本聚成一類為止 步驟 1 對數(shù)據(jù)進行變換處理 消除量綱2 構(gòu)造n個類 每個類只包含一個樣本計算3 n個樣本兩兩間的距離 dij 4 合并距離最近的兩類為一新類5 計算新類與當前各類的距離 重復 4 6 畫聚類圖7 決定類的個數(shù)和類 類與類間距離的確定 一 最短距離法二 最長距離法三 中間距離法四 重心距離法五 類平均法六 離差平方和 最短距離法 NearestNeighbor 以當前某個樣本與已經(jīng)形成的小類中的各樣本距離中的最小值作為當前樣本與該小類之間的距離 例1 為了研究遼寧省5省區(qū)某年城鎮(zhèn)居民生活消費的分布規(guī)律 根據(jù)調(diào)查資料做類型劃分 spssex ex501 G1 遼寧 G2 浙江 G3 河南 G4 甘肅 G5 青海 7 9 7 68 2 39 77 50 37 2 8 49 11 35 2 12 94 13 3 2 19 27 19 25 2 11 05 14 59 2 2 04 2 75 2 13 29 14 87 2 0 5 11 67d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南與甘肅的距離最近 先將二者 3和4 合為一類G6 G2 G4 d61 d 3 4 1 min d13 d14 13 12d62 d 3 4 2 min d23 d24 24 06d65 d 3 4 5 min d35 d45 2 21612560D2 113 120224 0611 67052 2112 8023 540d71 d 3 4 5 1 min d13 d14 d15 12 80 d72 d 3 4 5 2 min d23 d24 d25 23 54712D3 70112 800223 5411 670 河南 甘肅與青海并為一新類G7 G6 G5 G3 G4 G6 G8 G1 G2 d78 min d71 d72 12 8078D4 70812 80河南3甘肅4青海5遼寧1浙江2 最長距離法 furthestneighbor 以當前某個樣本與已經(jīng)形成的小類中的各樣本距離中的最大值作為當前樣本與該小類之間的距離 例2 對例1的數(shù)據(jù)以最長距離法聚類 d13 13 80d14 13 12d15 12 80d23 24 63d24 24 06d25 23 54d34 2 2d35 3 51d45 2 2112345D1 10211 670313 8024 630413 1224 062 200512 8023 543 512 210 河南與甘肅的距離最近 先將二者 3和4 合為一類G6 G2 G4 d61 d 3 4 1 max d13 d14 13 80d62 d 3 4 2 max d23 d24 24 63d65 d 3 4 5 max d35 d45 3 51612560D2 113 800224 6311 67053 5112 8023 540 河南 甘肅與青海并為一新類G7 G6 G5 G3 G4 G6 d71 d 3 4 5 1 max d13 d14 d15 13 80d72 d 3 4 5 2 max d23 d24 d25 24 63712D3 70113 800224 6311 670d78 max d71 d72 24 6378D4 70824 630 G8 G1 G2 中位數(shù)法 Medianclustering 用兩位類的中位數(shù)間的距離作為兩類的距離 Gt Gl Gm 重心法 用兩類的重心間的距離作為兩類的距離 組間平均鏈鎖法 Between groupslinkage 定義兩個小類之間的距離為所有樣本對間的平均距離 利用了所有樣本對距離的信息 組內(nèi)平均鏈鎖法 Within groupslinkage 對所有樣本對的距離求平均值 包括小類之間的樣本對 小類內(nèi)的樣本對 離差平方和法 Ward smethodword 使小類內(nèi)各樣本的歐氏距離總平方和增加最小的兩小類合并為一類 將q固定時 要選擇使S達到極小的分類 一切可能的分法有 Ward尋找到一個局部最優(yōu)解的方法 先將n個樣本各成一類 然后每次縮小一類 每縮小一類離差平方和就要增大 選擇使離差平方和S增加最小的兩類合并 直至所有樣本歸為一類為止 例3 為了研究某年全國各地區(qū)農(nóng)民家庭收支的分布規(guī)律 根據(jù)抽樣調(diào)查資料進行分類處理 共抽取28個省 市 自治區(qū)的樣本 每個樣本有六個指標 分別為食品 衣著 燃料 住房 生活用品及其它 文化生活服務支出 原始資料見spssex ex512 第五節(jié)R型系統(tǒng)聚類法 一 最小系數(shù)法二 最大系數(shù)法三 中間系數(shù)法 對變量聚類 是一種降維的方法 用于在變量眾多時尋找有代表性的變量 以便當用少量 有代表性的變量代替大變量時損失信息很少 第六節(jié)快速聚類 如果選擇了N個數(shù)值型變量參與聚類分析 最后要求聚類數(shù)K 那么可以由系統(tǒng)首先選擇K個觀測量作為聚類的種子 也稱初始類中心 凝聚點 按照距這幾個類中心的距離最小原則把觀測量分到各類中心所在的類中去 形成第一次迭代形成的K類 根據(jù)組成每一類的觀測量計算各變量均值 每一類中的n個均值在N維空間中又形成K個點 這就是第二次迭代的類中心 按照這種方法依次迭代下去直到分類比較合理為止 凝聚點的選擇 1 經(jīng)驗選擇2 對樣本人為或隨機分類 以每類的重心作為凝聚點3 最小最大距離法 如果欲將n個樣本點分為q類 先選取距離最大的兩點xi1 xi2為前兩個凝聚點 然后選取第3個凝聚點xi3 由于其余所有點與前兩個凝聚點都有最短距離 在全部最短距離中選擇最長距離 這個距離的兩端一個是xi1或xi2 而另一個就是我們要選擇的xi3 4 密度法 例4 有15個樣品 每個樣品有兩個經(jīng)相對化處理后的指標y1 y2 試用密度法先取凝聚點 距離以歐氏距離計算 球半徑為0 3 數(shù)據(jù)見spssex ex513在SPSS中計算出距離矩陣 歸納出各樣本的密度為 凝聚點為樣本6 12 1 13 初始分類 1 人為地分類2 選擇凝聚點后 將與其最近的凝聚點歸并3 選擇凝聚點后 每個凝聚點自成一類 將樣本依次歸入其距離最近的凝聚點那一類 并立即計算該類的重心 以代替原來的凝聚點 再計算下一個樣本的歸類 4 先對樣本數(shù)據(jù)標準化 然后計算統(tǒng)計量 這個數(shù)接近幾 就歸入第幾類 快速聚類步驟 1 選擇分析變量2 指定聚類數(shù)目3 選擇k個樣本作為凝聚點4 按照距初始類中心最小的原則將各觀察量分到聚類中心所在的類中去 形成第一步迭代的k類5 計算每類中所有變量的均值 作為第二次迭代的中心6 重復3 4步 直至指定的迭代次數(shù)或達到終止的條件例5 仍以例3的數(shù)據(jù)資料 進行快速聚類 分為4類 例5 仍以例3的數(shù)據(jù)資料 進行快速聚類 分為4類 SPSS 聚類方法的選擇 between groupslinkage 組間連接within groupslinkage 組內(nèi)連接nearestneighbor 最近鄰法furthestneighbor 最遠鄰法centroidclustering 重心聚類法medianclustering 中位數(shù)法Ward smethod 離差平方和法 對距離的測度方法選擇 Euclideandistance 歐氏距離squaredEuclideandistance 歐氏距離平方cosine 相似性測度Pearsoncorrelation 皮爾遜相關Chebychev 切比雪夫距離block 絕對距離Minkowski 明考斯基距離customized 自定義選擇統(tǒng)計表 Dendrogram 樹形圖Icicle 冰柱圖 推薦閱讀 數(shù)量經(jīng)濟技術經(jīng)濟研究2003 7 中國可持續(xù)發(fā)展問題特征研究暨中等發(fā)達國家可持續(xù)發(fā)展模式的聚類分析 有問題 請?zhí)釂?- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關 鍵 詞:
- 多元 統(tǒng)計 應用 聚類分析
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。
鏈接地址:http://m.appdesigncorp.com/p-8423340.html