系統(tǒng)聚類分析方法.doc
《系統(tǒng)聚類分析方法.doc》由會員分享,可在線閱讀,更多相關(guān)《系統(tǒng)聚類分析方法.doc(19頁珍藏版)》請在裝配圖網(wǎng)上搜索。
系統(tǒng)聚類分析方法 聚類分析是研究多要素事物分類問題的數(shù)量方法?;驹硎歉鶕?jù)樣本自身的屬性,用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對樣本進行聚類。 常見的聚類分析方法有系統(tǒng)聚類法、動態(tài)聚類法和模糊聚類法等。 1. 聚類要素的數(shù)據(jù)處理 假設(shè)有m 個聚類的對象,每一個聚類對象都有 個要素構(gòu)成。它們所對應(yīng)的要素數(shù)據(jù)可用 表3.4.1給出。(點擊顯示該表) 在聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種。 ① 總和標(biāo)準(zhǔn)化 ② 標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化 ③ 極大值標(biāo)準(zhǔn)化 經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,其余各數(shù)值小于1。 ④ 極差的標(biāo)準(zhǔn)化 經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。 2. 距離的計算 距離是事物之間差異性的測度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ)。 ① 絕對值距離 選擇不同的距離,聚類結(jié)果會有所差異。在地理分區(qū)和分類研究中,往往采用幾種距離進行計算、對比,選擇一種較為合適的距離進行聚類。 例:表3.4.2給出了某地區(qū)九個農(nóng)業(yè)區(qū)的七項指標(biāo),它們經(jīng)過極差標(biāo)準(zhǔn)化處理后,如表3.4.3所示。 對于表3.4.3中的數(shù)據(jù),用絕對值距離公式計算可得九個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣: 3. 直接聚類法 直接聚類法是根據(jù)距離矩陣的結(jié)構(gòu)一次并類得到結(jié)果。 ▲ 基本步驟: ① 把各個分類對象單獨視為一類; ② 根據(jù)距離最小的原則,依次選出一對分類對象,并成新類;③ 如果其中一個分類對象已歸于一類,則把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,則把這兩類并為一類;每一次歸并,都劃去該對象所在的列與列序相同的行;④ 那么,經(jīng)過m-1次就可以把全部分類對象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖。 ★ 直接聚類法雖然簡便,但在歸并過程中是劃去行和列的,因而難免有信息損失。因此,直接聚類法并不是最好的系統(tǒng)聚類方法。 [舉例說明](點擊打開新窗口,顯示該內(nèi)容) 例:已知九個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣,使用直接聚類法做聚類分析。 解: 根據(jù)上面的距離矩陣,用直接聚類法聚類分析: 第一步,在距離矩陣D中,除去對角線元素以外,d49=d94=0.51為最小者,故將第4區(qū)與第9區(qū)并為一類,劃去第9行和第9列; 第二步,在余下的元素中,除對角線元素以外,d75= d57=0.83為最小者,故將第5區(qū)與第7區(qū)并為一類,劃掉第7行和第7列; 第三步,在第二步之后余下的元素之中,除對角線元素以外,d82= d28=0.88為最小者,故將第2區(qū)與第8區(qū)并為一類,劃去第8行和第8列; 第四步,在第三步之后余下的元素中,除對角線元素以外,d43= d34=1.23為最小者,故將第3區(qū)與第4區(qū)并為一類,劃去第4行和第4列,此時,第3、4、9區(qū)已歸并為一類; 第五步,在第四步之后余下的元素中,除對角線元素以外,d21= d12=1.52為最小者,故將第1區(qū)與第2區(qū)并為一類,劃去第2行和第2列,此時,第1、2、8區(qū)已歸并為一類; 第六步,在第五步之后余下的元素中,除對角線元素以外,d65= d56=1.78為最小者,故將第5區(qū)與第6區(qū)并為一類,劃去第6行和第6列,此時,第5、6、7區(qū)已歸并為一類; 第七步,在第六步之后余下的元素中,除對角線元素以外,d31= d13=3.10為最小者,故將第1區(qū)與第3區(qū)并為一類,劃去第3行和第3列,此時,第1、2、3、4、8、9區(qū)已歸并為一類; 第八步,在第七步之后余下的元素中,除去對角線元素以外,只有d51= d15=5.86,故將第1區(qū)與第5區(qū)并為一類,劃去第5行和第5列,此時,第1、2、3、4、5、6、7、8、9、區(qū)均歸并為一類; 根據(jù)上述步驟,可以做出直接聚類譜系圖。(點擊展開顯示該圖) 4. 最短距離聚類法 最短距離聚類法是在原來的mm距離矩陣的非對角元素中找出 ,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式 計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣;再從新的距離矩陣中選出最小者dij,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。 [舉例說明](點擊打開新窗口,顯示該例) 例:已知九個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣,使用最短距離聚類法做聚類分析。 解:用最短距離聚類法對某地區(qū)的九個農(nóng)業(yè)區(qū)進行聚類分析: 第一步,在99階距離矩陣D中,非對角元素中最小者是d94=0.51,故首先將第4區(qū)與第9區(qū)并為一類,記為G10,即G10={G4,G9}。分別計算G1,G2,G3,G5,G6,G7,G8與G10之間的距離得: 這樣就得到G1,G2,G3,G5,G6,G7,G8,G10上的一個新的88階距離矩陣: 第二步,在上一步驟中所得到的88階距離矩陣中,非對角元素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11={G5,G7}。分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,可得到一個新的77階距離矩陣: 第三步,在第二步所得到的77階距離矩陣中,非對角元素中最小者為d28=0.88,故將G2與G8歸并為一類,記為G12,即G12={G2,G8}。分別計算G1,G3,G6,G10,G11與G12之間的距離,可得到一個新的66階距離矩陣: 第四步,在第三步中所得的66階距離矩陣中,非對角元素中最小者為d6,11=1.07,故將G6與G11歸并為一類,記為G13,即G13={G6,G11}={G6,(G5,G7)}。計算G1,G3,G10,G12與G13之間的距離,可得到一個新的55階距離矩陣: 第五步,在第四步中所得的55階距離矩陣中,非對角線元素中最小者為d3,10=1.20,故將G3與G10歸并為一類,記為G14,即G14={G3,G10}={G3,(G4,G9)}。再按照公式(3.3.10)式計算G1,G12,G13與G14之間的距離,可得一個新的44階距離矩陣: 第六步,在第五步所得到的44階距離矩陣中,非對角線元素中最小者為d12,14=1.29,故將G12與G14歸并為一類,記為G15,即G15={G12,G14}={(G2,G8),(G3,(G4,G9))}。再按照公式(3.3.10)式計算G1,G13與G15之間的距離,可得一個新的33階距離矩陣: 第七步,在第六步所得的33階距離矩陣中,非對角線元素中最小者為d1,15=1.32,故將G1與G15歸并為一類,記為G16,即G16={G1,G15}={(G1,(G2,G8),(G3,(G4,G9))}。再按照公式(3.3.10)式計算G13與G16之間的距離,可得一個新的22階距離矩陣: 第八步,將G13與G16歸并為一類。此時,所有分類對象均被歸并為一類。 綜合上述聚類過程,可以作出最短距離聚類譜系圖。(點擊展開顯示) 5. 最遠距離聚類法 最遠距離聚類法與最短距離聚類法的區(qū)別在于計算原來的類與新類距離采用的公式不同。 最遠距離聚類法的計算公式: [舉例說明](點擊打開新窗口,顯示該例) 例:已知九個農(nóng)業(yè)區(qū)之間的絕對值距離矩陣,使用最遠距離聚類法做聚類分析。 答:最遠距離聚類法的聚類步驟: 第一步,在99階距離矩陣中,非對角元素中最小者是d94=0.51,故首先將第4區(qū)與第9區(qū)并為一類,記為G10,即G10={G4,G9}。計算G1,G2,G3,G5,G6,G7,G8與G10之間的距離,得到一個新的88階距離矩陣: 第二步,在第一步所得到的88階距離矩陣中,非對角線元素中最小者為d57=0.83,故將G5與G7歸并為一類,記為G11,即G11={G5,G7}。分別計算G1,G2,G3,G6,G8,G10與G11之間的距離,得到一個新的77階距離矩陣如下: 第三步,在第二步中所得到的77階距離矩陣中,非對角線元素中最小者為d28=0.88,故將G2與G8歸并為一類,記為G12,即G12={G2,G8}。分別計算G1,G3,G6,G10,G11與G12之間的距離,得到一個新的66階距離矩陣: 第四步,在第三步中所得的66階距離矩陣中,非對角元素中最小者為d3,10=1.23,故將G3與G10歸并為一類,記為G13,即G13={G3,G10}={G3,(G4,G9)}。計算G1,G6,G11,G12與G13之間的距離,得到一個新的55階距離矩陣: 第五步,在第四步所得的55階距離矩陣中,非對角線元素中最小者為d1,12=1.52,故將G1與G12歸并為一類,記為G14,即G14={G1,G12}={G1,(G2,G8)}。分別計算G6,G11,G13與G14之間的距離,得到一個新的44階距離矩陣: 第六步,在第五步所得的44階距離矩陣中,非對角線元素中最小者為d6,11=1.78,故將G6與G11歸并為一類,記為G15,即G15={G6,G11}={G6,(G5,G7)}。分別計算G13,G14和G15之間的距離,得到一個新的33階距離矩陣: 第七步,在第六步中所得的33階距離矩陣中,非對角線元素中最小者為d13,14=3.10,故將G13與G14歸并為一類,記為G16,即G16={G13,G14}={(G3,(G4,G9)),(G1,(G2,G8))}。計算G15與G16之間的距離,可得一個新的22階距離矩陣: 第八步,將G15與G16歸并為一類。此時,各個分類對象均已歸并為一類。 綜合上述聚類過程,可以作出最遠距離聚類譜系圖。 6. 系統(tǒng)聚類法計算類之間距離的統(tǒng)一公式 ▲ 最短距離聚類法具有空間壓縮性,而最遠距離聚類法具有空間擴張性(圖3.4.4)。最短距離為 dAB=da1b1,最遠距離為 dAB=dap2。 ▲ 最短距離聚類法和最遠距離聚類法關(guān)于類之間的距離計算可以用統(tǒng)一的式子表示: 當(dāng)γ= -1/2時,就是最短距離聚類法計算類間距離的公式;當(dāng)γ=1/2時,就是最遠距離聚類法計算類間距離的公式。 ▲ 系統(tǒng)聚類的方法還有: 表示了八種不同系統(tǒng)聚類方法計算類間距離的統(tǒng)一表達式(見表3.3.4)。 7. 系統(tǒng)聚類分析實例 作為系統(tǒng)聚類分析方法的應(yīng)用實例,下面對中國大陸31個省級區(qū)域第三產(chǎn)業(yè)綜合發(fā)展水平進行類型劃分及差異性程度分析。 1) 聚類指標(biāo)選擇 選取如下7項指標(biāo)作為對中國第三產(chǎn)業(yè)綜合發(fā)展水平進行聚類分析的基礎(chǔ)指標(biāo): ① y1——人均GDP,反映經(jīng)濟社會發(fā)展的總體狀況和一般水平; ② y2——人均第三產(chǎn)業(yè)增加值,反映人均服務(wù)產(chǎn)品占有量或服務(wù)密度; ③ y3——第二產(chǎn)業(yè)增加值比重,反映工業(yè)化水平和產(chǎn)業(yè)結(jié)構(gòu)現(xiàn)代化程度; ④ y4——第三產(chǎn)業(yè)增加值比重,反映第三產(chǎn)業(yè)的發(fā)展程度及其對國民經(jīng)濟的貢獻; ⑤ y5——第三產(chǎn)業(yè)從業(yè)人員比重,反映第三產(chǎn)業(yè)對勞動力的吸納能力; ⑥ y6——第三產(chǎn)業(yè)固定資產(chǎn)投資比重,反映第三產(chǎn)業(yè)的資金投入程度; ⑦ y7——城市化水平,反映農(nóng)村人口轉(zhuǎn)化為城市人口的程度及對服務(wù)的需求量。 2) 聚類計算 以 1999年國家統(tǒng)計局出版的《中國統(tǒng)計年鑒》(1998年度的數(shù)據(jù))為數(shù)據(jù)來源,運用上述7項指標(biāo)(表3.4.5) (點擊顯示該表),借助于統(tǒng)計分析軟件包SPSS10.0進行聚類分析計算,計算過程如下: ① 用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法對7項指標(biāo)的原始數(shù)據(jù)進行處理。 ② 采用歐氏距離測度31個?。ㄊ小^(qū))之間的樣本間距離。 ③ 選用組平均法計算類間的距離,并對樣本進行歸類。 經(jīng)過上述聚類計算步驟,得到的聚類結(jié)果見圖3.4.5。 (點擊在新窗口中顯示該圖) 一、模糊聚類分析基本原理 聚類分析是根據(jù)樣本代表性指標(biāo)在性質(zhì)上的親疏程度進行分類。因此,我們可以把模糊聚類分析的步驟分解如下: 1 .確定樣本統(tǒng)計指標(biāo)與數(shù)據(jù)標(biāo)準(zhǔn)化 對樣本進行分類的效果如何,關(guān)鍵在于要把統(tǒng)計指標(biāo)選擇合理。也就是統(tǒng)計指標(biāo)應(yīng)該有明確的實際意義,有較強的分辨力和代表性,即要有一定的普遍意義。 數(shù)據(jù)標(biāo)準(zhǔn)化就是把各個代表統(tǒng)計指標(biāo)的數(shù)據(jù)標(biāo)準(zhǔn)化,以便于分析和比較,這一步也稱為數(shù)據(jù)正規(guī)化。方法是: 式中 x 為原始數(shù)據(jù), 為原始數(shù)據(jù)的平均值, S 為原始數(shù)據(jù)的標(biāo)準(zhǔn)差, 為標(biāo)準(zhǔn)化數(shù)據(jù)。 若要把標(biāo)準(zhǔn)化數(shù)據(jù)壓縮到 [ 0 , 1 ] 閉區(qū)間,可用極值標(biāo)準(zhǔn)化公式: x max ——原始數(shù)據(jù)組中的最大者; x min ——原始數(shù)據(jù)組中的最小者。 當(dāng) x = x max 時, = 1 ; x = x min 時, = 0 。 2 .標(biāo)定距離,建立相似關(guān)系矩陣 距離是衡量分類對象間相似程度的統(tǒng)計量,用 r ij ( i = 1 , 2, … n ; j = 1 , 2 ,… n ; n 為樣本的個數(shù))表示。利用 r ij 從而確定相似關(guān)系矩陣 標(biāo)定距離的方法有很多,下面只列舉幾種常用的計算方法: ?、?歐氏距離 其中, x ik 表示第 i 個樣本的第 k 個指標(biāo)的觀察值, x jk 表示第 j 個樣本的第 k 個指標(biāo)的觀察值, r ij 表示第 i 個樣本與第 j 個樣本之間的親疏程度。 r ij 越小,則第 i 個樣本與第 j 個樣本之間的性質(zhì)就越接近。性質(zhì)接近的樣本就可以劃歸為一類。 ?、?絕對減數(shù)法 其中 c 應(yīng)適當(dāng)選取,使得 0 ≤ r ij ≤ 1 。 3 .進行聚類 在確定了樣本之間的距離后,就可以對樣本進行歸類,歸類的方法很多,其中用得最廣泛的是系統(tǒng)聚類法。它首先把 n 個樣本每個自成一類,然后每次將具有最小距離的兩類合并成一類,合并后又再重新計算類與類之間的距離,直至所有樣品歸為一類為止。 愛人者,人恒愛之;敬人者,人恒敬之;寬以濟猛,猛以濟寬,政是以和。將軍額上能跑馬,宰相肚里能撐船。 最高貴的復(fù)仇是寬容。有時寬容引起的道德震動比懲罰更強烈。 君子賢而能容罷,知而能容愚,博而能容淺,粹而能容雜。 寬容就是忘卻,人人都有痛苦,都有傷疤,動輒去揭,便添新創(chuàng),舊痕新傷難愈合,忘記昨日的是非,忘記別人先前對自己的指責(zé)和謾罵,時間是良好的止痛劑,學(xué)會忘卻,生活才有陽光,才有歡樂。 不要輕易放棄感情,誰都會心疼;不要沖動下做決定,會后悔一生。也許只一句分手,就再也不見;也許只一次主動,就能挽回遺憾。 世界上沒有不爭吵的感情,只有不肯包容的心靈;生活中沒有不會生氣的人,只有不知原諒的心。 感情不是游戲,誰也傷不起;人心不是鋼鐵,誰也疼不起。好緣分,憑的就是真心真意;真感情,要的就是不離不棄。 愛你的人,舍不得傷你;傷你的人,并不愛你。你在別人心里重不重要,自己可以感覺到。所謂華麗的轉(zhuǎn)身,都有旁人看不懂的情深。 人在旅途,肯陪你一程的人很多,能陪你一生的人卻很少。誰在默默的等待,誰又從未走遠,誰能為你一直都在? 這世上,別指望人人都對你好,對你好的人一輩子也不會遇到幾個。人心只有一顆,能放在心上的人畢竟不多;感情就那么一塊,心里一直裝著你其實是難得。 動了真情,情才會最難割;付出真心,心才會最難舍。 你在誰面前最蠢,就是最愛誰。其實戀愛就這么簡單,會讓你智商下降,完全變了性格,越來越不果斷。 所以啊,不管你有多聰明,多有手段,多富有攻擊性,真的愛上人時,就一點也用不上。 這件事情告訴我們。誰在你面前很聰明,很有手段,誰就真的不愛你呀。 遇到你之前,我以為愛是驚天動地,愛是轟轟烈烈抵死纏綿;我以為愛是蕩氣回腸,愛是熱血沸騰幸福滿滿。 我以為愛是窒息瘋狂,愛是炙熱的火炭。婚姻生活牽手走過酸甜苦辣溫馨與艱難,我開始懂得愛是經(jīng)得起平淡。 愛人者,人恒愛之;敬人者,人恒敬之;寬以濟猛,猛以濟寬,政是以和。將軍額上能跑馬,宰相肚里能撐船。 最高貴的復(fù)仇是寬容。有時寬容引起的道德震動比懲罰更強烈。 君子賢而能容罷,知而能容愚,博而能容淺,粹而能容雜。 寬容就是忘卻,人人都有痛苦,都有傷疤,動輒去揭,便添新創(chuàng),舊痕新傷難愈合,忘記昨日的是非,忘記別人先前對自己的指責(zé)和謾罵,時間是良好的止痛劑,學(xué)會忘卻,生活才有陽光,才有歡樂。 不要輕易放棄感情,誰都會心疼;不要沖動下做決定,會后悔一生。也許只一句分手,就再也不見;也許只一次主動,就能挽回遺憾。 世界上沒有不爭吵的感情,只有不肯包容的心靈;生活中沒有不會生氣的人,只有不知原諒的心。 感情不是游戲,誰也傷不起;人心不是鋼鐵,誰也疼不起。好緣分,憑的就是真心真意;真感情,要的就是不離不棄。 愛你的人,舍不得傷你;傷你的人,并不愛你。你在別人心里重不重要,自己可以感覺到。所謂華麗的轉(zhuǎn)身,都有旁人看不懂的情深。 人在旅途,肯陪你一程的人很多,能陪你一生的人卻很少。誰在默默的等待,誰又從未走遠,誰能為你一直都在? 這世上,別指望人人都對你好,對你好的人一輩子也不會遇到幾個。人心只有一顆,能放在心上的人畢竟不多;感情就那么一塊,心里一直裝著你其實是難得。 動了真情,情才會最難割;付出真心,心才會最難舍。 你在誰面前最蠢,就是最愛誰。其實戀愛就這么簡單,會讓你智商下降,完全變了性格,越來越不果斷。 所以啊,不管你有多聰明,多有手段,多富有攻擊性,真的愛上人時,就一點也用不上。 這件事情告訴我們。誰在你面前很聰明,很有手段,誰就真的不愛你呀。 遇到你之前,我以為愛是驚天動地,愛是轟轟烈烈抵死纏綿;我以為愛是蕩氣回腸,愛是熱血沸騰幸福滿滿。 我以為愛是窒息瘋狂,愛是炙熱的火炭?;橐錾顮渴肿哌^酸甜苦辣溫馨與艱難,我開始懂得愛是經(jīng)得起平淡。- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 系統(tǒng) 聚類分析 方法
鏈接地址:http://m.appdesigncorp.com/p-6686191.html