數(shù)學(xué)實(shí)驗(yàn)05聚類分析.ppt
《數(shù)學(xué)實(shí)驗(yàn)05聚類分析.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)學(xué)實(shí)驗(yàn)05聚類分析.ppt(52頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
聚類分析,俗話說:“物以類聚,人以群分”,在自然科學(xué)和社會(huì)科學(xué)中,存在著大量的分類問題。所謂類,通俗地說,就是指相似元素的集合。聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種統(tǒng)計(jì)分析方法。聚類分析起源于分類學(xué),在古老的分類學(xué)中,人們主要依靠經(jīng)驗(yàn)和專業(yè)知識(shí)來實(shí)現(xiàn)分類,很少利用數(shù)學(xué)工具進(jìn)行定量的分類。隨著人類科學(xué)技術(shù)的發(fā)展,對(duì)分類的要求越來越高,以致有時(shí)僅憑經(jīng)驗(yàn)和專業(yè)知識(shí)難以確切地進(jìn)行分類,于是人們逐漸地把數(shù)學(xué)工具引用到了分類學(xué)中,形成了數(shù)值分類學(xué),之后又將多元分析的技術(shù)引入到數(shù)值分類學(xué)形成了聚類分析。聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等。,第一節(jié)聚類分析方法第二節(jié)聚類統(tǒng)計(jì)量第三節(jié)數(shù)據(jù)變換方法第四節(jié)系統(tǒng)聚類法第五節(jié)k-均值聚類法,第一節(jié)聚類分析方法,聚類分析是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來進(jìn)行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗(yàn)知識(shí)的情況下進(jìn)行的。基本思想是根據(jù)事物本身的特性研究個(gè)體分類的方法;聚類原則是同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異很大。,基本程序:是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。具體進(jìn)行聚類時(shí),由于目的、要求不同,因而產(chǎn)生各種不同的聚類方法:由小類合并到大類的方法由大類分解為小類的方法靜態(tài)聚類法、動(dòng)態(tài)聚類法按樣本聚類(Q)、按指標(biāo)聚類(R),飲料數(shù)據(jù),16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量,第二節(jié)聚類統(tǒng)計(jì)量,一、概述二、Q型聚類統(tǒng)計(jì)量三、R型聚類統(tǒng)計(jì)量,概述,設(shè)有n個(gè)樣本單位,每個(gè)樣本測(cè)得p項(xiàng)指標(biāo)(變量),原始資料陣為:Q型聚類一般以距離作為統(tǒng)計(jì)量,R型聚類一般以相似系數(shù)作為統(tǒng)計(jì)量。,Q型聚類統(tǒng)計(jì)量(距離),把n個(gè)樣本點(diǎn)看成p維空間的n個(gè)點(diǎn)1、絕對(duì)距離(Block距離)2、歐氏距離(Euclideandistance),3、明考斯基距離(Minkowski)4、蘭氏距離5、馬氏距離6、切比雪夫距離(Chebychev),R型聚類統(tǒng)計(jì)量,對(duì)兩個(gè)指標(biāo)之間的相似程度用相似系數(shù)來刻劃,相似系數(shù)的絕對(duì)值越接近于1,表示指標(biāo)間的關(guān)系越密切,絕對(duì)值越接近于0,表示指標(biāo)間的關(guān)系越疏遠(yuǎn)。,1、夾角余弦2、相關(guān)系數(shù),距離和相似系數(shù)選擇的原則一般說來,同一批數(shù)據(jù)采用不同的親疏測(cè)度指標(biāo),會(huì)得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的親疏測(cè)度指標(biāo)所衡量的親疏程度的實(shí)際意義不同,也就是說,不同的親疏測(cè)度指標(biāo)代表了不同意義上的親疏程度。因此我們?cè)谶M(jìn)行聚類分析時(shí),應(yīng)注意親疏測(cè)度指標(biāo)的選擇。通常,選擇親疏測(cè)度指標(biāo)時(shí),應(yīng)注意遵循的基本原則主要有:,(2)親疏測(cè)度指標(biāo)的選擇要綜合考慮已對(duì)樣本觀測(cè)數(shù)據(jù)實(shí)施了的變換方法和將要采用的聚類分析方法。如在標(biāo)準(zhǔn)化變換之下,夾角余弦實(shí)際上就是相關(guān)系數(shù);又如若在進(jìn)行聚類分析之前已經(jīng)對(duì)變量的相關(guān)性作了處理,則通常就可采用歐氏距離,而不必選用斜交空間距離。此外,所選擇的親疏測(cè)度指標(biāo),還須和所選用的聚類分析方法一致。,(1)所選擇的親疏測(cè)度指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義。如在經(jīng)濟(jì)變量分析中,常用相關(guān)系數(shù)表示經(jīng)濟(jì)變量之間的親疏程度。,(3)適當(dāng)?shù)乜紤]計(jì)算工作量的大小。如對(duì)大樣本的聚類問題,不適宜選擇斜交空間距離,因采用該距離處理時(shí),計(jì)算工作量太大。樣品間或變量間親疏測(cè)度指標(biāo)的選擇是一個(gè)比較復(fù)雜且?guī)е饔^性的問題,我們應(yīng)根據(jù)研究對(duì)象的特點(diǎn)作具體分折,以選擇出合適的親疏測(cè)度指標(biāo)。實(shí)踐中,在開始進(jìn)行聚類分析時(shí),不妨試探性地多選擇幾個(gè)親疏測(cè)度指標(biāo),分別進(jìn)行聚類,然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析,以確定出合適的親疏測(cè)度指標(biāo)。,第三節(jié)數(shù)據(jù)變換方法,所謂數(shù)據(jù)變換(無(wú)量綱化)處理,是將原始數(shù)據(jù)矩陣中每個(gè)元素按照某種特定的運(yùn)算把它變成一個(gè)新值,且是數(shù)值的變化不依賴于原始數(shù)據(jù)中其它數(shù)據(jù)的新值。,1、中心化變換中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個(gè)變量的樣本平均值,再?gòu)脑紨?shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設(shè)原始觀測(cè)數(shù)據(jù)矩陣為:,中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個(gè)變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積之和是這兩列變量樣本協(xié)方差的n倍,所以這是一種很方便地計(jì)算方差與協(xié)方差的變換。,2、極差規(guī)格化變換規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有:,經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個(gè)變量的最大數(shù)值為1,最小數(shù)值為0,其余數(shù)據(jù)取值均在0-1之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。,3、標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換也是對(duì)變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法。首先對(duì)每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。即有:,經(jīng)過標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的n倍,所以這是一種很方便地計(jì)算相關(guān)矩陣的變換。,4.對(duì)數(shù)變換對(duì)數(shù)變換是將各個(gè)原始數(shù)據(jù)取對(duì)數(shù),將原始數(shù)據(jù)的對(duì)數(shù)值作為變換后的新值。即:,例:某年我國(guó)部分省市經(jīng)濟(jì)效益情況用以上幾種方法對(duì)其進(jìn)行數(shù)據(jù)變換。,第四節(jié)系統(tǒng)聚類法,系統(tǒng)聚類法(層次聚類法):在聚類分析的開始,每個(gè)樣本自成一類;然后,按照某種方法度量所有樣本之間的親疏程度,并把最相似(近)的樣本首先聚成一小類;接下來,度量剩余的樣本和小類間的親疏程度,并將當(dāng)前最接近的樣本或小類再聚成一類;再接下來,再度量剩余的樣本和小類間的親疏程度,并將當(dāng)前最接近的樣本或小類再聚成一類;如此反復(fù),直到所有樣本聚成一類為止。越是后來合并的類,距離就越遠(yuǎn)。,步驟:,1、對(duì)數(shù)據(jù)進(jìn)行變換處理,消除量綱2、構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣本計(jì)算3、n個(gè)樣本兩兩間的距離{dij}4、合并距離最近的兩類為一新類5、計(jì)算新類與當(dāng)前各類的距離,重復(fù)(4)6、畫聚類圖7、決定類的個(gè)數(shù)和類,1、對(duì)數(shù)據(jù)進(jìn)行變換處理,消除量綱2、構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣本計(jì)算3、n個(gè)樣本兩兩間的距離{dij}4、合并距離最近的兩類為一新類5、計(jì)算新類與當(dāng)前各類的距離,重復(fù)(4)6、畫聚類圖7、決定類的個(gè)數(shù)和類,類與類間距離的確定,一、最短距離法二、最長(zhǎng)距離法三、中間距離法四、重心距離法五、類平均法六、離差平方和,最短距離法(NearestNeighbor),以當(dāng)前某個(gè)樣本與已經(jīng)形成的小類中的各樣本距離中的最小值作為當(dāng)前樣本與該小類之間的距離。,,例1:為了研究遼寧省等5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做類型劃分,,,C1={遼寧},C2={浙江},C3={河南},C4={甘肅},C5={青海}d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.2112345D1=10211.670313.8024.630413.1224.062.200512.8023.543.512.210,,,河南與甘肅的距離最近,先將二者(3和4)合為一類C6={C2,C4},,,,d61=d(3,4)1=min{d13,d14}=13.12d62=d(3,4)2=min{d23,d24}=24.06d65=d(3,4)5=min{d35,d45}=2.21612560D2=113.120224.0611.67052.2112.8023.540d71=d(3,4,5)1=min{d13,d14,d15}=12.80d72=d(3,4,5)2=min{d23,d24,d25}=23.54712D3=70112.800223.5411.670,,,河南、甘肅與青海并為一新類C7={C6,C5}={C3,C4,C6},,,C8={C1,C2},,,,,d78=min{d71,d72}=12.8078D4=70812.80河南3甘肅4青海5遼寧1浙江2,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,最長(zhǎng)距離法(furthestneighbor),以當(dāng)前某個(gè)樣本與已經(jīng)形成的小類中的各樣本距離中的最大值作為當(dāng)前樣本與該小類之間的距離。,,例2:對(duì)例1的數(shù)據(jù)以最長(zhǎng)距離法聚類。,,d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.2112345D1=10211.670313.8024.630413.1224.062.200512.8023.543.512.210d61=d(3,4)1=max{d13,d14}=13.80d62=d(3,4)2=max{d23,d24}=24.63d65=d(3,4)5=max{d35,d45}=3.51612560D2=113.800224.6311.67053.5112.8023.540,,,,,,河南與甘肅的距離最近,先將二者(3和4)合為一類C6={C3,C4},河南、甘肅與青海并為一新類C7={C6,C5}={C3,C4,C6},,,,d71=d(3,4,5)1=max{d13,d14,d15}=13.80d72=d(3,4,5)2=max{d23,d24,d25}=24.63712D3=70113.800224.6311.670d78=max{d71,d72}=24.6378D4=70824.630,,,C8={C1,C2},,,中位數(shù)法(Medianclustering),用兩個(gè)類的中位數(shù)間的距離作為兩類的距離,,,,,,,,,,Gt,Gl,Gm,重心法,用兩類的重心間的距離作為兩類的距離,,,,,,,,,,,,,Gr,Gt,離差平方和法(Ward’smethodword),使小類內(nèi)各樣本的歐氏距離總平方和增加最小的兩小類合并為一類。將q固定時(shí),要選擇使S達(dá)到極小的分類,一切可能的分法有:,Ward尋找到一個(gè)局部最優(yōu)解的方法。先將n個(gè)樣本各成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使離差平方和S增加最小的兩類合并,直至所有樣本歸為一類為止。,飲料數(shù)據(jù),16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量,對(duì)于飲料聚類。輸出為,確定類的個(gè)數(shù),在聚類分析過程中類的個(gè)數(shù)如何來確定才合適呢?這是一個(gè)十分困難的問題,人們至今仍未找到令人滿意的方法。但是這個(gè)問題又是不可回避的。簡(jiǎn)單的做法是根據(jù)實(shí)際問題給定一個(gè)特定的閾值。,給定閾值——通過觀測(cè)聚類圖,給出一個(gè)合適的閾值T。要求類與類之間的距離不要超過T值。,系統(tǒng)聚類可以不事先確定有多少類;但是這里的k-均值聚類(k-meanscluster,也叫快速聚類,quickcluster)卻要求事先說好要分多少類??雌饋碛行┲饔^!假定要分3類,這個(gè)方法還進(jìn)一步要求事先確定3個(gè)點(diǎn)為“聚類種子”(凝聚點(diǎn));也就是說,把這3個(gè)點(diǎn)作為三類中每一類的基石。,第五節(jié)k-均值聚類——事先確定分多少類,然后,根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近,把所有點(diǎn)分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認(rèn)真,它們很可能最后還會(huì)分到同一類中。下面用飲料例的數(shù)據(jù)來做k-均值聚類。,第五節(jié)k-均值聚類——事先確定分多少類,K-均值(快速)聚類步驟,1、選擇分析變量2、指定聚類數(shù)目3、選擇k個(gè)樣本作為凝聚點(diǎn)4、按照距初始類中心最小的原則將各觀察量分到聚類中心所在的類中去,形成第一步迭代的k類5、計(jì)算每類中所有變量的均值,作為第二次迭代的中心6、重復(fù)4、5步,直至指定的迭代次數(shù)或達(dá)到終止的條件,飲料數(shù)據(jù),16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量,假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達(dá)到目標(biāo)了。這樣就可以得到最后的三類的中心以及每類有多少點(diǎn),根據(jù)需要,可以輸出哪些點(diǎn)分在一起。結(jié)果是:第一類為飲料:1、10;第二類為飲料:2、4、8、11、12、13、14;第三類為剩下的飲料:3、5、6、7、9、15、16。,凝聚點(diǎn)的選擇,1、經(jīng)驗(yàn)選擇2、對(duì)樣本人為或隨機(jī)分類,以每類的重心作為凝聚點(diǎn)3、最小最大距離法。如果欲將n個(gè)樣本點(diǎn)分為q類,先選取距離最大的兩點(diǎn)xi1,xi2為前兩個(gè)凝聚點(diǎn),然后選取第3個(gè)凝聚點(diǎn)xi3,由于其余所有點(diǎn)與前兩個(gè)凝聚點(diǎn)都有最短距離,在全部最短距離中選擇最長(zhǎng)距離,這個(gè)距離的兩端一個(gè)是xi1或xi2,而另一個(gè)就是我們要選擇的xi3.,聚類結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標(biāo)明確。,聚類要注意的問題,聚類要注意的問題,另外就分成多少類來說,也要有道理。只要你高興,從分層聚類的計(jì)算機(jī)結(jié)果中可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類之間的距離盡可能地遠(yuǎn),而類中點(diǎn)的距離盡可能的近,并且分類結(jié)果還要有令人信服的解釋。這一點(diǎn)就不是數(shù)學(xué)可以解決的了。,根據(jù)美國(guó)等20個(gè)國(guó)家和地區(qū)的信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r進(jìn)行分類。Call—每千人擁有的電話線數(shù);movel—每千人戶居民擁有的蜂窩移動(dòng)電話數(shù);fee—高峰時(shí)期每三分鐘國(guó)際電話的成本;comp—每千人擁有的計(jì)算機(jī)數(shù);mips—每千人計(jì)算機(jī)功率(每秒百萬(wàn)指令);net—每千人互聯(lián)網(wǎng)絡(luò)戶主數(shù)。,作業(yè)1:分別用系統(tǒng)聚類和K-均值聚類法對(duì)下面問題進(jìn)行分類。,作業(yè)2我國(guó)經(jīng)濟(jì)發(fā)展的總目標(biāo)是到2000年人民生活達(dá)到小康標(biāo)準(zhǔn),因此,了解各地區(qū)目前對(duì)小康生活質(zhì)量的實(shí)現(xiàn)程度。對(duì)各地區(qū)實(shí)現(xiàn)小康生活質(zhì)量的狀況進(jìn)行綜合評(píng)價(jià),對(duì)各級(jí)政府部門具有重要意義。數(shù)據(jù)是1990年全國(guó)30個(gè)省在經(jīng)濟(jì)(jj)、教育(jy)、健康(jk)和居住環(huán)境(jz)四個(gè)方面對(duì)小康標(biāo)準(zhǔn)已經(jīng)實(shí)現(xiàn)的程度,1表示已經(jīng)達(dá)到或超過小康水平,0表示低于或剛達(dá)到溫飽水平。希望利用該數(shù)據(jù)對(duì)15個(gè)地區(qū)進(jìn)行分類研究。,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
14.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)學(xué) 實(shí)驗(yàn) 05 聚類分析
鏈接地址:http://m.appdesigncorp.com/p-11536255.html