《SPSS軟件聚類分析過程的圖文解釋及結(jié)果的全面分析.docx》由會(huì)員分享,可在線閱讀,更多相關(guān)《SPSS軟件聚類分析過程的圖文解釋及結(jié)果的全面分析.docx(11頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、SPSS聚類分析過程
聚類的主要過程一般可分為如下四個(gè)步驟:
1.數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化)
2.構(gòu)造關(guān)系矩陣(親疏關(guān)系的描述)
3.聚類(根據(jù)不同方法進(jìn)行分類)
4.確定最佳分類(類別數(shù))
SPSS軟件聚類步驟
1. 數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)化)
→Analyze →Classify →Hierachical Cluster Analysis →Method 然后從對(duì)話框中進(jìn)行如下選擇
從Transform Values框中點(diǎn)擊向下箭頭,此為標(biāo)準(zhǔn)化方法,將出現(xiàn)如下可選項(xiàng),從中選一即可:
標(biāo)準(zhǔn)化方法解釋:None:不進(jìn)行標(biāo)準(zhǔn)化,這是系統(tǒng)默認(rèn)值;Z Scores:標(biāo)準(zhǔn)化變換;R
2、ange –1 to 1:極差標(biāo)準(zhǔn)化變換(作用:變換后的數(shù)據(jù)均值為0,極差為1,且|xij*|<1,消去了量綱的影響;在以后的分析計(jì)算中可以減少誤差的產(chǎn)生。);Range 0 to 1(極差正規(guī)化變換 / 規(guī)格化變換);
2. 構(gòu)造關(guān)系矩陣
在SPSS中如何選擇測(cè)度(相似性統(tǒng)計(jì)量):
→Analyze →Classify →Hierachical Cluster Analysis →Method 然后從對(duì)話框中進(jìn)行如下選擇
常用測(cè)度(選項(xiàng)說明):Euclidean distance:歐氏距離(二階Minkowski距離),用途:聚類分析中用得最廣泛的距離;Squared Euc
3、idean distance:平方歐氏距離;Cosine:夾角余弦(相似性測(cè)度;Pearson correlation:皮爾遜相關(guān)系數(shù);
3. 選擇聚類方法
SPSS中如何選擇系統(tǒng)聚類法
常用系統(tǒng)聚類方法
a)Between-groups linkage 組間平均距離連接法
方法簡(jiǎn)述:合并兩類的結(jié)果使所有的兩兩項(xiàng)對(duì)之間的平均距離最小。(項(xiàng)對(duì)的兩成員分屬不同類)特點(diǎn):非最大距離,也非最小距離
b)Within-groups linkage 組內(nèi)平均連接法
方法簡(jiǎn)述:兩類合并為一類后,合并后的類中所有項(xiàng)之間的平均距離最小
C)Nearest neighbor 最近鄰法(最短距離法)
4、
方法簡(jiǎn)述:用兩類之間最遠(yuǎn)點(diǎn)的距離代表兩類之間的距離,也稱之為完全連接法
d)Furthest neighbor 最遠(yuǎn)鄰法(最長(zhǎng)距離法)
方法簡(jiǎn)述:用兩類之間最遠(yuǎn)點(diǎn)的距離代表兩類之間的距離,也稱之為完全連接法
e)Centroid clustering 重心聚類法
方法簡(jiǎn)述:兩類間的距離定義為兩類重心之間的距離,對(duì)樣品分類而言,每一類中心就是屬于該類樣品的均值
特點(diǎn):該距離隨聚類地進(jìn)行不斷縮小。該法的譜系樹狀圖很難跟蹤,且符號(hào)改變頻繁,計(jì)算較煩。
f)Median clustering 中位數(shù)法
方法簡(jiǎn)述:兩類間的距離既不采用兩類間的最近距離,也不采用最遠(yuǎn)距離,而采用介于兩者間
5、的距離
特點(diǎn):圖形將出現(xiàn)遞轉(zhuǎn),譜系樹狀圖很難跟蹤,因而這個(gè)方法幾乎不被人們采用。
g)Ward’s method 離差平方和法
方法簡(jiǎn)述:基于方差分析思想,如果分類合理,則同類樣品間離差平方和應(yīng)當(dāng)較小,類與類間離差平方和應(yīng)當(dāng)較大
特點(diǎn):實(shí)際應(yīng)用中分類效果較好,應(yīng)用較廣;要求樣品間的距離必須是歐氏距離。
譜系分類的確定
經(jīng)過系統(tǒng)聚類法處理后,得到聚類樹狀譜系圖,Demirmen(1972)提出了應(yīng)根據(jù)研究的目的來確定適當(dāng)?shù)姆诸惙椒?,并提出了一些根?jù)譜系圖來分類的準(zhǔn)則:
A. 任何類都必須在臨近各類中是突出的,即各類重心間距離必須極大
B. 確定的類中,各類所包含的
6、元素都不要過分地多
C. 分類的數(shù)目必須符合實(shí)用目的
D. 若采用幾種不同的聚類方法處理,則在各自的聚類圖中應(yīng)發(fā)現(xiàn)相同的類
實(shí)例分析
SPSS19.0分析軟件聚類分析
4.2聚類分析——系統(tǒng)聚類法
在數(shù)據(jù)編輯窗口的主菜單中選擇“分析(A)”→“分類(F)”→“系統(tǒng)聚類(H)”(如圖-4所示),
彈出“系統(tǒng)聚類分析”對(duì)話框,將“地區(qū)”變量選入“標(biāo)注個(gè)案(C)”中,將其他變量選入“變量框”中,如圖-5所示。在“分群”單選框中選中“個(gè)案”,表示進(jìn)行的是Q型聚類。在“輸出”
7、復(fù)選框中選中“統(tǒng)計(jì)量”和“圖”,表示要輸出的結(jié)果包含以上兩項(xiàng)。
單擊“統(tǒng)計(jì)量(S)”按鈕,在“系統(tǒng)聚類分析:統(tǒng)計(jì)量”對(duì)話框中選擇“合并進(jìn)程表”、“相似性矩陣”,如圖-6所示,表示輸出結(jié)果將包括這兩項(xiàng)內(nèi)容。
單擊“繪制(T)”按鈕,在“系統(tǒng)聚類分析:圖”對(duì)話框中選擇“樹狀圖”、“冰柱”,如圖-7所示,表示輸出的結(jié)果將包括譜系聚類圖(樹狀)以及冰柱圖(垂直)。
單擊“方法(M)”按鈕,彈出“系統(tǒng)聚類分析:方法”對(duì)話框,如下圖-8所示。
“聚類方法(M)”選項(xiàng)條中可選項(xiàng)包括如圖-9所示的幾種方法,本例中選擇“組間聯(lián)接”:
“度量標(biāo)準(zhǔn)-區(qū)間(N)”選項(xiàng)條中可選項(xiàng)包括如圖-
8、10所示的幾種度量方法,本例中選擇“平方Euclidean距離”:
“轉(zhuǎn)換值-標(biāo)準(zhǔn)化(S)”選項(xiàng)條中可選項(xiàng)包括如圖-11所示的幾種將原始數(shù)據(jù)標(biāo)準(zhǔn)化的方法,本例中選擇“全局從0到1”:
冰柱圖解釋
聚類分析冰柱圖形狀類似于屋檐上垂下的冰柱,因此而得名。
橫軸:案例(Case)表示被聚類的對(duì)象或變量;
縱軸:群集數(shù)(Number of clusters)表示被聚成幾類;
觀察冰柱圖應(yīng)從最后一行開始。舉例如下:
當(dāng)聚成6類時(shí)X4和X8和X6聚成一類,其他個(gè)案自成一類,用白板將6類一下?lián)跎峡梢钥闯鋈鐖D;
當(dāng)聚成5類時(shí)X4和X8和X6和X2聚成一類,其他個(gè)案自成一類。
冰柱圖的優(yōu)點(diǎn)是不僅可以顯示出不同類數(shù)時(shí)個(gè)案所屬的分類結(jié)果,還能表現(xiàn)出聚類的過程步驟,生動(dòng)形象;缺點(diǎn)是不能表現(xiàn)出聚類過程中距離的大小。
若生成的樹狀圖如下,看不清楚??牲c(diǎn)擊右鍵導(dǎo)出文件,生成word文件,然后可以看出聚類過程。
導(dǎo)出的word文檔中聚類過程如下:
可看出聚類過程為如下表所示:
分類過程統(tǒng)計(jì)表
連結(jié)順序
連 結(jié) 元 素
1
B
C
2
A
BC
3
E
F
4
EF
ABC
5
D
ABCEF