模式識(shí)別第2章課件聚類分析v.ppt

上傳人：za****8

文檔編號(hào)：6748597

上傳時(shí)間：2020-03-03

格式：PPT

頁(yè)數(shù)：49

大?。?,010.56KB

《模式識(shí)別第2章課件聚類分析v.ppt》由會(huì)員分享，可在線閱讀，更多相關(guān)《模式識(shí)別第2章課件聚類分析v.ppt（49頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

第二章聚類分析分類與聚類的區(qū)別分類用已知類別的樣本訓(xùn)練集來(lái)設(shè)計(jì)分類器監(jiān)督學(xué)習(xí) 聚類集群用事先不知類別的樣本而利用樣本的先驗(yàn)知識(shí)來(lái)構(gòu)造分類器無(wú)監(jiān)督學(xué)習(xí) 2 1聚類分析的概念基本思想對(duì)一批沒(méi)有標(biāo)明類別及類數(shù)的模式樣本集根據(jù)模式間的相似程度按照物以類聚人以群分的思想將相似的模式分為一類不相似的分為另一類特征的類型 1 低層特征無(wú)序尺度有明確的數(shù)量和數(shù)值有序尺度有先后好壞的次序關(guān)系如酒分為上中下三個(gè)等級(jí) 名義尺度無(wú)數(shù)量無(wú)次序關(guān)系如有紅黃兩種顏色2 中層特征經(jīng)過(guò)計(jì)算變換得到的特征3 高層特征在中層特征的基礎(chǔ)上有目的的經(jīng)過(guò)運(yùn)算形成例如椅子的重量體積比重體積與長(zhǎng) 寬高有關(guān) 比重與材料紋理顏色有關(guān) 這里低中高三層特征都有了方法的有效性特征選取不當(dāng)特征過(guò)少特征過(guò)多量綱問(wèn)題主要聚類分析技術(shù) 譜系法系統(tǒng)聚類層次聚類法基于目標(biāo)函數(shù)的聚類法動(dòng)態(tài)聚類圖論聚類法模糊聚類分析法 2 2模式相似度度量各種距離表示相似性絕對(duì)值距離已知兩個(gè)樣本xi xi1 xi2 xi3 xin Txj xj1 xj2 xj3 xjn T 歐幾里德距離明考夫斯基距離其中當(dāng)q 1時(shí)為絕對(duì)值距離當(dāng)q 2時(shí)為歐氏距離切比雪夫距離q趨向無(wú)窮大時(shí)明氏距離的極限情況馬哈拉諾比斯距離其中xi xj為特征向量為協(xié)方差使用的條件是樣本符合正態(tài)分布夾角余弦為xixj的均值即樣本間夾角小的為一類具有相似性例 x1 x2 x3的夾角如圖因?yàn)閤1 x2的夾角小所以x1 x2最相似 x2 x3 相關(guān)系數(shù)為xixj的均值注意在求相關(guān)系數(shù)之前要將數(shù)據(jù)標(biāo)準(zhǔn)化 2 3類的定義和與類間距離用距離進(jìn)行定義類書非監(jiān)督學(xué)習(xí)方法分類 1 基于概率密度函數(shù)估計(jì)的直接方法不實(shí)用 2 基于樣本間相似性度量的間接聚類方法兩類間的距離 1 最短距離兩類中相距最近的兩樣本間的距離 2 最長(zhǎng)距離兩類中相距最遠(yuǎn)的兩個(gè)樣本間的距離 3 中間距離最短距離和最長(zhǎng)距離都有片面性因此有時(shí)用中間距離設(shè) 1類和 23類間的最短距離為d12 最長(zhǎng)距離為d13 23類的長(zhǎng)度為d23 則中間距離為上式推廣為一般情況 4 重心距離均值間的距離5 類平均距離兩類中各個(gè)元素兩兩之間的距離平方相加后取平均值 6 離差平方和設(shè)N個(gè)樣品原分q類則定義第i類的離差平方和為離差平方和增量設(shè)樣本已分成 p q兩類若把 p q合為 r類則定義離差平方聚類準(zhǔn)則類內(nèi)距離越小越好類間距離越大越好一些準(zhǔn)則函數(shù) 聚類分析三要素相似性測(cè)度聚類準(zhǔn)則聚類算法 2 4聚類的算法 1 根據(jù)相似性閾值和最小距離原則的簡(jiǎn)單聚類法 2 按照最小距離原則不斷進(jìn)行兩類合并的方法 3 依據(jù)準(zhǔn)則函數(shù)的動(dòng)態(tài)動(dòng)態(tài)聚類算法系統(tǒng)聚類的算法譜系聚類的算法原理步驟例如下圖所示1 設(shè)全部樣本分為6類 2 作距離矩陣D 0 3 求最小元素 4 把 1 3合并 7 1 3 4 6合并 8 4 6 5 作距離矩陣D 1 6 若合并的類數(shù)沒(méi)有達(dá)到要求轉(zhuǎn)3 否則停止 3 求最小元素 4 8 5 2合并 9 2 5 4 6 分解聚類分解聚類把全部樣本作為一類然后根據(jù)相似性相鄰性分解目標(biāo)函數(shù)兩類均值方差 N 總樣本數(shù) 1類樣本數(shù) 2類樣本數(shù) 分解聚類框圖對(duì)分算法略例已知21個(gè)樣本每個(gè)樣本取二個(gè)特征原始資料矩陣如下表解第一次分類時(shí)計(jì)算所有樣本分別劃到時(shí)的E值找出最大的 1 開始時(shí) 2 分別計(jì)算當(dāng)劃入時(shí)的E值把劃入時(shí)有然后再把劃入時(shí)對(duì)應(yīng)的E值找出一個(gè)最大的E值把劃為的E值最大 E 1 56 6 再繼續(xù)進(jìn)行第二第三次迭代計(jì)算出E 2 E 3 次數(shù)E值156 6279 16390 904102 615120 116137 157154 108176 159195 2610213 0711212 01 第10次迭代劃入時(shí) E最大于是分成以下兩類每次分類后要重新計(jì)算的值可用以下遞推公式動(dòng)態(tài)聚類兼顧系統(tǒng)聚類和分解聚類一動(dòng)態(tài)聚類的方法概要先選定某種距離作為樣本間的相似性的度量確定評(píng)價(jià)聚類結(jié)果的準(zhǔn)則函數(shù) 給出某種初始分類用迭代法找出使準(zhǔn)則函數(shù)取極值的最好的聚類結(jié)果動(dòng)態(tài)聚類框圖二代表點(diǎn)的選取方法代表點(diǎn)就是初始分類的聚類中心數(shù)k 憑經(jīng)驗(yàn)選代表點(diǎn) 根據(jù)問(wèn)題的性質(zhì) 數(shù)據(jù)分布從直觀上看來(lái)較合理的代表點(diǎn)k 將全部樣本隨機(jī)分成k類計(jì)算每類重心把這些重心作為每類的代表點(diǎn) 按密度大小選代表點(diǎn) 以每個(gè)樣本作為球心以d為半徑做球形落在球內(nèi)的樣本數(shù)稱為該點(diǎn)的密度并按密度大小排序首先選密度最大的作為第一個(gè)代表點(diǎn) 即第一個(gè)聚類中心再考慮第二大密度點(diǎn) 若第二大密度點(diǎn)距第一代表點(diǎn)的距離大于d1 人為規(guī)定的正數(shù) 則把第二大密度點(diǎn)作為第二代表點(diǎn) 否則不能作為代表點(diǎn) 這樣按密度大小考察下去所選代表點(diǎn)間的距離都大于d1 d1太小代表點(diǎn)太多 d1太大代表點(diǎn)太小一般選d1 2d 對(duì)代表點(diǎn)內(nèi)的密度一般要求大于T T 0為規(guī)定的一個(gè)正數(shù) 用前k個(gè)樣本點(diǎn)作為代表點(diǎn) 三初始分類和調(diào)整選一批代表點(diǎn)后代表點(diǎn)就是聚類中心計(jì)算其它樣本到聚類中心的距離把所有樣本歸于最近的聚類中心點(diǎn) 形成初始分類再重新計(jì)算各聚類中心稱為成批處理法選一批代表點(diǎn)后依次計(jì)算其它樣本的歸類當(dāng)計(jì)算完第一個(gè)樣本時(shí) 把它歸于最近的一類形成新的分類再計(jì)算新的聚類中心再計(jì)算第二個(gè)樣本到新的聚類中心的距離對(duì)第二個(gè)樣本歸類即每個(gè)樣本的歸類都改變一次聚類中心此法稱為逐個(gè)處理法直接用樣本進(jìn)行初始分類先規(guī)定距離d 把第一個(gè)樣品作為第一類的聚類中心考察第二個(gè)樣本若第二個(gè)樣本距第一個(gè)聚類中心距離小于d 就把第二個(gè)樣本歸于第一類否則第二個(gè)樣本就成為第二類的聚類中心再考慮其它樣本根據(jù)樣本到聚類中心距離大于還是小于d 決定分裂還是合并最佳初始分類如圖所示隨著初始分類k的增大準(zhǔn)則函數(shù)下降很快經(jīng)過(guò)拐點(diǎn)A后下降速度減慢拐點(diǎn)A就是最佳初始分類四 C 平均算法例已知有20個(gè)樣本每個(gè)樣本有2個(gè)特征數(shù)據(jù)分布如下圖第一步令C 2 選初始聚類中心為第三步根據(jù)新分成的兩類建立新的聚類中心第四步轉(zhuǎn)第二步第二步重新計(jì)算到z1 2 z2 2 的距離把它們歸為最近聚類中心重新分為兩類第三步更新聚類中心第四步第二步第三步更新聚類中心迭代自組織數(shù)據(jù)分析算法 ISOData 方法步驟 1 任選初始值中心 C個(gè) 2 將N個(gè)樣本分到C類中 3 計(jì)算距離 4 要求對(duì)中心分裂合并新的中心 5 判斷上機(jī)作業(yè) 已知50個(gè)樣本隨機(jī)產(chǎn)生每個(gè)樣本2個(gè)特征取值在0 10 數(shù)據(jù)如下用c平均算法和ISODATA算法分類編程上機(jī) 并畫出分類圖

下載提示(請(qǐng)認(rèn)真閱讀)

1.請(qǐng)仔細(xì)閱讀文檔，確保文檔完整性，對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
2.下載的文檔，不會(huì)出現(xiàn)我們的網(wǎng)址水印。
3、該文檔所得收入（下載+內(nèi)容+預(yù)覽）歸上傳者、原創(chuàng)作者；如果您是本文檔原作者，請(qǐng)點(diǎn)此認(rèn)領(lǐng)！既往收益都?xì)w您。

同意并開始全文預(yù)覽

文檔包含非法信息？點(diǎn)此舉報(bào)后獲取現(xiàn)金獎(jiǎng)勵(lì)！

文檔加載中……請(qǐng)稍候！
如果長(zhǎng)時(shí)間未打開，您也可以點(diǎn)擊刷新試試。

下載文檔到電腦，查找使用更方便

9.9 積分

還剩頁(yè)未讀，繼續(xù)閱讀

舉報(bào)

版權(quán)申訴 word格式文檔無(wú)特別注明外均可編輯修改；預(yù)覽文檔經(jīng)過(guò)壓縮，下載后原文更清晰！ 立即下載

配套講稿：: 如PPT文件的首頁(yè)顯示word圖標(biāo)，表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
特殊限制：: 部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片，僅作為作品整體效果示例展示，禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
關(guān) 鍵詞：: 模式識(shí)別課件聚類分析

溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

裝配圖網(wǎng)所有資源均是用戶自行上傳分享，僅供網(wǎng)友學(xué)習(xí)交流，未經(jīng)上傳用戶書面授權(quán)，請(qǐng)勿作他用。

關(guān)于本文

本文標(biāo)題：模式識(shí)別第2章課件聚類分析v.ppt
鏈接地址：http://m.appdesigncorp.com/p-6748597.html

相關(guān)資源更多

正為您匹配相似的精品文檔

相關(guān)搜索

模式識(shí)別 課件 聚類分析

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

模式識(shí)別第2章課件聚類分析v.ppt

最新文檔