模式識別學(xué)習(xí)心得.ppt
模式識別學(xué)習(xí)心得,作者:白靜 2012.9.8,模式識別定義,模式識別(Pattern Recognition)是指對表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進(jìn)行處理和分析,以對事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過程,是信息科學(xué)和人工智能的重要組成部分。 模式識別又常稱作模式分類,從處理問題的性質(zhì)和解決問題的方法等角度,模式識別分為有監(jiān)督的分類(Supervised Classification)和無監(jiān)督的分類(Unsupervised Classification)兩種。二者的主要差別在于各實(shí)驗(yàn)樣本所屬的類別是否預(yù)先已知。一般說來,有監(jiān)督的分類往往需要提供大量已知類別的樣本,但在實(shí)際問題中,這是存在一定困難的,因此研究無監(jiān)督的分類就變得十分有必要了。 模式還可分成抽象的和具體的兩種形式。前者如意識、思想、議論等,屬于概念識別研究的范疇,是人工智能的另一研究分支。我們所指的模式識別主要是對語音波形、地震波、心電圖、腦電圖、圖片、照片、文字、符號、生物傳感器等對象的具體模式進(jìn)行辨識和分類。,模式識別的發(fā)展簡史,1929年 G. Tauschek發(fā)明閱讀機(jī) ,能夠閱讀0-9的數(shù)字。 30年代 Fisher提出統(tǒng)計(jì)分類理論,奠定了統(tǒng)計(jì)模式識別的基礎(chǔ)。 50年代 Noam Chemsky 提出形式語言理論傅京蓀提出句法/結(jié)構(gòu)模式識別。 60年代 L.A.Zadeh提出了模糊集理論,模糊模式識別方法得以發(fā)展和應(yīng)用 80年代 以Hopfield網(wǎng)、BP網(wǎng)為代表的神經(jīng)網(wǎng)絡(luò)模型導(dǎo)致人工神經(jīng)元網(wǎng)絡(luò)復(fù)活,并在模式識別得到較廣泛的應(yīng)用。 90年代 小樣本學(xué)習(xí)理論,支持向量機(jī)也受到了很大的重視。,模式識別的方法和應(yīng)用,模式識別的方法: 統(tǒng)計(jì)模式識別 句法模式識別 模糊模式識別 人工神經(jīng)網(wǎng)絡(luò)法 人工智能方法 模式識別的應(yīng)用 文字識別 語音識別 指紋識別 遙感 醫(yī)學(xué)診斷,模式識別基本概念,模式識別(Pattern Recognition):確定一個(gè)樣本的類別屬性(模式類)的過程,即把某一樣本歸屬于多個(gè)類型中的某個(gè)類型。 樣本(Sample):一個(gè)具體的研究(客觀)對象。如患者,某人寫的一個(gè)漢字,一幅圖片等。 模式(Pattern):對客體(研究對象)特征的描述(定量的或結(jié)構(gòu)的描述),是取自客觀世界的某一樣本的測量值的集合(或綜合)。 特征(Features):能描述模式特性的量(測量值)。在統(tǒng)計(jì)模式識別方法中,通常用一個(gè)矢量 表示,稱之為特征矢量,記為 模式類(Class):具有某些共同特性的模式的集合。,模式識別系統(tǒng),一個(gè)典型的模式識別系統(tǒng)由下圖所示的結(jié)構(gòu)框圖組成,一般由數(shù)據(jù)獲取,預(yù)處理,特征提取選擇、分類決策及分類器設(shè)計(jì)五部分組成。分類器設(shè)計(jì)在訓(xùn)練過程中完成,利用樣本進(jìn)行訓(xùn)練,確定分類器的具體參數(shù)。而分類決策在識別過程中起作用,對待識別的樣本進(jìn)行分類決策。,模式識別系統(tǒng),范例 木板 圖象 512512 d=3 長度 紋理 亮度 c=2 松木 樺木,維數(shù) 無限 有限/ 很大R 有限d 不大c,dR無限,模式識別過程,特征矢量和特征空間,特征矢量: 設(shè)一個(gè)研究對像的n個(gè)特征量測量值分別為,我們將它們作為一個(gè)整體來考慮,讓它們構(gòu)成一個(gè)維特征矢量 特征空間: 各種不同取值的特征矢量的全體構(gòu)成了維特征空間。,隨機(jī)矢量的描述,隨機(jī)矢量: 在模式識別過程中,要對許多具體對象進(jìn)行測量,以獲得許多次觀測值。 每次觀測值不一定相同,所以對許多對象而言,各個(gè)特征分量都是隨機(jī)變量,即許多對象的特征向量在n維空間中呈隨機(jī)性分布,稱為隨機(jī)矢量。 隨機(jī)矢量的分布函數(shù): 設(shè) 為隨機(jī)矢量, 為確定性矢量。 隨機(jī)矢量的聯(lián)合概率分布函數(shù)定義為: 式中 表示括號中事件同時(shí)發(fā)生的概率。,聚類分析 (Clustering Analysis),一、聚類分析的基本思想 相似的歸為一類。 模式相似性的度量和聚類算法。 無監(jiān)督分類(Unsupervised) 。,二、特征量的類型 物理量-(重量、長度、速度) 次序量-(等級、技能、學(xué)識) 名義量-(性別、狀態(tài)、種類),三、方法的有效性 取決于分類算法和特征點(diǎn)分布情況的匹配。,聚類過程遵循的基本步驟,三、聚類準(zhǔn)則(clustering criterion) 以蘊(yùn)涵在數(shù)據(jù)集中類的類型為基礎(chǔ),二、近鄰測度(proximity measure) 定量測定兩特征如何“相似”或“不相似”,一、特征選擇(feature selection) 盡可能多地包含任務(wù)關(guān)心的信息,聚類過程遵循的基本步驟,六、結(jié)果判定(interpretation of the results) 由專家用其他方法判定結(jié)果的正確性,五、結(jié)果驗(yàn)證(validation of the results) 常用逼近檢驗(yàn)驗(yàn)證聚類結(jié)果的正確性,四、聚類算法(clustering algorithm) 按近鄰測度和聚類準(zhǔn)則揭示數(shù)據(jù)集的聚類結(jié)構(gòu),聚類應(yīng)用的四個(gè)基本方向,一、減少數(shù)據(jù) 許多時(shí)候,當(dāng)數(shù)據(jù)量N很大時(shí),會(huì)使數(shù)據(jù)處理變得很費(fèi)力。因此可使用聚類分析的方法將數(shù)據(jù)分成幾組可判斷的聚類m(mN)來處理,每一個(gè)類可當(dāng)作獨(dú)立實(shí)體來對待。從這個(gè)角度看,數(shù)據(jù)被壓縮了。 二、假說生成 在這種情況下,為了推導(dǎo)出數(shù)據(jù)性質(zhì)的一些假說,對數(shù)據(jù)集進(jìn)行聚類分析。因此,這里使用聚類作為建立假說的方法,然后用其他數(shù)據(jù)集驗(yàn)證這些假說。 三、假說檢驗(yàn) 用聚類分析來驗(yàn)證指定假說的有效性。 四、基于分組的預(yù)測 對現(xiàn)有數(shù)據(jù)進(jìn)行聚類分析,形成模式的特征,并用特征表示聚類,接下來,對于一個(gè)未知模式,就可以用前面的聚類來確定是哪一類?,模式相似性測度,用于描述各模式之間特征的相似程度 距 離 測 度 測度基礎(chǔ):兩個(gè)矢量矢端的距離 測度數(shù)值:兩矢量各相應(yīng)分量之差的函數(shù)。 相 似 測 度 測度基礎(chǔ):以兩矢量的方向是否相近作為考慮的基礎(chǔ),矢量長度并不重要。 匹 配 測 度 當(dāng)特征只有兩個(gè)狀態(tài)(0,1)時(shí),常用匹配測度。 0表示無此特征 1表示有此特征。故稱之為二值特征。,聚類的算法,簡單聚類方法 針對具體問題確定相似性閾值,將模式到各聚類中心間的距離與閾值比較,當(dāng)大于閾值時(shí)該模式就作為另一類的類心,小于閾值時(shí)按最小距離原則將其分劃到某一類中。 按最小距離原則進(jìn)行兩類合并的方法 首先視各模式自成一類,然后將距離最小的兩類合并成一類,不斷地重復(fù)這個(gè)過程,直到成為兩類為止。 依據(jù)準(zhǔn)則函數(shù)動(dòng)態(tài)聚類法 設(shè)定一些分類的控制參數(shù),定義一個(gè)能表征聚類結(jié)果優(yōu)劣的準(zhǔn)則函數(shù),聚類過程就是使準(zhǔn)則函數(shù)取極值的優(yōu)化過程。,