《SIFT特征在臉部識別中的研究與應(yīng)用》由會員分享,可在線閱讀,更多相關(guān)《SIFT特征在臉部識別中的研究與應(yīng)用(9頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、SIFT特征在臉部識別中的研究與應(yīng)用摘要: 一些模式識別和分類技術(shù)已經(jīng)應(yīng)用到生物領(lǐng)域。其中,一個有趣的技術(shù)是尺度不變特征變換(SIFT),它在最初設(shè)計時是用于對象識別。盡管SIFT特征已經(jīng)成為一種非常強大的特征描述方法,但它在人臉識別技術(shù)方面的應(yīng)用卻從來沒有過系統(tǒng)的研究。本文探討的是SIFT特征算法在人臉識別方面的應(yīng)用。為了確定方法的真正潛力和適用性,不同的匹配方案將用BANCA數(shù)據(jù)庫來測試,以便得到最適合的方法。1 引言人臉識別可能是第一個被人們用來認識熟悉的人的認知過程。雖然也可采用其它感官線索,比如說語音,步態(tài),甚至是出生時的氣味,但是這個識別已知臉的能力,在人們出生的時候就有了。這些問
2、題,使得臉部識別在生物特征識別和計算機視覺的研究性領(lǐng)域中,變得非常有趣。人臉識別是一個復(fù)雜的問題,但是基本上可以歸結(jié)為模式分類的問題。許多模式識別技術(shù)已經(jīng)投入運用,而且其它的也正在進行開發(fā)研究。臉部分析的案例由于一些臉部的特征與其它模式識別問題是不常見的,因而具有更多的復(fù)雜性。 維數(shù)的詛咒(至少處理一個2 D圖像)由于分類模式多樣化而更加復(fù)雜。臉部不是一個嚴格對象,并且它會有連續(xù)的非剛性變形。臉部不同的東西同時也是它們的共同之處,比如說兩只眼睛和一張嘴巴。雖然臉部一般作為一個二維物體進行處理,但是因為臉部的三維結(jié)構(gòu)和它在空間的運動,會產(chǎn)生許多歧義并導(dǎo)致一些假說的失敗。因為這些原因,人類的臉部分
3、析就面臨了一個不確定的問題。因此不同技術(shù)已經(jīng)運用到限制模式匹配和分類過程。其中,對于減少臉部空間維度有許多值得介紹的方法,它們都是通過不同的優(yōu)化處理過程達到目的,如主成分分析(PDA)、線性判別分析(LDA),費舍爾判別分析(FDA)與獨立分量分析(ICA)。其它技術(shù)則是基于圖像上臉的表面約束和模型,且都以形狀和紋理信息的形式顯示。還有一些方法是通過運用伽柏核心程序的多尺度濾波,從而得到臉部顯著特征的提取和分類。沿著這個方向,對“人臉模型變形”的估計和漸進變形會派生出一個新的技術(shù),即三維人臉和它在圖像上的二維表現(xiàn)形式之間的約束映射。近來,尺度不變特征變換(SIFT) 方法可用于識別一般物體時進
4、行邊緣切除,該方法目前主要應(yīng)用在這個領(lǐng)域,同時其它的機器視覺中也有所應(yīng)用。SIFT算法中一個有趣的特點是,通過圖像產(chǎn)生的尺度空間提取出本地模型,并從這個模型中提取灰度級別的特征點。在這方面, SIFT方法與本地二進制模式方法類似,它們的區(qū)別是:從提取的2D模型中得到的視圖不變性的表現(xiàn)形式有所不同。先不論這個技術(shù)的潛力和廣泛的適用性,就二維圖像的分類而言,至少據(jù)我們所知,它從未在人臉識別/驗證上運用過。在本文中,首次嘗試應(yīng)用SIFT對臉部進行分類。這個基本SIFT方案會在一個標(biāo)準(zhǔn)人臉數(shù)據(jù)庫中進行測試,該數(shù)據(jù)庫由三種不同匹配技術(shù)構(gòu)成。一般來說,利用對物體幾何對象的先驗知識,可以同時在精度和速度上用
5、來提高識別性能。因此,核心的SIFT算法已經(jīng)適應(yīng)了根據(jù)三個不同方案而得到的臉部圖像分類。在擬定的解決方案中,根據(jù)臉部幾何形狀,對提取的特征進行選擇和分組,其分組依據(jù)是對臉部幾個特征位置的先驗知識(通常是眼睛和嘴巴)。從結(jié)果中很容易看到,當(dāng)根據(jù)臉部幾何形狀進行特征篩選時,分類將會更加精確。從這方面看,用于臉部識別技術(shù)的真正潛力和廣泛實用性已經(jīng)得到了研究。2 尺度不變特征變換在2004年,David Lowe提出了一種從圖像中提取不變特征的方法。它稱之為尺度不變特征變換(SIFT)方法。這一類型特征的特點是對圖像的尺度和旋轉(zhuǎn)具有不變性,并能對大范圍的仿射失真進行魯棒匹配、改變3D視點、增加噪聲以及
6、改變照亮度,從而提供準(zhǔn)確的匹配。它們在空間域和頻率域都有很好的布局,以減少因阻斷、雜波或噪音而造成中斷的可能性。大量的特征可以通過有效的算法從典型圖像中提取出來。一張500*500像素的典型圖像會產(chǎn)生2000個穩(wěn)定特征點(雖然這個數(shù)字取決于圖像內(nèi)容和所選擇的各種參數(shù))。此外,這些特征是非常獨特的,它允許單個特征點與大型特征庫進行正確匹配,這些特征庫會提供物體的基本圖像和場景識別。通過級聯(lián)濾波的方法使提取特征的成本實現(xiàn)最小化,只有通過初步測試后 ,才會進行稍復(fù)雜的計算。以下是生成圖像特征的主要計算步驟:1尺度空間極值檢測:計算第一步即搜索所有尺度和圖像位置。通過高斯差異分布識別潛在的興趣點,這些
7、點應(yīng)具有尺度和旋轉(zhuǎn)不變性。給出一個高斯模糊圖像:在這里,I(x, y)即為所給圖像,同時,為了在尺度空間中(G為尺度空間),有效地檢測到穩(wěn)定的關(guān)鍵點的位置,應(yīng)該使用11中提到的方法。圖1. 模糊圖像處于不同尺度,并且是模糊高斯分布的計算。圖2. 局部極值的檢測,標(biāo)記有X的像素被拿來與處于3*3*3鄰域內(nèi)的26個鄰居做比較,跨越了相鄰的DoG的圖像。在高斯差異函數(shù)(D(x,y,))與圖像進行卷積時,用到了尺度空間極值,其中D(x,y,)由兩個相鄰尺度的差計算得到,其中,兩個相鄰尺度相差一個常數(shù)與系數(shù)k的乘積:興趣點(在SIFT中也稱為關(guān)鍵點)是DOG圖層所有尺度中的極大值或極小值。DoG圖層中的
8、每一個像素均與它同尺度中的8個鄰域點作比較,同時還要和相鄰尺度的上下各9個點進行比較。如果這個像素是最大值或者最小值,它就被選定為候選的關(guān)鍵點。2. 關(guān)鍵點的定位:在每個候選的位置上,建立一個詳細的模型來確定位置和尺度。通過衡量它們的穩(wěn)定性來決定關(guān)鍵點的的選取。 一旦一個候選的關(guān)鍵點是通過與鄰域像素比較而得到時,那下一步就要記錄關(guān)于它附近的位置、尺度和旋轉(zhuǎn)主曲率等詳細數(shù)據(jù)。當(dāng)一個點具有很低的對比度(因此對噪聲很敏感)或者在邊緣附近時,我們就會將這個店排除。3. 分配方向:根據(jù)本地圖像的梯度方向,關(guān)鍵點會被分配到一個或者多個的方向。為了確定關(guān)鍵點的方向,根據(jù)相鄰關(guān)鍵點(高斯圖像中最接近關(guān)鍵點尺度
9、的點)的方向生成一個梯度方向直方圖。每個相鄰像素點都由其梯度大小值和尺度為關(guān)鍵點1.5倍的高斯窗加權(quán)得到。直方圖的峰值對應(yīng)關(guān)鍵點主方向。為了使主方向?qū)?yīng)到直方圖的極大值,會生成一個單獨的關(guān)鍵點。并且其它任何方向都會小于最大值的百分之80。同時,所有關(guān)于關(guān)鍵點方向的屬性都會確定,這就保證它們具有了旋轉(zhuǎn)不變形。4. 關(guān)鍵點描述符:在每個關(guān)鍵點所在區(qū)域的選定的尺度內(nèi),對本地圖像梯度進行測量。這就意味著允許局部形狀畸變和照明度的改變。一個關(guān)鍵點的方向一旦確定,那么特征描述子將會由一系列在4*4像素區(qū)域上的直方圖計算得到。方向直方圖與關(guān)鍵點方向相關(guān),這個方向數(shù)據(jù)來自于與關(guān)鍵點尺度最接近的高斯圖像。就像之
10、前那樣,每個相鄰像素點都由其梯度大小值和尺度為關(guān)鍵點1.5倍的高斯窗加權(quán)得到。每個直方圖包含8個二進制文件,每個描述符包含一個關(guān)鍵點周圍的4個直方圖的數(shù)組。這就構(gòu)成了一個SIFT的特征向量的4*4*8 = 128個元素。這個向量經(jīng)過歸一化處理以實現(xiàn)亮度不變性,這樣,這個描述符就對光照的仿射變化具有不變性。 圖3和圖4中給出了一些SIFT算法應(yīng)用于臉部圖像(數(shù)據(jù)庫BANCA)識別的例子。特別是在具有統(tǒng)一主題的前三個圖像中,共同的特征都已經(jīng)表示出來(用黑點表示):這對于相應(yīng)特征的匹配提供了可能性。后面三個圖像則呈現(xiàn)出三個不同的主題:在這種情況下,SIFT特征區(qū)別很大。圖3. 圖像過濾提取的例子。這
11、些圖像在不同造型中,呈現(xiàn)出相同對象。黑點表明在所有的三幅圖中的共同穩(wěn)定SIFT。3 匹配策略為了識別一張臉,在測試圖像中計算的SIFT特征,應(yīng)該與模板的SIFT特征相匹配。在本節(jié)中,會對不同的匹配方法進行研究。它們不同于Lowe的方法,在某種意義上,它們會更加的簡單,同時也與我們正在解決的問題有更緊密的聯(lián)系。此外,這個方法更注重識別,而不是認證(識別意味著找到更好的匹配,用優(yōu)化過的霍夫變換來解決)。圖4. 運用提取SIFT的示例圖。這些圖像呈現(xiàn)了不同對象。這個SIFT差別也很大。在每個匹配策略開始都會使用兩套特征,分別是在測試圖像上的計算和在模板圖像上的計算。就如前面第二節(jié)所解釋的一樣,每個特
12、征都是四部分組成:軌跡(特征的位置)、尺度、方向和描述符。最后的描述符是一個128維的向量。為簡單起見,給出一個關(guān)鍵點Ki,我們先分別稱F(Ki),L(Ki),S(Ki)和O(Ki)為它的特征描述、位置、尺度和方向。針對不同的方法,會需要SIFT特征中的一部分或者所有的信息。3.1. 一對最小距離這個方法是最簡單的一種:計算兩個圖像中所有關(guān)鍵點描述對的距離,再把最小距離當(dāng)做匹配得分。更確切的說,給出兩張圖像Itest和Itemp,分別代表著測試圖像和模板圖像,兩套特征經(jīng)過計算:這個匹配得分 (一對最短距離)通過計算得到。在這里,是描述符的距離。盡管可以采用更復(fù)雜的方法(見19),但本文只對歐氏
13、距離進行簡單的研究。這個簡單的方案既沒有采用位置也沒有采用尺度和方向的信息:它表現(xiàn)出了一個最基本的系統(tǒng)。這個方法的主要思想是,一個對象的臉可能包含了許多鮮明的特征,在這張臉上的一個特征點可以與測試圖像中的特征點進行匹配。3.2. 眼睛和嘴的匹配第二個方法考慮到了臉部大部分的信息,主要聚集在眼睛和嘴的周圍。一旦這些目標(biāo)位置被確定下來,這個匹配策略就可以只考慮歸屬于這個區(qū)域的SIFT特征而忽略其它圖像區(qū)域的信息點。針對眼睛和嘴巴位置的不同,人們提出了不同的技術(shù)(見例6和其中的參考):在這里我們假設(shè)這個位置是已知的。給一張圖像I,提取兩張子圖片:一張位于眼睛附近,一張位于嘴附近,我們分別稱為Ieye
14、s和 Imouth。這個匹配將在成對組合方式下執(zhí)行,即眼睛對眼睛,嘴巴對嘴巴。最后平均計算一下這兩個距離。更確切的說即是:3.3. 在規(guī)則柵格上匹配第一個方法沒有考慮到特征點的位置:這就引發(fā)了一個問題,因為兩個關(guān)鍵點的最小距離不可能在相同臉部部分聯(lián)系起來。換句話說,臉部所有部分都可以相互匹配是不現(xiàn)實的。因為只考慮了眼睛和嘴巴,所以這個問題在第二個方法中得以解決。不過在這種情況下,位于右眼的特征可以與左眼的特征相匹配。因此,如果這張圖像或多或少的注冊過,那么位置相關(guān)匹配就可以實現(xiàn)。注冊是面部認證和識別的一個特別重要的問題,應(yīng)該得到合理解決。然而它是與認證/識別是完全不同的問題,并且應(yīng)該在應(yīng)用匹配
15、技術(shù)前得到解決。事實上,在最近所有的數(shù)據(jù)庫中(就像BANCA),為了允許圖像重新注冊,眼睛的位置都會給定:只有這樣匹配方法才可得到充分研究。在本文,我們假設(shè)圖像已注冊。這段中介紹的匹配方法是利用重疊的規(guī)則柵格將圖像細分成不同的子圖。通過計算所有成對對應(yīng)的子圖像之間的特征距離并做平均處理后,進行兩張圖像的匹配。更確切的來說,這兩張圖像將被細分為一系列局部重疊的子圖像,稱為I1IT。經(jīng)過初步實驗評估后(這里沒有給出),我們發(fā)現(xiàn)尺寸分別為長寬的1/4和1/2的子圖像,表現(xiàn)出在精確定位和修復(fù)注冊錯誤之間的折中辦法。這個重疊設(shè)定為25%。最后這個匹配得分(規(guī)則柵格)就是計算成對圖像匹配分數(shù)的平均值。即:
16、4 實驗評價以下臉部認證的實驗在BANCA數(shù)據(jù)庫上進行一1個包括臉部和聲音的多模式數(shù)據(jù)。用于臉部識別的部分由52個對象組成(26個女性,26個男性)。對于每個對象,記錄了在不同條件下的12個不同的類別。對于每個類別,會提取5張圖像,用于練習(xí)及客戶或冒充者的測試。在BANCA協(xié)議中,隨著難度不斷提升,定義了7種不同的實驗配置。在我們的實驗中,我們用匹配控制協(xié)議(MC),這個協(xié)議將圖片從第一個類別里集中起來用于練習(xí),而來自第二、三、四類別圖像用于測試。在這個例子中,我們使用已注冊的圖像,這樣圖像的位置標(biāo)注信息就已知。特別是在預(yù)處理階段,所有的圖像都在直方圖均衡化后進行簡單的幾何歸一化處理。在幾何歸
17、一化中,這個臉部將被映射到一張210*200像素的輸出圖像中去。這個映射使用了仿射變換只變換平移、旋轉(zhuǎn)和尺度。這個圖像可以通過人工說明的方法進行轉(zhuǎn)換,例如注釋眼睛的映射位置為輸出圖像邊緣的25%且自圖像頂端向下35%處的點??梢允褂脴?biāo)準(zhǔn)方法對直方圖進行均衡化。為了得到研究結(jié)果,測試圖像將被分為兩組,G1和G2,每組有26個對象。錯誤率由下列步驟計算得到: 在G1上做實驗,得到G1分值 在G2上做實驗,得到G2分值 用G1分值來計算ROC曲線,來決定現(xiàn)有的等錯誤率以及對應(yīng)的閥值G1 用閥值G1來計算錯誤接受率Rate(FARG2(G1)以及G2分值上的錯誤拒絕率。 通過下列計算G2的誤差加權(quán)率(
18、WER(R)R=0.1、1和10 在G1上用雙重方法計算WER(R)參數(shù)R預(yù)測了在錯誤接受和錯誤拒絕之間的成本率。SIFT特征已經(jīng)用Lowe的代碼進行計算。這三種匹配方法已經(jīng)進行測試:在表1和表2中給出識別的精確度。G1和G2的均等錯誤率在表1中呈現(xiàn)(對應(yīng)的ROC在圖5中顯示),而加權(quán)錯誤率在表2中,分別針對三種不同的R值。從表和圖形中可以得出,考慮背景信息是有益的:當(dāng)對比臉部對應(yīng)的部分時,會得到明顯的改進。特別是集中臉部和嘴的比較后,改善會更加明顯。此外,當(dāng)運用規(guī)則柵格的方法去比較對應(yīng)部分時,我們會得到最好的結(jié)果。以上這些結(jié)果揭示出在匹配中位置信息扮演的重要角色。 表1. 在G1和G2上,對
19、三種方法的前誤差?!癕PD”代表了一對最小距離。“EM”針對眼睛和嘴,“RG”針對規(guī)則柵格。圖5. G1和G2的ROC曲線:“MPD”代表一對最小距離,“EM”針對眼睛和嘴,“RG”針對規(guī)則柵格表2. 針對三種方法的不同的文字差錯率:“MPD”代表一對最小距離,“EM”針對眼睛和嘴,“RG”針對規(guī)則柵格。5 結(jié)論在本文中,主要介紹了SIFT特征應(yīng)用于人臉識別技術(shù)中的方法。目前已提出三種不同的匹配技術(shù),即:計算兩個圖像中關(guān)鍵點描述子之間的距離并將最小距離作為匹配得分。只使用屬于眼睛和嘴巴周圍區(qū)域的SIFT特征。對位于規(guī)則柵格和匹配重疊部分的SIFT特征進行匹配。已利用三種技術(shù)分別對BANCA數(shù)據(jù)
20、庫中G1和G2的圖像組進行集中測試。從實驗的開展分析,沿規(guī)則柵格進行匹配的方法優(yōu)于其它兩種方法,而一對最小距離方法為較差的方法。即使取得的分數(shù)與分類測試數(shù)據(jù)庫中的標(biāo)準(zhǔn)人臉不能很好匹配,它們?nèi)匀淮_認SIFT特征在這方面的適用性。值得注意的是亮度和形狀并沒有進行精確的規(guī)范化。SIFT特征在該領(lǐng)域的首次應(yīng)用中就提出過這個問題,在特征匹配過程中,必須考慮到臉形的特殊性和多變性。另一方面,SIFT算法本身應(yīng)進一步分析和調(diào)整,以充分適應(yīng)人臉形狀和紋理。這是朝這個方向的首次嘗試,未來將會研究更復(fù)雜的匹配技術(shù)和適當(dāng)?shù)奶卣鞣诸惖膽?yīng)用。為了更好地了解該方法的實際潛力,我們與其它方法(如PCA或LDA)進行比較。未來將研究的另一個方向是使用SIFT特征解決圖像注冊問題。