圖像檢索技術(shù)研究【優(yōu)秀畢業(yè)課程設(shè)計】
《圖像檢索技術(shù)研究【優(yōu)秀畢業(yè)課程設(shè)計】》由會員分享,可在線閱讀,更多相關(guān)《圖像檢索技術(shù)研究【優(yōu)秀畢業(yè)課程設(shè)計】(31頁珍藏版)》請在裝配圖網(wǎng)上搜索。
I 摘 要 在網(wǎng)絡(luò)和多媒體技術(shù)越來越發(fā)達(dá)的今天,信息檢索技術(shù)成了現(xiàn)在計算機(jī)領(lǐng)域的重要內(nèi)容,而圖像檢索技術(shù)正是這其中的重要內(nèi)容之一。網(wǎng)絡(luò)資源的極大豐富以及圖像檢索技術(shù)不斷發(fā)展成熟,使得圖像檢索技術(shù)的應(yīng)用領(lǐng)域不斷擴(kuò)大,這為圖像檢索技術(shù)的繼續(xù)研究提供條件。 以此同時, 隨著網(wǎng)絡(luò)傳送速度與計算機(jī)信息處理速度的提高,網(wǎng)頁中對多媒體信息的使用變得十分普及,特別是圖像信息,己經(jīng)成為表示網(wǎng)頁內(nèi)容不可缺少的組成部分。在實現(xiàn)對網(wǎng)頁中文本信息提取的同時,如何再為用戶抽取所需的圖片資料,是信息檢索中一個重要的方面。于是各種基于 圖像檢索系統(tǒng)應(yīng)運而生。它們采用不同的工作方式,極大地方便了用戶對網(wǎng)上圖像進(jìn)行檢索。 本文首先介紹各種圖像檢索技術(shù)的工作原理、研究現(xiàn)狀、相關(guān)圖像檢索引擎與發(fā)展趨勢;然后,對幾種比較熱門的圖像檢索算法進(jìn)行研究和對比。 關(guān)鍵字 : 圖像檢索 檢索引擎 文本處理 信息檢索 相似度 相關(guān)反饋 I 目 錄 1 前言 . 1 題來源 . 1 有的圖像檢索技術(shù) . 2 索引擎的工作原理 . 2 像檢索引擎的檢索途徑 . 3 幾個基本引擎的分析 . 4 索引擎的基本要點 . 5 像檢索的發(fā)展方向 . 6 2 基于顏色的圖像檢索 . 7 色特征提取 . 7 似度計算 . 10 驗結(jié)果 . 10 3 基于紋理的圖像檢索 . 10 理特征提取 . 10 相似度計算 . 13 驗結(jié)果 . 13 4 綜合顏色和紋理特征的圖像檢索 . 14 合特征檢索的思想 . 14 關(guān)反饋 . 15 驗結(jié)果及結(jié)論 . 15 5 基于 圖像檢索 . 17 本與圖像之間的關(guān)系 . 17 示圖像內(nèi)容的文本標(biāo)記 . 17 本的權(quán)值比較 . 18 像信息檢索 . 18 索模型與相似度 . 18 詞技術(shù)和匹配方法 . 20 索反 饋 . 22 驗結(jié)果 . 24 6 總結(jié) . 25 參 考 文 獻(xiàn) . 27 . 28 致 謝 . 錯誤 !未定義書簽。 仲愷農(nóng)業(yè) 工程 學(xué)院畢業(yè)論文 (設(shè)計 )成績評定表 . 錯誤 !未定義書簽。 1 1 前言 題來源 據(jù)統(tǒng) 計 ,人類接受的外 部信息, 70%以上來自視覺,圖像作為一種內(nèi)容豐富,表現(xiàn)直觀的多媒體信息被大量廣泛 地 使用,如何有效管理、檢索圖像信息成為迫切需要解決的問題。傳統(tǒng)的基于文本的檢索無法滿足海量環(huán)境下多媒體信息庫的檢索要求。為了克服基于文本方法的局限性,出現(xiàn)了基于內(nèi)容的圖像檢索。 隨著多媒體技術(shù)及 絡(luò)的迅速發(fā)展,圖像來源不斷擴(kuò)大,大容量高速存儲系統(tǒng)為圖像的海量存儲提供了基本保障,各行各業(yè)對圖像的使用越來越多,圖像信息資源的管理和檢索也就顯得越來越重要。 但由于 身結(jié)構(gòu)上、管理上的問題,想要在 確、快速、全面地找到自己所想要的圖像,卻變成了件非常不容易的事。 由于 容沒有結(jié)構(gòu);網(wǎng)上信息量龐大且還在不斷的增加。因此,網(wǎng)絡(luò)產(chǎn)生了檢索引擎。雖然這些給網(wǎng)絡(luò)用戶提供了不少的幫助,但由于偏離準(zhǔn)確、快速、全面地檢索自己所要的圖像還相當(dāng)遙遠(yuǎn),所以對圖像檢索還要作很大的研究。 根據(jù)國內(nèi)外現(xiàn)有的 檢 索引擎和國際上的有關(guān)研究小組的種種資料表明,現(xiàn)有的網(wǎng)絡(luò)資源和 檢 索引擎有如下特點: (1)索引的數(shù)據(jù)種類豐富,如文字、圖像、聲音等多媒體。數(shù)據(jù)的存取協(xié)議也是多種多樣的,如 (2)索引數(shù)據(jù)量大,以致不可能有某個數(shù)據(jù)庫能包括整個 索引,目前最大的檢索引擎,其中的索引也只不過覆蓋了 一小部分; (3)資源消耗太大,系統(tǒng)需要將 件傳送至本地然后分析,大量占用昂貴的網(wǎng)絡(luò)帶寬和 加被檢索結(jié)點的負(fù)擔(dān)。另外由于現(xiàn)有的檢索引擎一般是集中式的,所以檢索引擎服務(wù)器本身的硬件配置也極高,才能處理龐大的數(shù)據(jù)量和及時地響應(yīng)用戶的查詢請求; (4)不能有效解決索引失效問題,很多時候,檢索引擎會返回?zé)o效的查詢結(jié)果; (5)各 檢索工具各行其事,不能相互協(xié)作,在一定意義上講是一種資源的浪費。 二十一世紀(jì)是一個多元化的信息社會,對圖像的需求將是前所未有的巨大的,圖像數(shù)據(jù)庫也將得到長足的發(fā)展。因此,圖像檢索系統(tǒng)具有廣闊的應(yīng)用前景。 2 有的圖像檢索技術(shù) 近年來隨著用戶對網(wǎng)上圖像檢索要求的不斷增長,各種圖像檢索引擎應(yīng)運而生,它們各自以不同的工作方式為用戶提供各種檢索途徑,使網(wǎng)上圖像信息的檢索變得非常簡單,盡管還不很完善,卻已經(jīng)可以滿足用戶的大多數(shù)要求 。 最基本的 檢 索引擎的結(jié)構(gòu),是由 停地從 上收集數(shù)據(jù),存放在 檢 索引擎的數(shù)據(jù)庫中。用戶通過 檢 索引擎服務(wù)器上的 口,提出 檢 索請求, 過 其它技術(shù)訪問數(shù)據(jù)庫,并將用戶的 檢 索請求轉(zhuǎn)換成相應(yīng)的數(shù)據(jù)存取語句,送給數(shù)據(jù)庫引擎處理,并把查詢結(jié)果通過網(wǎng)頁顯示給用戶。 網(wǎng)絡(luò) 檢 索的基本原理是通過網(wǎng)絡(luò)機(jī)器人定期在 頁上爬行,然后發(fā)現(xiàn)新的網(wǎng)頁,把它們?nèi)』貋矸诺奖镜氐臄?shù)據(jù)庫中,用戶的查詢請求可以通過查詢本地的數(shù)據(jù)庫來得到。 一般來說網(wǎng)絡(luò)信息檢索的實現(xiàn)機(jī)制一般有兩種:一是通過手工方式對網(wǎng)頁進(jìn)行索引,它的缺點是 覆蓋率比較 低,同時不能保證最新的信息。查詢匹配是通過用戶寫入的關(guān)鍵字和網(wǎng)頁的描述和標(biāo)題來進(jìn)行匹配,而不是通過全文的匹配進(jìn)行的;二是對網(wǎng)頁進(jìn)行自動的索引,這種能實現(xiàn)自動的文檔分類,實際上采用了信息提取的技術(shù)。但是在分類準(zhǔn)確性上可能不如手工分類。 在現(xiàn)在所有運行的檢索工具來說,一般都有一個 期的訪問一些站點,來檢查這些站點的變化,同時查找新的站點。一般站點有一個 件用來說明服務(wù)器不希望 問的區(qū)域, 必須遵守這個規(guī)定。如果是自動索引的話, 要對該頁 面根據(jù)其內(nèi)容進(jìn)行索引,根據(jù)它的關(guān)鍵字的情況把它歸到某一類中。頁面的信息是通過元數(shù)據(jù)的形式保存的,典型的元數(shù)據(jù)包括標(biāo)題、 址、一個該頁面的簡要的介紹,關(guān)鍵字或者是索引短語、文件的大小和最后的更新的日期。盡管元數(shù)據(jù)有一定的標(biāo)準(zhǔn),但是很多站點都采用自己的模板。文檔提取機(jī)制和索引策略對 索引擎的有效性有很大的關(guān)系。高級的檢索選項一般包括:布爾方法或者是短語匹配和自然語言處理。一個查詢所產(chǎn)生的結(jié)果按照提取機(jī)制被分成不同的等級提交給用戶。最相關(guān)的放在最前面。每一個提取出來的文檔的元數(shù)據(jù)被顯示給用戶。同時包括該 文檔所在的 址。 另外有一些關(guān)于某一個主題的專門的引擎,它們只對某一個主題的內(nèi)容進(jìn)行檢索和 3 處理,這樣信息的取全率和精度相對就比較高。 目前,圖像檢索引擎主要通過以下兩種方法識別圖像: (1)自動查找圖像文件。通過兩個 簽,即 檢測是否存在可顯示的圖像文件, 示 “顯示下面的圖像文件 ”,導(dǎo)向的是嵌入式圖像;而表示 “下面是一個鏈接 ”,導(dǎo)向的是被鏈接的圖像。檢索引擎通過檢查文件擴(kuò)展名來判斷其導(dǎo)向的是否為圖像文件,如果文件擴(kuò)展名是 是一 個可顯示的圖像。 (2)人工干預(yù)找出圖像。進(jìn)行分類,由人工對網(wǎng)上的圖像及站點進(jìn)行選擇。這種方法可以產(chǎn)生準(zhǔn)確的查詢體系,但勞動強(qiáng)度太大,因此要限制處理圖像的數(shù)量。 由于圖像不同于文本,需要人們按照各自的理解來說明其蘊(yùn)含的意義,因此圖像檢索比文本的查詢和匹配要困難得多。 像檢索引擎的檢索途徑 傳統(tǒng)的圖像檢索技術(shù)是基于關(guān)鍵字的精確匹配檢索,系統(tǒng)內(nèi)的圖像用關(guān)鍵字標(biāo)識,檢索線索是與標(biāo)識相一致的關(guān)鍵字,即輸入是關(guān)鍵字,輸出是圖像。它又包括兩種途徑: (1)基于圖像外部信息進(jìn)行檢索。即根據(jù) 圖像的文件名或目錄名、路徑名、鏈路、 是目前圖像檢索引擎采用最多的方法。在找出圖像文件后,圖像檢索引擎通過查看文件名或路徑名確定文件內(nèi)容,也可以通過查看圖像的標(biāo)題來匹配檢索詞。 (2)基于手工標(biāo)注的檢索。手工對圖像的內(nèi)容(如物體、背景、顏色等)進(jìn)行描述并分類,將其標(biāo)注為一系列關(guān)鍵字,并建立索引。檢索時,將主要在這些描述詞中檢索用戶輸入的關(guān)鍵字。這種查詢方式是比較準(zhǔn)確的,一般可以獲得較好的查準(zhǔn)率,但需人工參與,勞動強(qiáng)度大,因而限制了可處理的圖像數(shù)量。另外,由 于圖像所包含的信息量龐大,不同用戶對于同一張圖像的看法又不盡相同,導(dǎo)致了對圖像的標(biāo)注缺乏統(tǒng)一標(biāo)準(zhǔn)。 2. 圖像可視屬性的檢索 而基于圖像內(nèi)容的檢索主要是由圖像分析軟件自動抽取圖像的顏色、形狀、紋理等特征,建立特征索引庫,其輸入為用戶要查找的圖像的大致特征描述或示例,通過一定相似性匹配規(guī)則,輸出為與之具有相近特征的圖像,按相似程度排列,供用戶選擇,從而把在傳統(tǒng)圖像檢索技術(shù)中一般用戶難以完成的圖像特征描述、提取與識別等難題,交由系統(tǒng)去解決。 4 這是一種基于圖像本身特征層次的檢索,特別適用于檢索目標(biāo)明確的查詢要求, 但目前這種較成熟的檢索技術(shù)主要應(yīng)用于圖像數(shù)據(jù)庫的檢索。在圖像檢索引擎中應(yīng)用這種檢索技術(shù)還有一定困難,但己有部分圖像檢索引擎嘗試了這種檢索方法。 (1)一個簡單但是功能強(qiáng)大的索引,它的一個優(yōu)點是有一個面向主題檢索的可擴(kuò)展的分類。你可以把你的檢索短語和相似的分類目錄的主題短語相互參照,而那些主題短語會自動加到你的查詢中去。使你的檢索有更好的主題相關(guān)性。同時它也支持對圖像的查詢。它能夠漫游 等。不支持布爾操作,但是可以使 用符號 +和 -。 (2)一個大容量的,基于 引的 能幫你在 聞組,圖像,視頻音頻片段。 支持多種語言和簡單的自然語言查詢。 蓋面約為 上可索引的網(wǎng)頁的 30% (3)立于 1998 年,自稱是第一個基于 多媒體檢索引擎。雖嚴(yán)格講,它并非是一個圖像檢索引擎,但可以將檢索限制在圖像檢索上。 它的工作原理是在文件名、路徑名或 簽中檢索檢索詞。主要使用 關(guān)鍵詞檢索,可以用 或 來增加或排除關(guān)鍵詞,使用盡可能少的關(guān)鍵詞會更有效。在高級檢索中,可以將檢索結(jié)果圖像限制在 格式中。檢索結(jié)果顯示簡圖、圖像類型(如 圖像大小、最后被查找的日期、檢索詞的匹配數(shù)量、標(biāo)引使用的關(guān)鍵詞、成功下載的可靠程度等,并同時給出圖像文件的 源站點的 主要缺陷是標(biāo)引深度不足,查準(zhǔn)率較低,但查全率較好。 (4) 這是由 織開發(fā)的一個 真正人工建立的完全的關(guān)鍵詞式索引 。 面的教師負(fù)責(zé)選擇圖像豐富的站點,然后對每幅選定的圖像內(nèi)容進(jìn)行描述,給出關(guān)鍵詞。因此它的最大特點就是人工干預(yù),關(guān)鍵詞檢索是主要的檢索手段。 檢索結(jié)果將顯示一個簡短的標(biāo)題、有關(guān)圖像的說明(如彩色或黑白)、文件的大小、文件類型及象素多少等,但不顯示簡圖。單擊該標(biāo)題可得到原圖像,但需由該 溯才能找出源站點。 由于人工干預(yù)檢索過程,它的查準(zhǔn)率極好,但這也限制了它的查全率。它的檢索范圍很有限,只包括 人工選擇的部分站點。 5 (5)所收錄的圖像進(jìn)行了 詳盡的內(nèi)容描述,并支持短語檢索,從而使其查準(zhǔn)率大大提高。它根據(jù)文件擴(kuò)展名識別圖像,在描述詞、文件名、目錄名或 段中查詢檢索詞。結(jié)果顯示的信息極為豐富,包括簡圖、圖像大小、最后檢索日期、圖像文件名、圖像內(nèi)容描述詞、圖像所在頁面等。點擊簡圖將得到原圖及更多的信息,如著作權(quán)人和更多的相關(guān)圖像。 比較而言它的檢索效果很好,速度也很快。 索引擎的基本要點 (1)索引文檔的容量:現(xiàn)在最大的檢索引擎可能包含了超過 100,000,000 個鏈接,但這也只是整個 上的一小部分。因為收集資料的 只能從“已知”的鏈接開始收集網(wǎng)頁資料,而只有一小部分 頁和這些“已知”的網(wǎng)頁有連接;現(xiàn)在還沒有一個檢索引擎能夠隨網(wǎng)頁內(nèi)容的更新比較及時地更新索引; (2)覆蓋面:地理覆蓋面和主題覆蓋面; (3)索引更新頻率:不同的檢索引擎,索引更新頻率相差很大,有的是幾周,有的是一年。索引更新頻率有兩種定義,一種比較少用的定義是新的網(wǎng)頁能被收錄進(jìn)索引數(shù)據(jù)庫中,另一種是同一頁多少時間才被檢查一次,有必要時更新索引。有的檢索引擎會對經(jīng)常更新的網(wǎng)頁和多人訪問的網(wǎng)頁進(jìn)行更頻繁的重建索引工作; (4)采集過程:采集過程有寬度優(yōu) 先、深度優(yōu)先兩種算法;一般認(rèn)為寬度優(yōu)先對擴(kuò)大內(nèi)容的覆蓋面有利,深度優(yōu)先算法有助于提供更多的細(xì)節(jié)資料; (5)索引算法:有的檢索引擎只處理元標(biāo)記和一小部分文檔內(nèi)容,而有一些檢索引擎則是對全文進(jìn)行索引; (6)結(jié)果顯示:有的檢索引擎只顯示網(wǎng)頁的標(biāo)題,有些則有更詳細(xì)的一些信息,比如網(wǎng)頁的內(nèi)容,更新日期等; (7)查詢算法:一個優(yōu)秀的查詢算法是很重要的,最基本的布爾查詢,短語查詢,有的檢索引擎還提供指定屬性的查詢,比如可以指定對網(wǎng)頁的作者、主題進(jìn)行查詢。另外有的檢索引擎還采用了相關(guān)度反饋、概念查詢等算法; (8)用 戶界面:很多檢索引擎都提供了簡單查詢和高級查詢兩個界面。并且提供了必要的幫助和范例。 6 像檢索的發(fā)展方向 圖像檢索技術(shù)給用戶提供了一個在互聯(lián)網(wǎng)上檢索感興趣圖像資源的有效手段, 基于文本和基于內(nèi)容是圖像檢索發(fā)展的兩個分支,不過從目前圖像檢索研究的趨勢而言,尤其結(jié)合網(wǎng)絡(luò)環(huán)境下圖像的特征 嵌入在具有文本內(nèi)容的 檔中,出現(xiàn)了三個不同的研究著眼點。 (1)基于文本的檢索研究 立足于文本,對圖像進(jìn)行檢索。試圖將傳統(tǒng)的文本檢索技術(shù)移植于對多媒體信息的檢索上,因為基于文本的檢索技術(shù)發(fā)展已經(jīng)成熟。如 法、概率方法、位置方法、摘要方法、分類或聚類方法、詞性標(biāo)注法等,不僅技術(shù)發(fā)展較為成熟,同時分析和實現(xiàn)的難度略小。但是因為受控詞匯本身的局限,易歧義,更新慢,所以不太容易應(yīng)對網(wǎng)絡(luò)上日新月異的各類圖像。 (2)基于內(nèi)容的檢索研究 立足于圖像內(nèi)容,對圖像進(jìn)行分析和檢索。相比而言,盡管圖像檢索已經(jīng)出現(xiàn)了諸如直方圖、顏色矩、顏色集等多種表征圖像特征的方法,但是要突破對低層次特征的分析,實現(xiàn)更高語義上的檢索,實現(xiàn)難度大,進(jìn)展慢。不過,基于內(nèi)容的圖像檢索建立在多媒體信息的內(nèi)容語義上,能夠更為客觀地反映媒體本質(zhì)的特 征。 (3)基于文本內(nèi)容結(jié)合的檢索研究 結(jié)合文本和內(nèi)容, 二者雖側(cè)重不同但卻互相補(bǔ)充。如果能將二者結(jié)合起來取長補(bǔ)短,則網(wǎng)絡(luò)的圖像檢索技術(shù)必有新的進(jìn)展。已有的圖像檢索引擎在信息的自動加工和標(biāo)引方面都有待提高,需要開發(fā)出計算機(jī)自動識別和標(biāo)引圖像的算法和技術(shù),以完善現(xiàn)有的檢索功能,并與已有的成熟的圖像庫檢索技術(shù)相結(jié)合,這是今后應(yīng)該研究的一個課題。而且,圖像庫檢索技術(shù)也應(yīng)面向網(wǎng)絡(luò),利用網(wǎng)絡(luò)技術(shù)進(jìn)行改造,提供新的 問界面代替原來的應(yīng)用系統(tǒng)界面。同時將巨大的圖像庫資源利用網(wǎng)絡(luò)實現(xiàn)共享 。 (4)對基于內(nèi)容編碼技術(shù)的研 究 可以說,三個方向都是相互影響和促進(jìn)的,任何一個方向的進(jìn)展都會促進(jìn)圖像檢索技術(shù)向前更進(jìn)一步。 目前,國際上還沒有通用的基于內(nèi)容的編碼標(biāo)準(zhǔn)。 20 世紀(jì) 90 年代初,國際上就開始了對基于內(nèi)容的圖像信息檢索方面的研究。從基本的顏色檢索,到綜合利用多種圖像特征進(jìn)行檢索,大量原型系統(tǒng)已經(jīng)推出,其中,部分已投入到實際應(yīng)用中以檢驗其有效 7 性。同時, 準(zhǔn)作為基于內(nèi)容的多媒體編碼標(biāo)準(zhǔn)也正在制定當(dāng)中,即將成為國際標(biāo)準(zhǔn)中的一員。因此,應(yīng)盡快對 準(zhǔn)進(jìn)行研究,分析其編碼的實質(zhì),在此基礎(chǔ)上進(jìn)一步研究基于內(nèi)容檢索的系 統(tǒng),使我國基于內(nèi)容的圖像檢索盡快走向?qū)嶋H應(yīng)用階段。 (5)對用戶查詢接口的研究 這涉及到用戶對圖像內(nèi)容的感知表達(dá)、交互方式的設(shè)計、用戶如何形成并提交查詢等方面。現(xiàn)代多媒體信息系統(tǒng)的一個重要特征就是信息獲取過程的可交互性,人在系統(tǒng)中是主動的。除了提供示例和描繪查詢基本接口之外,用戶的查詢接口應(yīng)提供豐富的交互能力,使用戶在主動的交互過程中表達(dá)對圖像語義的感知,調(diào)整查詢參數(shù)及其組合,最終獲得滿意的查詢結(jié)果。用戶的查詢接口應(yīng)該是直觀易用的,底層的特征選擇對用戶是透明的。這里涉及到如何把用戶的查詢表達(dá)轉(zhuǎn)換為可以執(zhí)行 檢索的特征矢量,如何從交互過程中獲取用戶的內(nèi)容感知,以便選擇合適的檢索特征等問題。 一個優(yōu)秀的檢索引擎必須處理以下幾個問題: (1)網(wǎng)頁的分類 (2)自然語言的處理 (3)檢索策略的調(diào)度和協(xié)作 (4)面向特定用戶的檢索。 因此,現(xiàn)在有很多的網(wǎng)絡(luò)檢索工具,也就是說檢索引擎采用了智能的檢索手段來增強(qiáng)它的檢索能力,而圖片檢索正是其中的一大塊內(nèi)容。 隨著網(wǎng)上多媒體的廣泛應(yīng)用,對圖像的檢索需求將會越來越迫切。未來的圖像檢索技術(shù)將是網(wǎng)絡(luò)技術(shù)和基于內(nèi)容的圖像庫檢索技術(shù)的結(jié)合。隨著多媒體信息處理技術(shù)的日益發(fā)展和深化,圖像 信息的加工、處理和檢索標(biāo)準(zhǔn)的出臺,網(wǎng)上的圖像檢索技術(shù)將會日趨完善,而圖像檢索引擎也將成為 的新寵。 2 基于顏色的圖像檢索 色特征提取 顏色特征是一種全局特征,描述了圖像或圖像區(qū)域所對應(yīng)的景物的表面性質(zhì)。一般顏色特征是基于像素點的特征,此時所有屬于圖像或圖像區(qū)域的像素都有各自的貢獻(xiàn)。 8 由于顏色對圖像或圖像區(qū)域的方向、大小等變化不敏感,所以顏色特征不能很好地捕捉圖像中對象的局部特征。另外,僅使用顏色特征查詢時,如果數(shù)據(jù)庫很大 ,常會將許多不需要的圖像也檢索出來。顏色特征是在圖像檢索中應(yīng)用最 為廣泛的視覺特征,主要原因在于顏色往往和圖像中所包含的物體或場景十分相關(guān)。此外,與其它的視覺特征相比,顏色特征對圖像本身的尺寸、方向、視角的依賴性較小,從而具有較高的穩(wěn)定性。為了正確地使用顏色,需要建立顏色模型。 顏色特征是圖像最直觀而明顯的特征,一般采用直方圖來描述。顏色直方圖是表示圖像中顏色分布的一種方法,它的橫軸表示顏色等級,縱軸表示在某一個顏色等級上具有該顏色的像素在整幅圖像中所占的比例,直方圖顏色空間中的每一個刻度表示了顏色空間中的一種顏色。采用直方圖計算圖像間的相似性比較簡單,但它不能反映圖像中 對象的空間特征 。在顏色布局描述符中,對分割好的 88 的圖像取每一塊圖像的顏色平均值,形成一個顏色平均值矩陣,然后對其用二維離散余弦進(jìn)行變換,取低頻分量作為顏色特征。考慮到本文所選的測試圖片都是 及減少計算量,提高檢索速度的因素,本文的顏色布局描述符的提取方法如下: (1)將整幅圖像分成 44 塊,計算每一塊中所有象素 以此作為該塊的代表顏色(主顏色)。 (2)將各塊的顏色平均值進(jìn)行離散余弦變換( 得到 國際靜止圖像壓縮標(biāo)準(zhǔn) 基礎(chǔ)。由于大多數(shù)圖像的高頻分量較小,相應(yīng)于圖像高頻分量的系數(shù)經(jīng)常為零,加上人眼對高頻成分的失真不太敏感,所以 可用更粗的量化。因此,在一般檢索中可以利用部分 (3)對 到 (4)對于 R、 G、 別從 個低頻分量,形成 12個參數(shù),共同構(gòu)成該圖像的顏色特征向量。 圖 1 為顏色特征提取的流程圖 。 9 將 圖 片 劃 分 成 4 * 4 塊計 算 每 一 塊 的 R G B 平 均 值( 該 塊 的 代 表 顏 色 )將 平 均 值 進(jìn) 行 離 散 余 弦 變 換( 得 到 系 數(shù) 矩 陣 )對 系 數(shù) 矩 陣 進(jìn) 行 之 字 形掃 描 和 量 化 , 得 到 系 數(shù)從 系 數(shù) 中 取 出 4 個 低 頻 分 量共 1 2 個 分 量 構(gòu) 成 特 征 向 量圖 1 顏色特征提取流程圖 10 似度計算 國際標(biāo)準(zhǔn) 此在本算法中匹配時也使用歐式距離公式,即為: i 22 )()()(),( 其中,各個分量的 i( i=0, 1, 2, 3)個 驗結(jié)果 本文實驗的圖庫是從標(biāo)準(zhǔn)測試圖像庫 像庫中選取的,包括由海灘、恐龍、大象、馬、花等組成的 120 副圖片,得到利用顏色特征檢索圖片的查準(zhǔn)率和查全率為下表。 表 1 利用顏色特征的結(jié)果 類型 利用顏色 特征 的 查準(zhǔn)率 利用顏色特征 的查全率 海灘 龍 象 景 基于紋理的圖像檢索 理特征提取 圖像可以看成是不同紋理區(qū)域的組合,紋理通常定義為圖像的某種局部性質(zhì),或是對局部區(qū)域中像素之間關(guān)系的一種度量。紋理特征可用來對圖像中的空間信息進(jìn)行一定程 11 度的定量描述。 在國際標(biāo)準(zhǔn) 邊緣直方圖。邊緣直方圖是 基于圖像邊緣的統(tǒng)計特征,能較好地反映目標(biāo)的邊緣和紋理特征,而且運算速度較高。因此在本文中選取邊緣直方圖來提取圖像的紋理特征。下面介紹提取的具體步驟: (1)將 個象素的灰度值可以根據(jù) 色分量按下列公式計算得到: i,j)=(i,j)+(i,j)+(i,j)。 (2)將整幅圖像分成 44 塊。 (3)分別對 16塊 1/16子圖像進(jìn)行 緣算子運算,得到邊緣圖像。 (4)統(tǒng)計子圖像中的邊緣直方圖,該直方圖 包括 4個直方條。(橫軸為 0, 1, 2,3四個邊緣方向,縱軸為該方向上的象素數(shù)占子圖像總的象素數(shù)的比率) (5)將 16個子圖像的直方條綜合起來,得到包括 64個直方條的整幅圖像的邊緣直方圖。 圖 2為圖像紋理特征流程圖。 12 將 bm p 圖像 轉(zhuǎn)換 成灰 度圖將 整幅 圖像 分成 4 4塊進(jìn) 行s o be l 邊緣 算子 運算統(tǒng) 計子 圖像 中的 邊緣 直方 圖將 16 個子 圖像 的直 方條 綜合起 來取 出圖 像的 邊緣圖 2 圖像紋理特征流程圖 下面介紹用 首先介紹一下 法 中用到的 4個核模板: 13 圖 3 法模板 圖 4 法的邊緣方向編號 (1)將圖像中的象素點的灰度值分 別與以上四個方向的核模板相乘。 (2)比較四個乘積數(shù)值,取最大的那個數(shù)值,作為該象素點的新的灰度值。 (3)取適當(dāng)?shù)拈撝?T,若新的灰度值 T ,則認(rèn)為該象素點為邊緣點。 通過以上算法提取出圖像的邊緣。 相似度計算 仍然采用歐式距離公式作為相似度的計算公式,如下: 63 0 2)(),( i 其中; , 驗結(jié)果 實驗平臺如 出結(jié)果如下表。 14 表 2 利用紋理特征的檢索結(jié)果 類型 利 用紋理特征 查準(zhǔn)率 利用紋理特征 查全率 海灘 龍 象 景 綜合顏色和紋理特征的圖像檢索 合特征檢索的思想 圖 5 對于以上三幅圖像,假設(shè)它們是原圖像的 1/4圖像(其余 3/4圖像與此 1/4圖像相同),如果按照本文中的利用顏色特征進(jìn)行檢索,那么將得出完全相似的結(jié)論,但是實際上這三幅圖像給人的感覺是完全不同的。因此說單一的依 靠提取一種特征來進(jìn)行檢索,得出的結(jié)果往往是不盡如人意的。在本文中,利用顏色布局描述 符結(jié)合了顏色特征和空間關(guān)系的特點;利用邊緣直方圖作為紋理特征彌補(bǔ)了顏色特征缺乏空間分布信息的不足,考慮到圖像中的邊緣多對應(yīng)目標(biāo)的邊界或輪廓,邊緣 直方圖描述符在一定程度上還反映了圖像中目標(biāo)的形狀信息。 15 因此這兩種特征描述符達(dá)到了不同特征的優(yōu)勢互補(bǔ)的效果,而且,這兩種特征在提取的過程中都?xì)w一化到了 0, 1區(qū)間,可以綜合在一起進(jìn)行圖像檢索。設(shè)顏色特征的權(quán)重為 理特征權(quán)重為 且 t=1,則綜合特征的相似度計算公 式為: ),(),(),( S 關(guān)反饋 由于顏色特征的權(quán)重 理特征權(quán)重 0, 1區(qū)間 ,而在這個區(qū)間不同的權(quán)重的選擇所得出的效果肯定是有差異的 。 為了能在實驗中得到最佳的實驗結(jié)果,就需要對權(quán)重的值進(jìn)行多次的選擇。 在確定 20%和 80%之間取值,每 5%取一次值,并計算出每次取值的圖像檢索的查全率。同時相應(yīng)改變 而得到最佳的反饋值。 驗結(jié)果及結(jié)論 通過上述的反饋實驗,得出關(guān)系圖如下: 16 圖 6 權(quán)重取值反饋關(guān)系 由圖 6可見當(dāng) 右時,圖像的檢索查全率最高,于是選取 同樣利用上述的平臺,得出綜合利用顏色和紋理的檢索方法的查準(zhǔn)率和查全率,并以之和單獨利用顏色或紋理的檢索方法進(jìn)行比對。 表 3 六類圖片的查準(zhǔn)率 類型 利用顏 色特征 利用紋 理特征 利用綜 合特征 海灘 龍 象 景 4 六類圖片的查全率 類型 利用顏 色特征 利用紋 理特征 利用綜 合特征 海灘 龍 象 景 表中的數(shù)據(jù)可以看出,利 用綜合特征進(jìn)行圖像檢索得到的查準(zhǔn)率和查全率都要高于使用任何一種單一方法進(jìn)行圖像檢索得到的查準(zhǔn)率和查全率。通過以上的實驗結(jié)果數(shù)據(jù)可以看出 : 本文中綜合利用顏色和紋理特征進(jìn)行圖像檢索的效果比使用單一特征進(jìn)行 17 檢索的效果更好,更符合人的視覺要求。因此,本文提出的綜合顏色和紋理特征進(jìn)行圖像檢索的方法是有效的,有意義的方法。 5 基于 圖像檢索 本與圖像之間的關(guān)系 在文本檢索中,檢索引擎主要考慮 中相關(guān)文字信息以及它的語義,這些文本信息反映出網(wǎng)頁的內(nèi)容,但不完全與網(wǎng)頁中圖片的內(nèi)容一致。在 ,根據(jù) 獲反映圖片信息的文字信息,分析這些文本的語義具有重要的意義。如在 檔中 標(biāo)記以及其周圍的文字信息,與網(wǎng)頁中的插圖的內(nèi)容有著密切的聯(lián)系。 示圖像內(nèi)容的文本標(biāo)記 為了能識別嵌入網(wǎng)頁中圖片的內(nèi)容,必須仔細(xì)檢索 過對 知以下幾個方面的標(biāo)記與文本和圖像內(nèi)容有著最為密切的聯(lián)系。 (1)圖像的說明,這些文本出現(xiàn)在圖像的周圍,用一句過多句話表示出圖像的內(nèi)容,當(dāng)圖像被置于 表格中時,同一單元或相鄰單元格內(nèi)的文字也常用與表示圖像的含義。 (2)圖像的標(biāo)題,通常用一個關(guān)鍵詞表示圖像信息。 (3)圖像的標(biāo)簽,使用一段短語說明圖片的摘要信息,圖片無法顯示時用標(biāo)簽的文本取代圖片,顯示摘要信息。 (4)網(wǎng)頁的標(biāo)題,該標(biāo)題反映出網(wǎng)頁的中心內(nèi)容,作為表現(xiàn)網(wǎng)頁內(nèi)容的圖片與網(wǎng)頁的標(biāo)題之間也有著一定的聯(lián)系。 以上討論的是 文檔和嵌入網(wǎng)頁中圖像文本信息的關(guān)系,當(dāng)然還存在其他的文本與多媒體信息和圖像有關(guān)。但是作為檢索引擎要考慮的方面,既要保證抽取信息的準(zhǔn)確性,也要兼顧程序執(zhí)行中時間、空間的復(fù)雜 度。過多地引入與圖像關(guān)系不是十分緊密的內(nèi)容作為檢索的依據(jù),會引入檢索時的躁聲干擾,降低檢索效率。 18 以上討論了網(wǎng)頁中對圖像信息的描述,在圖像的檢索中,首先是要建立描述圖片內(nèi)容特征的查詢語句,然后比較、區(qū)分描述信息與查詢語句之間的異同,獲取需要檢索的圖像。但以上信息在對圖像描述時側(cè)重于不同角度,同時與圖像信息的聯(lián)系程度也不一樣。圖像標(biāo)題和網(wǎng)頁標(biāo)題是簡單的詞條,兩者中相對來說圖像標(biāo)題更接近圖像的主題內(nèi)容。圖像的標(biāo)簽和圖像的說明是文本信息對圖像內(nèi)容的描述,后者相對來說更為詳細(xì)。所以在比較、 區(qū)分各類文本信息以決定是否符合檢索要求時,它們所占的權(quán)值應(yīng)該是有所不同的。根據(jù)信息的重要程度,他們所占的權(quán)值大小按次序如下: 像信息檢索 在 對圖像的檢索,也就是對圖像信息的檢索,根據(jù)圖像自身所帶的信息,選其中某一種或幾種進(jìn)行檢索,進(jìn)而檢索到相關(guān)的圖像,再經(jīng)過選取得到所需的圖像 。 而 索引擎采用何種檢索模型,它所提供檢索質(zhì)量將直接影響到檢索的效果?,F(xiàn)在使用較多的是布爾檢索模 型、概率檢索模型、概率推理網(wǎng)絡(luò)模型和向量空間模型。這里采用的是近年來使用較多且效果較好的一種信息檢索模型:向量空間模型。 在用向量空間模型進(jìn)行檢索的時候,首先把描述網(wǎng)頁中的圖片的文字信息看作是有序的詞條序列,這樣把以上歸納的信息分別稱為: 應(yīng)用模型時,我首先要將這些信息向量化,把文檔映射為一個特征向量 V(d)=( 1(d); n(d),其中 ti(i=1,2, ,n)為一列互不雷同的詞條項, i(d)為 一般被 定義為 d)的函數(shù),即 )()( i 在信息檢索中常用的詞條權(quán)值計算方法為 數(shù) )lo g ()(ii 其中 N 為所有文檔的數(shù)目, 含有詞條 文檔數(shù)目。 式有很多變種,下 19 面是一個常用的 式: ni 1.0(l o g)()o g ()()( 根據(jù)公式,文檔集中包含某一詞條的文檔越多,說明它區(qū)分文檔類別屬性的能力越低,其權(quán)值越小;另一方面,某一文檔中某一詞條出現(xiàn)的頻率越高,說明它區(qū)分文 檔內(nèi)容屬性的能力越強(qiáng),其權(quán)值越大。 兩文檔之間的相似度可以用其對應(yīng)的向量之間的夾角余弦來表示,即文檔 ()()()()(c o s),( 進(jìn)行查詢的過程中,先將查詢條件 要依據(jù)布爾模型 : 當(dāng) 中時,將對應(yīng)的第 ,否則置為 0,即 1 也就是說當(dāng)兩詞條完全相同時,這一項為 1,其余情況為 0??梢钥闯鑫臋n含有完全相同的詞條時,相似度 =1;而其中無相同時的詞條時,相似度 =0。 從而文檔 的相似度為 ()()(),(根據(jù)文檔之間的相似度,結(jié)合機(jī)器學(xué)習(xí)的一些算法如神經(jīng)網(wǎng)絡(luò)算法, 以將文檔集分類劃分為一些小的文檔子集。 在查詢過程中,可以計算出每個文檔與查詢的相似度,進(jìn)而可以根據(jù)相似度的大小,將查詢的結(jié)果進(jìn)行排序。 向量空間模型可以實現(xiàn)文檔的自動分類和對查詢結(jié)果的相似度排序,能夠有效提高檢索效率;它的缺點是相似度的計算量大,當(dāng)有新文檔加入時,則必須重新計算詞的權(quán)值。 20 流程為 : 文 字 信 息 向 量 化文 檔 映 射 成 一 個 特 征 向 量查 詢 條 件 向 量 化查 詢圖 7 向量空間模型檢索流程 詞技術(shù)和匹配方法 1. 常用的切詞算法如下: (1)最大正向匹配法 基本思想是:設(shè) D 為詞典, 中的最大詞長, 是每次從 取長度為 子串與 D 中的詞進(jìn)行匹配。若成功,則該子串為詞,指針后移 則子串逐次減一進(jìn)行匹配。 (2)逆向最大匹配法 它的基本原理與前面的相同,不同的是分詞的掃描方向,它是從右至左取子串進(jìn)行匹配。 統(tǒng)計結(jié)果表明,單純使用正向最大匹配的錯誤率為 1/169,單純使用逆向最大 匹配的錯誤率為 1/245,它切分的準(zhǔn)確率上比正向匹配法有很大提高 。 (3)基于詞頻的統(tǒng)計方法 21 統(tǒng)計方法一般不依賴于詞典,而是將原文中任意前后緊鄰的兩個字作為一個詞進(jìn)行出現(xiàn)頻率的統(tǒng)計,出現(xiàn)的次數(shù)越高,成為一個詞的可能性也就越大。在頻率超過某個預(yù)先設(shè)定得閾值時,就將其作為一個詞進(jìn)行索引。這種方法能夠有效地提取出未登錄詞。 2. 匹配方法: (1)詞典存儲格式: 首先對存儲形式進(jìn)行建模,結(jié)構(gòu)是 3層樹形結(jié)構(gòu),如下 A 1A 3A 2A 1 B 1 ( f , n 1 )A 1 C 1 ( t , n 3 )A 1 B 2 ( t , n 2 )A D 1 ( t , n 4 )F 1G 2 H 1G 2H 1 R 1 T 1圖 8 3 層樹形結(jié)構(gòu) 一層存儲所有單字 。第二層保存所有的雙字詞和多字詞的前兩個字(因為,也許會出現(xiàn) 詞,但 是詞的情況),并對兩者做不同標(biāo)記 (t/f)。每一個可成詞的單字對應(yīng)一系列第二層結(jié)點,用來存儲所有以該字為詞首的雙字(包括上述兩種情況)。并且,在這里,針對每一個雙字,需要記錄以該雙字為詞首的所有詞的最大長度,實際中,可以保存除去該雙字部分的最大長度 (記為 n)。第三層存儲以某一雙字為首的所有詞。為了減少存儲空間,只存儲除去該雙字以外的部分(如上圖所示)。每一層各結(jié)點需按某種次序排列,可使用 分查找等方法進(jìn)行查詢。采用這種 層次的存儲結(jié)構(gòu),可以很快把查詢詞的工作縮小到一個很小的范圍內(nèi),有利于分詞效率的提高。 (2)匹配方法 由于詞庫中的最大詞長通常大于所切分出的詞長,為了提高切分的效率,不采用逐次減一個字的方法,而是使用正向逐一增長的方法。 假設(shè)對一個句子 進(jìn)行分詞處理,算法描述如下: 1) 兩個字(開始時為 在詞典中查詢 2) 不存在,則 單字詞,一次分詞結(jié)束,返回 1。 22 3) 存在,判斷 否為詞,并從詞典中獲取該詞下層節(jié)點漢字的最大長度,設(shè)為 n 4) 若 n=0,一次分詞結(jié)束,保 存結(jié)果。 5) 否則, i=2,轉(zhuǎn) 6)。 6 ) i=i+1,若 i=n+3,轉(zhuǎn) 8);否則,轉(zhuǎn) 7)。 7) 再取一個字(此處為 判斷第三層中是否有以 不需要恰好匹配,只要匹配開始的 。 8) 若存在,分詞結(jié)束,返回最近一次能夠恰好匹配的 Cj(保證檢索精度 80%,從圖 12中看出,當(dāng)相似度臨界值 60%。當(dāng)相似度臨界值取 檢索模型可以保證檢索精度 80%,而檢索完全度 60%。 為決定 試從 終得出 比較合理地反映出圖片與這些文本的相關(guān)性,保證檢索的準(zhǔn)確性。 6 總結(jié) 本文概括介紹了圖像檢索的現(xiàn)狀和發(fā)展方向,并對其中幾個算法進(jìn)行了分析和比較。在了解了檢索引擎的檢索原理公式和反饋原理之后 ,可以根據(jù)其理論做出相應(yīng)的檢索引 26 擎 ,并能作出比較檢索效果。但為了能更好的使用,還得去仔細(xì)更好的給文檔進(jìn)行分類,更多的對此引擎進(jìn)行反饋訓(xùn)練查詢等,使得 在畢業(yè)論文的過程中,遇到了很多的問題。首先,圖像檢索的算法對我來說過于深奧,為此我看了很多的關(guān)于這方面的算法的研究,大概 能知道具體的思路了。本人的水平和技術(shù)都很有限,論文里可能存在著某些問題和錯誤,在這方面希望能得到老師們的體諒,本人也將繼續(xù)努力。 最后,在這個論文的編寫中,我確實學(xué)到了不少東西,在眼界和思想上都得到了一定的擴(kuò)展,尤其是關(guān)于圖像這方面,以前幾乎沒接觸過這方面的知識,現(xiàn)在也能大概知道關(guān)于這方面的發(fā)展和相關(guān)的技術(shù)。而我在今后也將更加努力的學(xué)習(xí),擴(kuò)展自己的見識,提高自己的能力。 27 參 考 文 獻(xiàn) 1張量,詹國華,袁貞明 .基于 2朱學(xué)芳 .多媒體信息處理與檢索技術(shù) M,電子工業(yè)出版社, 2003: 1673陳瀅 ,徐宏炳 ,王能斌 .協(xié)作式- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 圖像 檢索 技術(shù)研究 優(yōu)秀 畢業(yè) 課程設(shè)計
鏈接地址:http://m.appdesigncorp.com/p-120756.html