基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)設(shè)計(jì)
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)設(shè)計(jì)
簡要:摘 要: 傳統(tǒng)的圖像聚類系統(tǒng)得到的聚類結(jié)果往往不是最優(yōu)結(jié)果。為了解決這一問題,基于大數(shù)據(jù)分析技術(shù)設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)
摘 要: 傳統(tǒng)的圖像聚類系統(tǒng)得到的聚類結(jié)果往往不是最優(yōu)結(jié)果。為了解決這一問題,基于大數(shù)據(jù)分析技術(shù)設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)絡(luò)端效勞器、特征索引器、查詢器、預(yù)處理器、圖像數(shù)據(jù)庫、聚類器組成。圖像搜索器利用Spider處理器完成搜索,利用API接口和嵌入式管理系統(tǒng)管理圖像數(shù)據(jù)庫,建立顏色直方圖實(shí)現(xiàn)顏色特征處理。軟件由圖像搜索、圖像特征處理、冗余特征聚類三步組成,利用IGroup算法實(shí)現(xiàn)聚類。與傳統(tǒng)聚類系統(tǒng)進(jìn)行實(shí)驗(yàn)比照,結(jié)果說明,新的聚類系統(tǒng)能夠在短時(shí)間內(nèi)輸出最優(yōu)的聚類結(jié)果,適合圖像處理工作。
關(guān)鍵詞: 系統(tǒng)設(shè)計(jì); 冗余特征聚類; 混合屬性圖像; 圖像搜索; 大數(shù)據(jù)分析; 圖像處理
本文源自:?現(xiàn)代電子技術(shù)? 2022年13期
0 引 言
隨著Internet的高速開展,圖像被越來越多地使用在內(nèi)容表達(dá)和信息承載上。網(wǎng)絡(luò)具有規(guī)模大、分布范圍廣、資源增長速度快的特征,互聯(lián)網(wǎng)擁有的圖像數(shù)以億計(jì),想要通過人工的手段將混合屬性圖像冗余特征聚類到一起十分困難,因此,必須要設(shè)計(jì)有效的圖像冗余特征聚類系統(tǒng)[1]。
圖像冗余特征聚類問題與圖像信息收集和信息檢索問題相關(guān),圖像的冗余特征表現(xiàn)形式共有如下幾種:空間冗余、時(shí)間冗余、視覺冗余、信息熵冗余和知識(shí)冗余[2]。不同類型的圖像含有的冗余特征不同[3],由于Internet具有邊緣化的特點(diǎn),所以圖像信息的格式也往往不同[4]。目前研究的圖像冗余特征聚類系統(tǒng)主要有兩種:第一種是基于圖像內(nèi)容進(jìn)行聚類;第二種是基于圖像語義進(jìn)行聚類?;趦?nèi)容的混合屬性圖像冗余特征聚類系統(tǒng)能夠?qū)D像的內(nèi)容本身進(jìn)行分析和研究,基于語義的混合屬性圖像冗余特征聚類系統(tǒng)能夠分析相關(guān)文字信息[5]。在目前研發(fā)的混合屬性圖像冗余特征聚類系統(tǒng)中,聚類的準(zhǔn)確率和全面率都有所缺乏,系統(tǒng)的可擴(kuò)展性也存在很大的問題[6]。
大數(shù)據(jù)分析技術(shù)是一種新的網(wǎng)絡(luò)技術(shù),能夠在短時(shí)間內(nèi)對(duì)海量數(shù)據(jù)進(jìn)行分析,并且篩選出有效數(shù)據(jù),對(duì)于冗余特征聚類十分有效[7]。本文基于大數(shù)據(jù)分析技術(shù),設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類系統(tǒng),對(duì)系統(tǒng)的硬件和軟件進(jìn)行了優(yōu)化設(shè)計(jì),分析了系統(tǒng)進(jìn)行聚類的工作原理,并給出了相應(yīng)的聚類算法,通過實(shí)驗(yàn)對(duì)聚類系統(tǒng)有效性進(jìn)行探討。
1 混合屬性圖像冗余特征聚類系統(tǒng)硬件設(shè)計(jì)
本文研究的聚類系統(tǒng)針對(duì)混合屬性圖像設(shè)計(jì),該系統(tǒng)能夠?qū)⑺械膱D像同一特征進(jìn)行動(dòng)態(tài)聚類,并且配合主題關(guān)鍵詞,方便用戶查看。
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)結(jié)構(gòu)如圖1所示。
觀察圖1可知,本文設(shè)計(jì)的冗余特征聚類系統(tǒng)利用互聯(lián)網(wǎng)絡(luò)將各個(gè)設(shè)備連接到一起。硬件設(shè)備主要有圖像搜索器、網(wǎng)絡(luò)端效勞器、特征索引器、查詢器、預(yù)處理器、圖像數(shù)據(jù)庫、聚類器,其中,聚類器和預(yù)處理器是系統(tǒng)結(jié)構(gòu)的關(guān)鍵組成局部[8]。
1.1 圖像搜索器設(shè)計(jì)
圖像搜索器負(fù)責(zé)聚類系統(tǒng)的引擎搜索工作,能夠在眾多混合屬性圖像中搜索冗余特征,并且提供相對(duì)滿意的搜索結(jié)果。搜索引擎中選擇的效勞器為Spider效勞器,該效勞器一改傳統(tǒng)的超鏈接拓?fù)漤樞颍贸跏嫉腢RL列表獲取對(duì)應(yīng)的網(wǎng)頁。Spider效勞器不僅能夠獲得URL列表,而且還可以根據(jù)獲取到的結(jié)構(gòu),尋找其他類型的文件,重復(fù)進(jìn)行,直到搜索到指定數(shù)目的冗余特征為止。圖像搜索器的設(shè)計(jì)過程比擬簡單,Spider處理器占據(jù)面積較小[9]。Spider處理器示意圖如圖2所示。
Spider處理器芯片是一個(gè)小型簡單的芯片,能夠在短時(shí)間內(nèi)完成圖像冗余特征的搜索工作。
1.2 圖像數(shù)據(jù)庫設(shè)計(jì)
為了更好地分析混合屬性圖像冗余特征,本文在系統(tǒng)硬件結(jié)構(gòu)中參加了圖像數(shù)據(jù)庫,圖像數(shù)據(jù)庫能夠?yàn)橄到y(tǒng)工作提供網(wǎng)頁的原始數(shù)據(jù),并且存儲(chǔ)含有冗余特征的混合屬性圖像[10]。圖像數(shù)據(jù)庫使用的管理系統(tǒng)為BERKELEY DB系統(tǒng),該系統(tǒng)是一個(gè)含有開放源代碼的嵌入式數(shù)據(jù)庫管理系統(tǒng),具有極高的管理能力和極強(qiáng)的工作性能。圖像數(shù)據(jù)庫的提供很大程度地減輕了程序員的工作負(fù)擔(dān)。圖像數(shù)據(jù)庫不需要效勞器連接,應(yīng)用程序直接就能夠完成數(shù)據(jù)的保存、查詢、修改以及刪除工作。
圖像數(shù)據(jù)庫結(jié)構(gòu)如圖3所示。
觀察圖3可知,圖像數(shù)據(jù)庫中含有多個(gè)API接口能夠連接軟件程序,同時(shí),采用C語言、C++語言、Java語言、Perl語言等編程語言進(jìn)行操作,使系統(tǒng)可以在短時(shí)間內(nèi)完成多個(gè)圖像冗余特征的聚類工作。多語言操作使系統(tǒng)的多個(gè)進(jìn)程可以在同一時(shí)間操控訪問數(shù)據(jù)庫。數(shù)據(jù)加鎖、事務(wù)日志和存儲(chǔ)管理位于數(shù)據(jù)庫的底層,與數(shù)據(jù)庫函數(shù)完美融合,配合系統(tǒng)的工作。
本文設(shè)計(jì)的圖像數(shù)據(jù)庫自身內(nèi)存僅有250 KB,能夠管理高達(dá)380 TB的數(shù)據(jù),性能強(qiáng)于目前市面上的其他圖像數(shù)據(jù)庫。關(guān)鍵詞(Key)是圖像數(shù)據(jù)庫的管理根底,關(guān)鍵詞(Key)和數(shù)據(jù)(Data)為對(duì)應(yīng)關(guān)系,構(gòu)成了數(shù)據(jù)庫結(jié)構(gòu)的一個(gè)根本單元,用戶可以利用這些根本單元實(shí)現(xiàn)對(duì)數(shù)據(jù)庫的訪問,不同的關(guān)鍵詞來源于不同的數(shù)據(jù)。數(shù)據(jù)庫中關(guān)鍵詞對(duì)應(yīng)的模型圖如圖4所示。
混合屬性圖像中的關(guān)鍵特征在經(jīng)過計(jì)算后得到矩陣,數(shù)據(jù)在一次計(jì)算后,會(huì)永久保存在數(shù)據(jù)庫中,隨時(shí)為用戶提供必要的效勞。需要特別指出的是,最初得到的冗余特征數(shù)據(jù)不會(huì)直接儲(chǔ)存在數(shù)據(jù)庫中,而是要經(jīng)過預(yù)處理器統(tǒng)一分析后,才能儲(chǔ)存到對(duì)應(yīng)的關(guān)鍵詞模型列表中。
1.3 圖像預(yù)處理器設(shè)計(jì)
圖像預(yù)處理器主要負(fù)責(zé)處理混合屬性圖像的冗余特征,包括視覺冗余特征和語義冗余特征。顏色冗余特征是最為廣泛的冗余特征,顏色冗余特征對(duì)圖像本身的尺寸、方向和視角有著很小的依賴性,自身具有很好的穩(wěn)健性。在處理顏色冗余特征時(shí),系統(tǒng)會(huì)自動(dòng)建立直方圖,統(tǒng)計(jì)每種顏色出現(xiàn)的次數(shù),利用的統(tǒng)計(jì)工具為RGB色彩工具,建立的顏色直方圖如圖5所示。
圖5中,RGB代表不同的色彩分量,R代表紅色(Red),G代表綠色(Green),B代表藍(lán)色(Blue)。顏色直方圖中每個(gè)顏色都擁有256種色彩區(qū)間。三種顏色區(qū)間加起來共有768維,不需要做特別的降維處理。
在處理語義特征時(shí),要從URL中提取相關(guān)的語義信息,分別分析標(biāo)記信息、網(wǎng)頁標(biāo)題、URL信息和meta標(biāo)記信息,對(duì)不同的信息設(shè)立不同的權(quán)重值,通過分析權(quán)重值完成冗余特征聚類處理工作。
1.4 聚類器設(shè)計(jì)
聚類器在本文設(shè)計(jì)的系統(tǒng)中占據(jù)著核心地位,能夠通過動(dòng)態(tài)的方式將特征分成假設(shè)干組和假設(shè)干類,并確保每一組內(nèi)的數(shù)據(jù)都有著極高的相似度,不同組的相似度很低。聚類器主要包括三個(gè)模塊:顏色特征聚類模塊、語義特征聚類模塊、顏色語義特征聚類模塊。通過K?means算法將得到的聚類結(jié)果保存在緩存區(qū)中,當(dāng)緩存區(qū)的結(jié)構(gòu)到達(dá)滿負(fù)荷時(shí),替換掉緩存區(qū)的內(nèi)容。聚類器結(jié)構(gòu)如圖6所示。
2 混合屬性圖像冗余特征聚類系統(tǒng)軟件設(shè)計(jì)
根據(jù)設(shè)計(jì)的混合屬性圖像冗余特征聚類系統(tǒng)硬件結(jié)構(gòu),對(duì)聚類系統(tǒng)軟件結(jié)構(gòu)進(jìn)行設(shè)計(jì)。軟件選用的開發(fā)環(huán)境為Micorsoft Windows 10,選用的CPU為Celeron,內(nèi)存高達(dá)500 MB,使用的開發(fā)工具為VS2022,得到的軟件流程如圖7所示。
本文設(shè)計(jì)的軟件在工作之前,會(huì)建立一個(gè)初始的URL列表,利用超鏈接的拓?fù)漤樞蛱崛〔煌W(wǎng)頁圖像的冗余數(shù)據(jù),通過對(duì)這些冗余特征數(shù)據(jù)進(jìn)行分析,能夠得到根系結(jié)果,再將根系結(jié)果輸入數(shù)據(jù)庫中,以構(gòu)建索引庫。
軟件采用的聚類算法為IGroup聚類算法,該算法工作效率高,通用性強(qiáng),能夠以列表形式將聚類結(jié)果反響給用戶。相較于其他聚類算法,IGroup聚類算法耗時(shí)更短。通過搜索圖像和文本,找到特征數(shù)據(jù),進(jìn)行合并,最后通過精選將得到的結(jié)果反響給用戶。該聚類算法能夠?qū)?fù)雜的圖片聚類轉(zhuǎn)換成文字聚類,工作過程簡單,工作效果好。
聚類算法流程如圖8所示。
3 實(shí)驗(yàn)研究
3.1 實(shí)驗(yàn)?zāi)康?
為了檢測本文設(shè)計(jì)的基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)的實(shí)際效果,與傳統(tǒng)聚類系統(tǒng)進(jìn)行了比照,并分析實(shí)驗(yàn)結(jié)果。
3.2 實(shí)驗(yàn)參數(shù)設(shè)置
實(shí)驗(yàn)平臺(tái)及參數(shù)配置見表1。
3.3 實(shí)驗(yàn)結(jié)果
根據(jù)上述實(shí)驗(yàn)參數(shù),同時(shí)選取本文研究的聚類系統(tǒng)和傳統(tǒng)聚類系統(tǒng)對(duì)1 000幅混合屬性圖像冗余特征進(jìn)行聚類,聚類結(jié)果比擬如圖9所示。
觀察圖9可知:傳統(tǒng)的冗余特征聚類系統(tǒng)聚類數(shù)量最高值僅能到達(dá)145左右,而本文的冗余特征聚類系統(tǒng)聚類數(shù)量能夠到達(dá)200,圖像含有的信息十分豐富,用戶查找起來極其方便,得到的聚類結(jié)果更優(yōu)。
4 結(jié) 語
本文利用大數(shù)據(jù)提出了一種新的混合圖像冗余特征聚類系統(tǒng),該聚類系統(tǒng)能夠在短時(shí)間內(nèi)分析出圖像不同的屬性,尋找到冗余特征,給出最優(yōu)結(jié)果。本文在關(guān)鍵參數(shù)上進(jìn)行了動(dòng)態(tài)設(shè)計(jì),利用IGroup聚類算法優(yōu)化了聚類過程,使系統(tǒng)能夠?qū)崿F(xiàn)顏色冗余特征聚類、語義冗余特征聚類。本文研究的系統(tǒng)雖然具備上述優(yōu)點(diǎn),但是提供的效勞多是針對(duì)單一領(lǐng)域,未來該系統(tǒng)應(yīng)該隨著人工智能技術(shù)的進(jìn)步不斷深入研究,努力適應(yīng)各種圖像檢索技術(shù)。
參考文獻(xiàn)
[1] 侯莉莎.大數(shù)據(jù)集合中冗余特征排除的聚類算法設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2022,41(14):48?50.
[2] 魏霖靜,寧璐璐,郭斌,等.大數(shù)據(jù)中基于熵加權(quán)的稀疏分?jǐn)?shù)特征選擇聚類算法[J].計(jì)算機(jī)應(yīng)用研究,2022,35(8):2293?2294.
[3] 劉先花.基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2022,40(23):130?133.
[4] 李珍,刁鋼,趙慧峰.基于大數(shù)據(jù)分析的學(xué)生學(xué)業(yè)分類管理體系:河北農(nóng)業(yè)大學(xué)商學(xué)院新生入學(xué)成績的K?mean聚類分析[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào)(農(nóng)林教育版),2022,20(5):96?99.
[5] 文政穎,李運(yùn)娣.一種基于模糊層次聚類分析的大數(shù)據(jù)挖掘算法[J].河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2022,30(3):70?74.
[6] 徐源,程潛善,李陽,等.基于大數(shù)據(jù)聚類的電力系統(tǒng)中長期負(fù)荷預(yù)測[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào),2022,29(8):43?48.
[7] 王欣剛.基于大數(shù)據(jù)分析的業(yè)務(wù)平安預(yù)警系統(tǒng)設(shè)計(jì)[J].播送與電視技術(shù),2022,45(6):123?126.
[8] 梁耘,王維慶,王海云.基于分裂?合并策略改良多特征聚類算法的風(fēng)電機(jī)組故障分析[J].可再生能源,2022,35(10):1537?1543.
[9] 鄧小盾.一種基于大數(shù)據(jù)的網(wǎng)絡(luò)日志分析模型構(gòu)建研究[J].電子設(shè)計(jì)工程,2022,25(23):97?100.
[10] 徐時(shí)芳,羅曉賓,陳陽華.基于Spark的分布式大數(shù)據(jù)分析建模系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2022,41(20):172?174.
[11] 商娟葉.基于PSO的云計(jì)算環(huán)境中大數(shù)據(jù)優(yōu)化聚類算法[J].電子設(shè)計(jì)工程,2022,26(19):80?83.
[12] 趙睿,王慶嶺.基于大數(shù)據(jù)技術(shù)在線學(xué)習(xí)過程行為分析框架設(shè)計(jì)[J].蘭州石化職業(yè)技術(shù)學(xué)院學(xué)報(bào),2022,17(4):15?18.
[13] 樊凌,龔偉.無線網(wǎng)絡(luò)MOOCs大數(shù)據(jù)聚類方法優(yōu)化研究[J].計(jì)算機(jī)仿真,2022,33(7):435?439.
收藏
編號(hào):210477609
類型:共享資源
大小:15.33KB
格式:DOCX
上傳時(shí)間:2023-05-17
18
積分
- 關(guān) 鍵 詞:
-
基于
數(shù)據(jù)
分析
混合
屬性
圖像
冗余
特征
系統(tǒng)
設(shè)計(jì)
- 資源描述:
-
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)設(shè)計(jì)
簡要:摘 要: 傳統(tǒng)的圖像聚類系統(tǒng)得到的聚類結(jié)果往往不是最優(yōu)結(jié)果。為了解決這一問題,基于大數(shù)據(jù)分析技術(shù)設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)
摘 要: 傳統(tǒng)的圖像聚類系統(tǒng)得到的聚類結(jié)果往往不是最優(yōu)結(jié)果。為了解決這一問題,基于大數(shù)據(jù)分析技術(shù)設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類系統(tǒng)。系統(tǒng)硬件由圖像搜索器、網(wǎng)絡(luò)端效勞器、特征索引器、查詢器、預(yù)處理器、圖像數(shù)據(jù)庫、聚類器組成。圖像搜索器利用Spider處理器完成搜索,利用API接口和嵌入式管理系統(tǒng)管理圖像數(shù)據(jù)庫,建立顏色直方圖實(shí)現(xiàn)顏色特征處理。軟件由圖像搜索、圖像特征處理、冗余特征聚類三步組成,利用IGroup算法實(shí)現(xiàn)聚類。與傳統(tǒng)聚類系統(tǒng)進(jìn)行實(shí)驗(yàn)比照,結(jié)果說明,新的聚類系統(tǒng)能夠在短時(shí)間內(nèi)輸出最優(yōu)的聚類結(jié)果,適合圖像處理工作。
關(guān)鍵詞: 系統(tǒng)設(shè)計(jì); 冗余特征聚類; 混合屬性圖像; 圖像搜索; 大數(shù)據(jù)分析; 圖像處理
本文源自:?現(xiàn)代電子技術(shù)? 2022年13期
0 引 言
隨著Internet的高速開展,圖像被越來越多地使用在內(nèi)容表達(dá)和信息承載上。網(wǎng)絡(luò)具有規(guī)模大、分布范圍廣、資源增長速度快的特征,互聯(lián)網(wǎng)擁有的圖像數(shù)以億計(jì),想要通過人工的手段將混合屬性圖像冗余特征聚類到一起十分困難,因此,必須要設(shè)計(jì)有效的圖像冗余特征聚類系統(tǒng)[1]。
圖像冗余特征聚類問題與圖像信息收集和信息檢索問題相關(guān),圖像的冗余特征表現(xiàn)形式共有如下幾種:空間冗余、時(shí)間冗余、視覺冗余、信息熵冗余和知識(shí)冗余[2]。不同類型的圖像含有的冗余特征不同[3],由于Internet具有邊緣化的特點(diǎn),所以圖像信息的格式也往往不同[4]。目前研究的圖像冗余特征聚類系統(tǒng)主要有兩種:第一種是基于圖像內(nèi)容進(jìn)行聚類;第二種是基于圖像語義進(jìn)行聚類?;趦?nèi)容的混合屬性圖像冗余特征聚類系統(tǒng)能夠?qū)D像的內(nèi)容本身進(jìn)行分析和研究,基于語義的混合屬性圖像冗余特征聚類系統(tǒng)能夠分析相關(guān)文字信息[5]。在目前研發(fā)的混合屬性圖像冗余特征聚類系統(tǒng)中,聚類的準(zhǔn)確率和全面率都有所缺乏,系統(tǒng)的可擴(kuò)展性也存在很大的問題[6]。
大數(shù)據(jù)分析技術(shù)是一種新的網(wǎng)絡(luò)技術(shù),能夠在短時(shí)間內(nèi)對(duì)海量數(shù)據(jù)進(jìn)行分析,并且篩選出有效數(shù)據(jù),對(duì)于冗余特征聚類十分有效[7]。本文基于大數(shù)據(jù)分析技術(shù),設(shè)計(jì)了一種新的混合屬性圖像冗余特征聚類系統(tǒng),對(duì)系統(tǒng)的硬件和軟件進(jìn)行了優(yōu)化設(shè)計(jì),分析了系統(tǒng)進(jìn)行聚類的工作原理,并給出了相應(yīng)的聚類算法,通過實(shí)驗(yàn)對(duì)聚類系統(tǒng)有效性進(jìn)行探討。
1 混合屬性圖像冗余特征聚類系統(tǒng)硬件設(shè)計(jì)
本文研究的聚類系統(tǒng)針對(duì)混合屬性圖像設(shè)計(jì),該系統(tǒng)能夠?qū)⑺械膱D像同一特征進(jìn)行動(dòng)態(tài)聚類,并且配合主題關(guān)鍵詞,方便用戶查看。
基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)結(jié)構(gòu)如圖1所示。
觀察圖1可知,本文設(shè)計(jì)的冗余特征聚類系統(tǒng)利用互聯(lián)網(wǎng)絡(luò)將各個(gè)設(shè)備連接到一起。硬件設(shè)備主要有圖像搜索器、網(wǎng)絡(luò)端效勞器、特征索引器、查詢器、預(yù)處理器、圖像數(shù)據(jù)庫、聚類器,其中,聚類器和預(yù)處理器是系統(tǒng)結(jié)構(gòu)的關(guān)鍵組成局部[8]。
1.1 圖像搜索器設(shè)計(jì)
圖像搜索器負(fù)責(zé)聚類系統(tǒng)的引擎搜索工作,能夠在眾多混合屬性圖像中搜索冗余特征,并且提供相對(duì)滿意的搜索結(jié)果。搜索引擎中選擇的效勞器為Spider效勞器,該效勞器一改傳統(tǒng)的超鏈接拓?fù)漤樞颍贸跏嫉腢RL列表獲取對(duì)應(yīng)的網(wǎng)頁。Spider效勞器不僅能夠獲得URL列表,而且還可以根據(jù)獲取到的結(jié)構(gòu),尋找其他類型的文件,重復(fù)進(jìn)行,直到搜索到指定數(shù)目的冗余特征為止。圖像搜索器的設(shè)計(jì)過程比擬簡單,Spider處理器占據(jù)面積較小[9]。Spider處理器示意圖如圖2所示。
Spider處理器芯片是一個(gè)小型簡單的芯片,能夠在短時(shí)間內(nèi)完成圖像冗余特征的搜索工作。
1.2 圖像數(shù)據(jù)庫設(shè)計(jì)
為了更好地分析混合屬性圖像冗余特征,本文在系統(tǒng)硬件結(jié)構(gòu)中參加了圖像數(shù)據(jù)庫,圖像數(shù)據(jù)庫能夠?yàn)橄到y(tǒng)工作提供網(wǎng)頁的原始數(shù)據(jù),并且存儲(chǔ)含有冗余特征的混合屬性圖像[10]。圖像數(shù)據(jù)庫使用的管理系統(tǒng)為BERKELEY DB系統(tǒng),該系統(tǒng)是一個(gè)含有開放源代碼的嵌入式數(shù)據(jù)庫管理系統(tǒng),具有極高的管理能力和極強(qiáng)的工作性能。圖像數(shù)據(jù)庫的提供很大程度地減輕了程序員的工作負(fù)擔(dān)。圖像數(shù)據(jù)庫不需要效勞器連接,應(yīng)用程序直接就能夠完成數(shù)據(jù)的保存、查詢、修改以及刪除工作。
圖像數(shù)據(jù)庫結(jié)構(gòu)如圖3所示。
觀察圖3可知,圖像數(shù)據(jù)庫中含有多個(gè)API接口能夠連接軟件程序,同時(shí),采用C語言、C++語言、Java語言、Perl語言等編程語言進(jìn)行操作,使系統(tǒng)可以在短時(shí)間內(nèi)完成多個(gè)圖像冗余特征的聚類工作。多語言操作使系統(tǒng)的多個(gè)進(jìn)程可以在同一時(shí)間操控訪問數(shù)據(jù)庫。數(shù)據(jù)加鎖、事務(wù)日志和存儲(chǔ)管理位于數(shù)據(jù)庫的底層,與數(shù)據(jù)庫函數(shù)完美融合,配合系統(tǒng)的工作。
本文設(shè)計(jì)的圖像數(shù)據(jù)庫自身內(nèi)存僅有250 KB,能夠管理高達(dá)380 TB的數(shù)據(jù),性能強(qiáng)于目前市面上的其他圖像數(shù)據(jù)庫。關(guān)鍵詞(Key)是圖像數(shù)據(jù)庫的管理根底,關(guān)鍵詞(Key)和數(shù)據(jù)(Data)為對(duì)應(yīng)關(guān)系,構(gòu)成了數(shù)據(jù)庫結(jié)構(gòu)的一個(gè)根本單元,用戶可以利用這些根本單元實(shí)現(xiàn)對(duì)數(shù)據(jù)庫的訪問,不同的關(guān)鍵詞來源于不同的數(shù)據(jù)。數(shù)據(jù)庫中關(guān)鍵詞對(duì)應(yīng)的模型圖如圖4所示。
混合屬性圖像中的關(guān)鍵特征在經(jīng)過計(jì)算后得到矩陣,數(shù)據(jù)在一次計(jì)算后,會(huì)永久保存在數(shù)據(jù)庫中,隨時(shí)為用戶提供必要的效勞。需要特別指出的是,最初得到的冗余特征數(shù)據(jù)不會(huì)直接儲(chǔ)存在數(shù)據(jù)庫中,而是要經(jīng)過預(yù)處理器統(tǒng)一分析后,才能儲(chǔ)存到對(duì)應(yīng)的關(guān)鍵詞模型列表中。
1.3 圖像預(yù)處理器設(shè)計(jì)
圖像預(yù)處理器主要負(fù)責(zé)處理混合屬性圖像的冗余特征,包括視覺冗余特征和語義冗余特征。顏色冗余特征是最為廣泛的冗余特征,顏色冗余特征對(duì)圖像本身的尺寸、方向和視角有著很小的依賴性,自身具有很好的穩(wěn)健性。在處理顏色冗余特征時(shí),系統(tǒng)會(huì)自動(dòng)建立直方圖,統(tǒng)計(jì)每種顏色出現(xiàn)的次數(shù),利用的統(tǒng)計(jì)工具為RGB色彩工具,建立的顏色直方圖如圖5所示。
圖5中,RGB代表不同的色彩分量,R代表紅色(Red),G代表綠色(Green),B代表藍(lán)色(Blue)。顏色直方圖中每個(gè)顏色都擁有256種色彩區(qū)間。三種顏色區(qū)間加起來共有768維,不需要做特別的降維處理。
在處理語義特征時(shí),要從URL中提取相關(guān)的語義信息,分別分析標(biāo)記信息、網(wǎng)頁標(biāo)題、URL信息和meta標(biāo)記信息,對(duì)不同的信息設(shè)立不同的權(quán)重值,通過分析權(quán)重值完成冗余特征聚類處理工作。
1.4 聚類器設(shè)計(jì)
聚類器在本文設(shè)計(jì)的系統(tǒng)中占據(jù)著核心地位,能夠通過動(dòng)態(tài)的方式將特征分成假設(shè)干組和假設(shè)干類,并確保每一組內(nèi)的數(shù)據(jù)都有著極高的相似度,不同組的相似度很低。聚類器主要包括三個(gè)模塊:顏色特征聚類模塊、語義特征聚類模塊、顏色語義特征聚類模塊。通過K?means算法將得到的聚類結(jié)果保存在緩存區(qū)中,當(dāng)緩存區(qū)的結(jié)構(gòu)到達(dá)滿負(fù)荷時(shí),替換掉緩存區(qū)的內(nèi)容。聚類器結(jié)構(gòu)如圖6所示。
2 混合屬性圖像冗余特征聚類系統(tǒng)軟件設(shè)計(jì)
根據(jù)設(shè)計(jì)的混合屬性圖像冗余特征聚類系統(tǒng)硬件結(jié)構(gòu),對(duì)聚類系統(tǒng)軟件結(jié)構(gòu)進(jìn)行設(shè)計(jì)。軟件選用的開發(fā)環(huán)境為Micorsoft Windows 10,選用的CPU為Celeron,內(nèi)存高達(dá)500 MB,使用的開發(fā)工具為VS2022,得到的軟件流程如圖7所示。
本文設(shè)計(jì)的軟件在工作之前,會(huì)建立一個(gè)初始的URL列表,利用超鏈接的拓?fù)漤樞蛱崛〔煌W(wǎng)頁圖像的冗余數(shù)據(jù),通過對(duì)這些冗余特征數(shù)據(jù)進(jìn)行分析,能夠得到根系結(jié)果,再將根系結(jié)果輸入數(shù)據(jù)庫中,以構(gòu)建索引庫。
軟件采用的聚類算法為IGroup聚類算法,該算法工作效率高,通用性強(qiáng),能夠以列表形式將聚類結(jié)果反響給用戶。相較于其他聚類算法,IGroup聚類算法耗時(shí)更短。通過搜索圖像和文本,找到特征數(shù)據(jù),進(jìn)行合并,最后通過精選將得到的結(jié)果反響給用戶。該聚類算法能夠?qū)?fù)雜的圖片聚類轉(zhuǎn)換成文字聚類,工作過程簡單,工作效果好。
聚類算法流程如圖8所示。
3 實(shí)驗(yàn)研究
3.1 實(shí)驗(yàn)?zāi)康?
為了檢測本文設(shè)計(jì)的基于大數(shù)據(jù)分析的混合屬性圖像冗余特征聚類系統(tǒng)的實(shí)際效果,與傳統(tǒng)聚類系統(tǒng)進(jìn)行了比照,并分析實(shí)驗(yàn)結(jié)果。
3.2 實(shí)驗(yàn)參數(shù)設(shè)置
實(shí)驗(yàn)平臺(tái)及參數(shù)配置見表1。
3.3 實(shí)驗(yàn)結(jié)果
根據(jù)上述實(shí)驗(yàn)參數(shù),同時(shí)選取本文研究的聚類系統(tǒng)和傳統(tǒng)聚類系統(tǒng)對(duì)1 000幅混合屬性圖像冗余特征進(jìn)行聚類,聚類結(jié)果比擬如圖9所示。
觀察圖9可知:傳統(tǒng)的冗余特征聚類系統(tǒng)聚類數(shù)量最高值僅能到達(dá)145左右,而本文的冗余特征聚類系統(tǒng)聚類數(shù)量能夠到達(dá)200,圖像含有的信息十分豐富,用戶查找起來極其方便,得到的聚類結(jié)果更優(yōu)。
4 結(jié) 語
本文利用大數(shù)據(jù)提出了一種新的混合圖像冗余特征聚類系統(tǒng),該聚類系統(tǒng)能夠在短時(shí)間內(nèi)分析出圖像不同的屬性,尋找到冗余特征,給出最優(yōu)結(jié)果。本文在關(guān)鍵參數(shù)上進(jìn)行了動(dòng)態(tài)設(shè)計(jì),利用IGroup聚類算法優(yōu)化了聚類過程,使系統(tǒng)能夠?qū)崿F(xiàn)顏色冗余特征聚類、語義冗余特征聚類。本文研究的系統(tǒng)雖然具備上述優(yōu)點(diǎn),但是提供的效勞多是針對(duì)單一領(lǐng)域,未來該系統(tǒng)應(yīng)該隨著人工智能技術(shù)的進(jìn)步不斷深入研究,努力適應(yīng)各種圖像檢索技術(shù)。
參考文獻(xiàn)
[1] 侯莉莎.大數(shù)據(jù)集合中冗余特征排除的聚類算法設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2022,41(14):48?50.
[2] 魏霖靜,寧璐璐,郭斌,等.大數(shù)據(jù)中基于熵加權(quán)的稀疏分?jǐn)?shù)特征選擇聚類算法[J].計(jì)算機(jī)應(yīng)用研究,2022,35(8):2293?2294.
[3] 劉先花.基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2022,40(23):130?133.
[4] 李珍,刁鋼,趙慧峰.基于大數(shù)據(jù)分析的學(xué)生學(xué)業(yè)分類管理體系:河北農(nóng)業(yè)大學(xué)商學(xué)院新生入學(xué)成績的K?mean聚類分析[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào)(農(nóng)林教育版),2022,20(5):96?99.
[5] 文政穎,李運(yùn)娣.一種基于模糊層次聚類分析的大數(shù)據(jù)挖掘算法[J].河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2022,30(3):70?74.
[6] 徐源,程潛善,李陽,等.基于大數(shù)據(jù)聚類的電力系統(tǒng)中長期負(fù)荷預(yù)測[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào),2022,29(8):43?48.
[7] 王欣剛.基于大數(shù)據(jù)分析的業(yè)務(wù)平安預(yù)警系統(tǒng)設(shè)計(jì)[J].播送與電視技術(shù),2022,45(6):123?126.
[8] 梁耘,王維慶,王海云.基于分裂?合并策略改良多特征聚類算法的風(fēng)電機(jī)組故障分析[J].可再生能源,2022,35(10):1537?1543.
[9] 鄧小盾.一種基于大數(shù)據(jù)的網(wǎng)絡(luò)日志分析模型構(gòu)建研究[J].電子設(shè)計(jì)工程,2022,25(23):97?100.
[10] 徐時(shí)芳,羅曉賓,陳陽華.基于Spark的分布式大數(shù)據(jù)分析建模系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2022,41(20):172?174.
[11] 商娟葉.基于PSO的云計(jì)算環(huán)境中大數(shù)據(jù)優(yōu)化聚類算法[J].電子設(shè)計(jì)工程,2022,26(19):80?83.
[12] 趙睿,王慶嶺.基于大數(shù)據(jù)技術(shù)在線學(xué)習(xí)過程行為分析框架設(shè)計(jì)[J].蘭州石化職業(yè)技術(shù)學(xué)院學(xué)報(bào),2022,17(4):15?18.
[13] 樊凌,龔偉.無線網(wǎng)絡(luò)MOOCs大數(shù)據(jù)聚類方法優(yōu)化研究[J].計(jì)算機(jī)仿真,2022,33(7):435?439.
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學(xué)習(xí)交流,未經(jīng)上傳用戶書面授權(quán),請(qǐng)勿作他用。