林凌 許然
摘 要: 傳統(tǒng)基于圖像內(nèi)容的圖像數(shù)據(jù)挖掘算法,對海量圖像特征的分類效率低,對圖像數(shù)據(jù)的挖掘準確率受樣本數(shù)量影響較大。因此,提出一種基于圖像特征細化的海量數(shù)據(jù)挖掘系統(tǒng),其中的人機界面可賦予系統(tǒng)較高的交互性。圖像搜索引擎能夠智能地從互聯(lián)網(wǎng)海量的圖像數(shù)據(jù)中,采集有價值圖像數(shù)據(jù)和特征。圖像預處理模塊對圖像格式進行變換,完成圖像噪聲因素的過濾等操作,并對采集圖像特征進行細化。數(shù)據(jù)挖掘模塊依據(jù)采集的圖像特征細化結果塑造CMQL語句,從圖像數(shù)據(jù)庫中挖掘出有價值的圖像數(shù)據(jù)。系統(tǒng)實現(xiàn)部分給出了數(shù)據(jù)挖掘查詢語言CMQL進行圖像數(shù)據(jù)的挖掘過程。實驗結果表明,所設計系統(tǒng)具有較高的查準率和查全率。
關鍵詞: 圖像特征細化; 海量數(shù)據(jù)挖掘; 圖像數(shù)據(jù)挖掘; 圖像噪聲過濾
中圖分類號: TN911.73?34; TP311 文獻標識碼: A 文章編號: 1004?373X(2016)24?0113?03
Design and implementation of mass data mining system based on
image feature refinement
LIN Ling1, XU Ran2
(1. Fujian Institute of Education, Fuzhou 350025, China; 2. Zhejiang Sci?Tech University, Hangzhou 310018, China)
Abstract: The traditional image data mining algorithm based on image content has low classification efficiency of the mass image features, and high influence on the image data mining accuracy affected by the sample quantity. Therefore, a mass data mining system based on image feature refinement is proposed, in which the man?machine interface endows the system with the high interactivity. The image search engine can intelligently collect the valuable image data and features in mass Internet image data. The image preprocessing module is used to transform the image format, complete the image filtering of noise factors, and refine the acquired image features. The data mining module is used to model the CMQL statements according to the collected image feature refinement results, and mine the valuable image data in the image database. The image data mining process performed with the data mining query language CMQL is given in the system implementation section. The experimental results show that the system has high precision ratio and recall ratio.
Keywords: image feature refinement; mass data mining; image data mining; image noise filtering
隨著網(wǎng)絡技術的快速發(fā)展和計算機性能的不斷增強,不同行業(yè)對圖像應用的不斷增加,導致監(jiān)視相機、醫(yī)療影像系統(tǒng)、衛(wèi)星遙感系統(tǒng)等圖像采集部件的應用領域逐漸擴大。而這些部件采用圖像挖掘技術對采集的數(shù)據(jù)進行自主分析,從中挖掘出有價值的圖像數(shù)據(jù)的需要也逐漸增加[1?3]。
傳統(tǒng)基于圖像內(nèi)容的圖像數(shù)據(jù)挖掘算法,對海量圖像特征的分類效率低,對圖像數(shù)據(jù)的挖掘準確率受樣本數(shù)量影響較高。因此,尋求有效的海量圖像數(shù)據(jù)挖掘算法,具有重要的應用意義[4?6]。
1 海量數(shù)據(jù)挖掘系統(tǒng)設計與實現(xiàn)
1.1 系統(tǒng)總體結構
基于圖像特征細化的圖像檢索,通過數(shù)據(jù)庫保存圖像數(shù)據(jù),并且對圖像的顏色、紋理、形狀等特征進行細化,進而完成圖像數(shù)據(jù)的挖掘。塑造基于圖像特征細化的海量圖像數(shù)據(jù)挖掘系統(tǒng),系統(tǒng)總體結構如圖1所示。
該系統(tǒng)包括人機界面、圖像檢索引擎、圖像數(shù)據(jù)預處理模塊、數(shù)據(jù)挖掘模塊、數(shù)據(jù)庫系統(tǒng)和知識庫系統(tǒng)。
1.2 人機界面設計
僅靠數(shù)據(jù)挖掘系統(tǒng)自身挖掘圖像數(shù)據(jù),容易形成大量用戶不關心的模式。因此,需要用戶通過交互方式,參與到具體的數(shù)據(jù)挖掘。設計的人機界面結構如圖2所示。
檢索模塊用于完成圖像的檢索,用戶采用瀏覽器給出圖像特征,進而產(chǎn)生對應的圖像檢索申請。智能代理是一個動態(tài)的檢索接口,若用戶未在當前的數(shù)據(jù)庫中檢索到有價值圖像數(shù)據(jù),則智能代理存儲用戶申請,采用圖像獲取系統(tǒng)自主在網(wǎng)絡中進行檢索,并且將檢索結果反饋給用戶。
1.3 圖像搜索引擎設計
圖像搜索引擎的結構見圖3,其可在網(wǎng)上采集圖像,并對圖像進行相似性運算,執(zhí)行用戶圖像數(shù)據(jù)檢索需求。
1.4 數(shù)據(jù)挖掘模塊設計
數(shù)據(jù)挖掘模塊是系統(tǒng)的關鍵,系統(tǒng)通過模塊化方法,將圖像數(shù)據(jù)挖掘部分的不同功能設計成規(guī)范的組件,并且依據(jù)相應的組裝規(guī)則和約束條件,塑造成完整的圖像數(shù)據(jù)挖掘模塊,其結構如圖4所示。
2 實驗分析
通過實驗驗證本文設計的基于圖像特征細化的海量數(shù)據(jù)挖掘系統(tǒng)的性能。實驗采用圖像檢索引擎,分別輸入bird,bike,car,flower,plane關鍵詞,并將待檢索圖像中的前50幅圖像存儲到機器硬盤內(nèi),并且分別設對應的圖像庫。
實驗1采用bird圖像庫,并采集顏色特征和形狀特征,采用基于圖像內(nèi)容的挖掘系統(tǒng)和本文挖掘系統(tǒng)對圖像進行分類挖掘。具體的挖掘結果如表1、表2所示。
從表1中的數(shù)據(jù)可以看出,相對于基于圖像內(nèi)容的挖掘系統(tǒng),本文挖掘系統(tǒng)的查準率和查全率都較高,說明通過采集圖像顏色特征,并利用本文挖掘方法可提高海量圖像數(shù)據(jù)的查全率和查準率。從表2中的數(shù)據(jù)可以看出,本文系統(tǒng)進行挖掘的查準率和查全率都高于傳統(tǒng)系統(tǒng),說明通過采集圖像形狀特征,采用本文提出的關聯(lián)規(guī)則挖掘算法進行挖掘,具有較高的查全率、查準率。
實驗2針對bird圖像庫、bike圖像庫、car圖像庫、flower圖像庫,從中采集形狀特征,并進行細化,分別采用基于圖像內(nèi)容的挖掘系統(tǒng)和本文挖掘系統(tǒng)對圖像數(shù)據(jù)進行挖掘,具體的挖掘結果分別如表3、表4所示。
實驗3采用4個實驗圖像庫,并從中采集形狀特征,再分別采用基于圖像內(nèi)容的挖掘系統(tǒng)和本文挖掘系統(tǒng),對實驗圖像庫進行挖掘。結果分別見表5和表6。
表5 基于圖像內(nèi)容系統(tǒng)進行形狀特征采集圖像庫的挖掘結果
對比分析表5和表6可以看出,采用本文挖掘系統(tǒng)進行挖掘,能夠大幅度提高查準率。相對于基于圖像內(nèi)容的挖掘系統(tǒng),本文挖掘系統(tǒng)能夠更加準確地挖掘到正確圖像,具有較高的應用價值。
3 結 論
本文設計一種基于圖像特征細化的海量數(shù)據(jù)挖掘系統(tǒng),其中的人機界面能夠賦予系統(tǒng)較高的交互性。圖像搜索引擎能夠智能地從互聯(lián)網(wǎng)海量的圖像數(shù)據(jù)中,采集有價值的圖像數(shù)據(jù)和特征。圖像預處理模塊對圖像格式進行變換,完成圖像噪聲因素的過濾等操作,并對采集圖像特征進行細化。數(shù)據(jù)挖掘模塊依據(jù)采集的圖像特征細化結果塑造CMQL語句,從圖像數(shù)據(jù)庫中挖掘出有價值的圖像數(shù)據(jù)。系統(tǒng)實現(xiàn)部分給出了數(shù)據(jù)挖掘查詢語言CMQL進行圖像數(shù)據(jù)挖掘的過程。實驗結果表明,所設計系統(tǒng)具有較高的查準率和查全率。
表6 本文挖掘系統(tǒng)進行形狀特征采集圖像庫的挖掘結果
參考文獻
[1] 王紅斌,陳揚,高雅,等.基于數(shù)據(jù)挖掘的預警技術在一體化輸電設備監(jiān)測中的應用研究[J].電網(wǎng)與清潔能源,2014,30(1):55?58.
[2] 李正,康立源,范驍輝.中藥制藥過程數(shù)據(jù)集成、數(shù)據(jù)挖掘與可視化技術研究[J].中國中藥雜志,2014,39(15):2989?2992.
[3] 蘇曉青,黃翔,王俊.蒸發(fā)式冷凝冷水機組在數(shù)據(jù)中心的應用分析[J].西安工程大學學報,2016,30(1):37?42.
[4] 李德仁,張良培,夏桂松.遙感大數(shù)據(jù)自動分析與數(shù)據(jù)挖掘[J].測繪學報,2014,43(12):1211?1216.
[5] 吳嘉瑞,唐仕歡,郭位先,等.基于數(shù)據(jù)挖掘的名老中醫(yī)經(jīng)驗傳承研究述評[J].中國中藥雜志,2014,39(4):614?617.
[6] 朱利鵬,陸超,孫元章,等.基于數(shù)據(jù)挖掘的區(qū)域暫態(tài)電壓穩(wěn)定評估[J].電網(wǎng)技術,2015,39(4):1026?1032.
[7] 張翔,徐洪平,安雪巖,等.液體火箭發(fā)動機穩(wěn)態(tài)運行故障數(shù)據(jù)聚類分析研究[J].火箭推進,2015(2):118?122.