龍虎 梁麗香



摘? 要: 傳統的圖像聚類系統得到的聚類結果往往不是最優結果。為了解決這一問題,基于大數據分析技術設計了一種新的混合屬性圖像冗余特征聚類系統。系統硬件由圖像搜索器、網絡端服務器、特征索引器、查詢器、預處理器、圖像數據庫、聚類器組成。圖像搜索器利用Spider處理器完成搜索,利用API接口和嵌入式管理系統管理圖像數據庫,建立顏色直方圖實現顏色特征處理。軟件由圖像搜索、圖像特征處理、冗余特征聚類三步組成,利用IGroup算法實現聚類。與傳統聚類系統進行實驗對比,結果表明,新的聚類系統能夠在短時間內輸出最優的聚類結果,適合圖像處理工作。
關鍵詞: 系統設計; 冗余特征聚類; 混合屬性圖像; 圖像搜索; 大數據分析; 圖像處理
中圖分類號: TN911.73?34; TP391? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)13?0049?04
Design of big data analysis based redundant feature clustering system
for hybrid attribute images
LONG Hu, LIANG Lixiang
(School of Big Data Engineering, Kaili University, Kaili 556011, China)
Abstract: In most cases, the clustering results obtained by the traditional image clustering system are not optimal. For this reason, a new redundant feature clustering system for hybrid attribute images is designed based on the big data analysis technology. The system hardware consists of image searcher, network server, feature indexer, querier, preprocessor, image database and clustering device. The Spider processor is used by the image searcher to complete search. The API interface and embedded management system are used to manage the image database and establish the color histogram, so as to realize color feature processing. The software functions consist of image search, image feature processing and redundant feature clustering to achieve clustering by means of the IGroup algorithm. The experiments for contrast between the proposed system and the traditional clustering system were performed. The results show that the proposed clustering system can output optimal clustering results in a short time. Therefore, it is suitable for image processing.
Keywords: system design; redundant feature clustering; mixed attribute image; image search; big data analysis; image processing
0? 引? 言
隨著Internet的高速發展,圖像被越來越多地使用在內容表達和信息承載上。網絡具有規模大、分布范圍廣、資源增長速度快的特征,互聯網擁有的圖像數以億計,想要通過人工的手段將混合屬性圖像冗余特征聚類到一起十分困難,因此,必須要設計有效的圖像冗余特征聚類系統[1]。
圖像冗余特征聚類問題與圖像信息收集和信息檢索問題相關,圖像的冗余特征表現形式共有如下幾種:空間冗余、時間冗余、視覺冗余、信息熵冗余和知識冗余[2]。不同類型的圖像含有的冗余特征不同[3],由于Internet具有邊緣化的特點,所以圖像信息的格式也往往不同[4]。目前研究的圖像冗余特征聚類系統主要有兩種:第一種是基于圖像內容進行聚類;第二種是基于圖像語義進行聚類。基于內容的混合屬性圖像冗余特征聚類系統能夠對圖像的內容本身進行分析和研究,基于語義的混合屬性圖像冗余特征聚類系統能夠分析相關文字信息[5]。在目前研發的混合屬性圖像冗余特征聚類系統中,聚類的準確率和全面率都有所不足,系統的可擴展性也存在很大的問題[6]。
大數據分析技術是一種新的網絡技術,能夠在短時間內對海量數據進行分析,并且篩選出有效數據,對于冗余特征聚類十分有效[7]。本文基于大數據分析技術,設計了一種新的混合屬性圖像冗余特征聚類系統,對系統的硬件和軟件進行了優化設計,分析了系統進行聚類的工作原理,并給出了相應的聚類算法,通過實驗對聚類系統有效性進行探討。
1? 混合屬性圖像冗余特征聚類系統硬件設計
本文研究的聚類系統針對混合屬性圖像設計,該系統能夠將所有的圖像同一特征進行動態聚類,并且配合主題關鍵詞,方便用戶查看。
基于大數據分析的混合屬性圖像冗余特征聚類系統結構如圖1所示。
觀察圖1可知,本文設計的冗余特征聚類系統利用互聯網絡將各個設備連接到一起。硬件設備主要有圖像搜索器、網絡端服務器、特征索引器、查詢器、預處理器、圖像數據庫、聚類器,其中,聚類器和預處理器是系統結構的關鍵組成部分[8]。
1.1? 圖像搜索器設計
圖像搜索器負責聚類系統的引擎搜索工作,能夠在眾多混合屬性圖像中搜索冗余特征,并且提供相對滿意的搜索結果。搜索引擎中選擇的服務器為Spider服務器,該服務器一改傳統的超鏈接拓撲順序,利用初始的URL列表獲取對應的網頁。Spider服務器不僅能夠獲得URL列表,而且還可以根據獲取到的結構,尋找其他類型的文件,重復進行,直到搜索到指定數目的冗余特征為止。圖像搜索器的設計過程比較簡單,Spider處理器占據面積較小[9]。Spider處理器示意圖如圖2所示。
Spider處理器芯片是一個小型簡單的芯片,能夠在短時間內完成圖像冗余特征的搜索工作。
1.2? 圖像數據庫設計
為了更好地分析混合屬性圖像冗余特征,本文在系統硬件結構中加入了圖像數據庫,圖像數據庫能夠為系統工作提供網頁的原始數據,并且存儲含有冗余特征的混合屬性圖像[10]。圖像數據庫使用的管理系統為BERKELEY DB系統,該系統是一個含有開放源代碼的嵌入式數據庫管理系統,具有極高的管理能力和極強的工作性能。圖像數據庫的提供很大程度地減輕了程序員的工作負擔。圖像數據庫不需要服務器連接,應用程序直接就能夠完成數據的保存、查詢、修改以及刪除工作。
圖像數據庫結構如圖3所示。
觀察圖3可知,圖像數據庫中含有多個API接口能夠連接軟件程序,同時,采用C語言、C++語言、Java語言、Perl語言等編程語言進行操作,使系統可以在短時間內完成多個圖像冗余特征的聚類工作。多語言操作使系統的多個進程可以在同一時間操控訪問數據庫。數據加鎖、事務日志和存儲管理位于數據庫的底層,與數據庫函數完美融合,配合系統的工作。
本文設計的圖像數據庫自身內存僅有250 KB,能夠管理高達380 TB的數據,性能強于目前市面上的其他圖像數據庫。關鍵詞(Key)是圖像數據庫的管理基礎,關鍵詞(Key)和數據(Data)為對應關系,構成了數據庫結構的一個基本單元,用戶可以利用這些基本單元實現對數據庫的訪問,不同的關鍵詞來源于不同的數據。數據庫中關鍵詞對應的模型圖如圖4所示。
混合屬性圖像中的關鍵特征在經過計算后得到矩陣,數據在一次計算后,會永久保留在數據庫中,隨時為用戶提供必要的服務。需要特別指出的是,最初得到的冗余特征數據不會直接儲存在數據庫中,而是要經過預處理器統一分析后,才能儲存到對應的關鍵詞模型列表中。
1.3? 圖像預處理器設計
圖像預處理器主要負責處理混合屬性圖像的冗余特征,包括視覺冗余特征和語義冗余特征。顏色冗余特征是最為廣泛的冗余特征,顏色冗余特征對圖像本身的尺寸、方向和視角有著很小的依賴性,自身具有很好的穩健性。在處理顏色冗余特征時,系統會自動建立直方圖,統計每種顏色出現的次數,利用的統計工具為RGB色彩工具,建立的顏色直方圖如圖5所示。
圖5中,RGB代表不同的色彩分量,R代表紅色(Red),G代表綠色(Green),B代表藍色(Blue)。顏色直方圖中每個顏色都擁有256種色彩區間。三種顏色區間加起來共有768維,不需要做特別的降維處理。
在處理語義特征時,要從URL中提取相關的語義信息,分別分析標記信息、網頁標題、URL信息和meta標記信息,對不同的信息設立不同的權重值,通過分析權重值完成冗余特征聚類處理工作。
1.4? 聚類器設計
聚類器在本文設計的系統中占據著核心地位,能夠通過動態的方式將特征分成若干組和若干類,并確保每一組內的數據都有著極高的相似度,不同組的相似度很低。聚類器主要包括三個模塊:顏色特征聚類模塊、語義特征聚類模塊、顏色語義特征聚類模塊。通過K?means算法將得到的聚類結果保存在緩存區中,當緩存區的結構達到滿負荷時,替換掉緩存區的內容。聚類器結構如圖6所示。
2? 混合屬性圖像冗余特征聚類系統軟件設計
根據設計的混合屬性圖像冗余特征聚類系統硬件結構,對聚類系統軟件結構進行設計。軟件選用的開發環境為Micorsoft Windows 10,選用的CPU為Celeron,內存高達500 MB,使用的開發工具為VS2005,得到的軟件流程如圖7所示。
本文設計的軟件在工作之前,會建立一個初始的URL列表,利用超鏈接的拓撲順序提取不同網頁圖像的冗余數據,通過對這些冗余特征數據進行分析,能夠得到根系結果,再將根系結果輸入數據庫中,以構建索引庫。
軟件采用的聚類算法為IGroup聚類算法,該算法工作效率高,通用性強,能夠以列表形式將聚類結果反饋給用戶。相較于其他聚類算法,IGroup聚類算法耗時更短。通過搜索圖像和文本,找到特征數據,進行合并,最后通過精選將得到的結果反饋給用戶。該聚類算法能夠將復雜的圖片聚類轉換成文字聚類,工作過程簡單,工作效果好。
聚類算法流程如圖8所示。
3? 實驗研究
3.1? 實驗目的
為了檢測本文設計的基于大數據分析的混合屬性圖像冗余特征聚類系統的實際效果,與傳統聚類系統進行了對比,并分析實驗結果。
3.2? 實驗參數設置
實驗平臺及參數配置見表1。
3.3? 實驗結果
根據上述實驗參數,同時選取本文研究的聚類系統和傳統聚類系統對1 000幅混合屬性圖像冗余特征進行聚類,聚類結果比較如圖9所示。
觀察圖9可知:傳統的冗余特征聚類系統聚類數量最高值僅能達到145左右,而本文的冗余特征聚類系統聚類數量能夠達到200,圖像含有的信息十分豐富,用戶查找起來極其方便,得到的聚類結果更優。
4? 結? 語
本文利用大數據提出了一種新的混合圖像冗余特征聚類系統,該聚類系統能夠在短時間內分析出圖像不同的屬性,尋找到冗余特征,給出最優結果。本文在關鍵參數上進行了動態設計,利用IGroup聚類算法優化了聚類過程,使系統能夠實現顏色冗余特征聚類、語義冗余特征聚類。本文研究的系統雖然具備上述優點,但是提供的服務多是針對單一領域,未來該系統應該隨著人工智能技術的進步不斷深入研究,努力適應各種圖像檢索技術。
參考文獻
[1] 侯莉莎.大數據集合中冗余特征排除的聚類算法設計[J].現代電子技術,2018,41(14):48?50.
[2] 魏霖靜,寧璐璐,郭斌,等.大數據中基于熵加權的稀疏分數特征選擇聚類算法[J].計算機應用研究,2018,35(8):2293?2294.
[3] 劉先花.基于群體協同智能聚類的大數據存儲系統設計[J].現代電子技術,2017,40(23):130?133.
[4] 李珍,刁鋼,趙慧峰.基于大數據分析的學生學業分類管理體系:河北農業大學商學院新生入學成績的K?mean聚類分析[J].河北農業大學學報(農林教育版),2018,20(5):96?99.
[5] 文政穎,李運娣.一種基于模糊層次聚類分析的大數據挖掘算法[J].河南工程學院學報(自然科學版),2018,30(3):70?74.
[6] 徐源,程潛善,李陽,等.基于大數據聚類的電力系統中長期負荷預測[J].電力系統及其自動化學報,2017,29(8):43?48.
[7] 王欣剛.基于大數據分析的業務安全預警系統設計[J].廣播與電視技術,2018,45(6):123?126.
[8] 梁耘,王維慶,王海云.基于分裂?合并策略改進多特征聚類算法的風電機組故障分析[J].可再生能源,2017,35(10):1537?1543.
[9] 鄧小盾.一種基于大數據的網絡日志分析模型構建研究[J].電子設計工程,2017,25(23):97?100.
[10] 徐時芳,羅曉賓,陳陽華.基于Spark的分布式大數據分析建模系統的設計與實現[J].現代電子技術,2018,41(20):172?174.
[11] 商娟葉.基于PSO的云計算環境中大數據優化聚類算法[J].電子設計工程,2018,26(19):80?83.
[12] 趙睿,王慶嶺.基于大數據技術在線學習過程行為分析框架設計[J].蘭州石化職業技術學院學報,2017,17(4):15?18.
[13] 樊凌,龔偉.無線網絡MOOCs大數據聚類方法優化研究[J].計算機仿真,2017,33(7):435?439.