劉潤虎 張寧 黃璜 鄔學東
摘 要:Hadoop云平臺在各個領域當中都有著極其廣泛的應用,結合云計算技術等,對相關數據管理水平的提升具有重要價值。因此,本文就基于Hadoop云平臺的海量數字圖像數據挖掘進行有效分析,簡要介紹了數字圖像處理流程中的預處理與特征空間構建兩個環節;然后,對海量數字圖像數據挖掘系統構建的硬件設備、軟件環境、繼承開發平臺等構建進行了細致分析。
關鍵詞:Hadoop云平臺 數字圖像 數據挖掘
中圖分類號:TP393 文獻標識碼:A 文章編號:1674-098X(2017)11(b)-0113-02
數據挖掘就是在相關數據庫、信息庫等存儲的海量數據當中提取有效知識的過程,這些知識本身具有一定的未知性、實用性以及有效性,隱藏于大量數據當中,需要通過尋找信息庫中數據之間的聯系來進一步有效獲取到所需知識。而Hadoop云平臺作為一種開源的分布式計算平臺,能夠為數據挖掘提供有效支撐,基于Hadoop云平臺的海量數字圖像數據挖掘,利用其HDFS系統與Map Reduce框架,更容易實現。
1 數字圖像數據挖掘流程分析
數字圖像數據挖掘的整個流程如圖1所示,其中的主要流程包括數據預處理與特征空間構建兩個環節。
1.1 數據預處理
基于Hadoop云平臺的海量圖像數據挖掘過程需要以數據預處理的有效實現為基礎,在這一過程中,首先應明確針對圖像數據預處理的必要性。在正式展開挖掘之前,對圖像數據進行預處理,能夠避免原信息庫中的圖像數據中存在的病毒等臟數據或已經損壞的數據影響數據挖掘過程的順利性。例如,數據庫中存在的分辨率極低的圖片、無法打開的被破壞的圖像信息,若未對其進行預處理就直接展開數據挖掘,則會使數據挖掘古城陷入混亂,形成不可靠、無意義的輸出,影響挖掘效率與質量。一般來說,針對圖像數據的預處理包括圖像數據選擇、清理以及檢查。
1.2 數據特征空間構建
構建圖像數據特征空間立方體,能夠方便對大型的圖像信息庫進行多為分析,在進行圖像提取的過程中,可將其分為兩個層次,其一是底層特征提取,其二是高層特征提取[1]。其中,高層特征提取,多基于語義的層次高度;包括行為分析與人臉識別等在內的特征則都要通過底層特征提取。圖像數據底層特征是圖像分析的基礎部分,其中的顏色、文理與形狀的計算表簡單、性能穩定特定更加突出。
除此之外,圖像文件名稱、尺寸、創建時間、格式、文件描述中的關鍵字也可以作為圖像文件特征,通過有效收集構建特征立方體,將其用于后續數據挖掘的處理,顯著提升數據挖掘效率與質量。
2 數字圖像數據挖掘系統構建
2.1 硬件設備構建
Hadoop云平臺構建過程中,相關節點的選擇都以普通硬件廠商生產的標準化商業計算機。由此種硬件設備相比與低端計算機以及大型數據庫級別的計算器,性能與性價比都更符合相關應用需求。基于Hadoop平臺的海量數字圖像數據挖掘系統,同樣可選擇這種商用計算機,其基本硬件配置如下:4×1TB的SATA硬盤作為存儲器;兩個四核CPU作為處理器,其頻率應達到2~2.5GHz之間;16~24GB內存的DRAM,應具備查錯與糾錯的功能。有效選取節點之后,還應對滿足其通信需求的交換機進行選擇,以1GB為宜,系統內部網絡則以千兆以太網為宜。
2.2 軟件環境構建
Hadoop云平臺的主體語言是Java,同時也是其運行基礎,在任何具備JVM的平臺上都能夠正常運行,但需要注意的是,控制腳本一類的代碼需要為其建立Unix環境才能順利執行,所以Hadoop云平臺無法在非Unix平臺上運行。建立基于Hadoop云平臺的數字圖像數據挖掘系統,可采用Ubuntu Linux系統為各個商業計算機節點的相關操作提供支持。
構建完整、有效的軟件環境,需要相關節點完成以下步驟:(1)有效安裝Java,建議采用JDK,以滿足Hadoop平臺的運行需求;(2)建立統一的賬號形式的Hadoop云平臺用戶賬號,由此能夠區別本機與Hadoop云平臺之間的不同服務,同時方便整個系統的有效管理;(3)以實際IP地址的分配狀況進修改節點配置文件;(4)安裝協議軟件,Hadoop云平臺的控制腳本依賴SSH協議軟件,需要通過密鑰對,配置無密碼的SSH登錄。
完成上述步驟之后,再進一步搭建海量數據挖掘系統Hadoop云平臺。搭建過程中,采用H Base作為分布式開源數據庫,在Hadoop分布式文件系統的基礎之上,所提供的全部功能與Google文件系統中Big Table數據庫相似。此種數據庫的應用,其主要目的是處理較為龐大的表,將其應用與普通計算機當中,能夠快速處理約10億行的數據,另外,該數據庫中存在的由數百萬列元素構成的表,能夠充分滿足海量數字圖像數據挖掘對Hadoop云平臺的運行需求。
采用Hive設計一個分布式數據倉庫,能夠在數據挖掘過程中提供一些簡單的數據操作,例如,在數據查詢操作這一部分,與SQL語法相似的Hive SQL語言的數據查詢[2]。當Hive SQL語言能力存在不足時,基于Hive的分布式數據倉庫能夠允許使用Hadoop云平臺中的Map Reduce框架,建立并行計算模型,針對復雜數據進行有效分析。
Hadoop云平臺軟件環境的成功構建,部署Hive或H Base都能達到相應效果,對存儲于Hadoop云平臺上HDFS系統中的海量數字圖像數據進行全面、有效的管理。
2.3 集成開發平臺構建
基于Hadoop云平臺的海量數字圖像數據挖掘系統,采用Eclipse集成開發平臺,往往能夠時相關程序編寫、測試、運行等操作更加的簡便,在上述Hadoop平臺的軟件環境下,應用Eclipse Map Reduce plugins,能夠實現對開發環境的圖形化處理,從而顯著降低開發難度。
2.4 Map Reduce程序編寫
編寫Map Reduce程序是數據挖掘得以實現的重要前提,以現階段的云平臺技術來看,Map Reduce程序的編寫過程多依賴于一個模板,若要進行新的Map Reduce程序編寫,則就要對相關數據流進行全面的認識,明確相應的鍵值對類別。一般來說,基于Hadoop云平臺的海量數字圖像數據挖掘系統中,采用Image值類型、Text鍵類型,就能滿足相關設計要求。常規的Map Reduce程序共包含3個部分,即reduce函數、map函數與作業驅動程序;其中reduce函數在執行Reduce任務時被調用,在執行Map任務時,則調用相應的map函數,而作業驅動程序則被用于配置初始化作業的過程當中。
3 結語
綜上所述,對基于Hadoop云平臺的海量數字圖像數據挖掘的相關分析,有利于提升現階段對數字圖像數據的處理技術。通過相關挖掘系統的完善建立,能夠有效實現圖像知識的全面挖掘處理,從而為人們提供更加豐富的服務類型,解決數字圖像信息挖掘。在未來針對海量數字圖像數據的挖掘處理,應重視Hadoop云平臺的有效利用,從而推動信息系統建設與應用的價值提升。
參考文獻
[1] 蔣春燕.基于Hadoop技術的圖像視頻處理的研究與應用[D].華僑大學,2016.
[2] 趙洋,潘曉鴿.基于Hadoop云平臺的海量數據信息處理的設計[J].河南科技,2014(9):11.endprint