張燕麗(廣東農工商職業技術學院,廣東,510507)
基于云平臺的海量數字圖像數據挖掘探討
張燕麗
(廣東農工商職業技術學院,廣東,510507)
本文借助云平臺Hadoop的分布式文件系統(HDFS)和分布式并行計算框架(MapReduce),來進行海量數字圖像的數據挖掘。構建了基于Hadoop云平臺的海量數字圖像數據挖掘系統,實現海量數字圖像信息數據挖掘。
云計算;數據挖掘;Hadoop;MapReduce
數據挖掘就是指從存放在數據庫、數據倉庫或其他信息庫中的大量數據中提取或“挖掘”知識,這些知識具有未知性、有效性和實用性。由于知識事先不為人們所知,而是隱藏于大量數據之內,如何通過尋找數據間潛在的關聯,挖掘出隱藏于大量數據之內的知識,數據知識的挖掘的具體過程如圖1所示。

圖1 數據知識的挖掘過程圖
Hadoop云平臺一個是包括分布式文件系統(HDFS)和分布式并行計算框架(MapReduce)為核心的開源分布式的計算平臺。用戶可以利用Hadoop輕松地組織計算機資源,Hadoop云平臺為不同的用戶提供了編程環境。用戶可以根據需要,構建自己的Hadoop計算云平臺,另外,云平臺還為用戶提供了方便可以隨時充分利用的集群的計算和存儲能力,可以有效地解決海量數據的處理問題。MapReduce是一個軟件框架,可以高效地處理大規模的數據集,是一種可靠容錯的并行處理方式。MapReduce中的并行計算模式,可以對需要任務的處理分為Map(映射)和Reduce(規約)兩個階段。Hadoop云平臺的項目結構如2所示。

圖2 Hadoop項目結構
3 圖像數據信息的挖掘流程
作為多媒體數據挖掘的一個分支——數字圖像數據信息挖掘,其挖掘的具體流程包括:圖像數據的預處理,在對圖像數據信息進行數據挖掘前,首先要預處理,對預處理后的圖像數據信息的特征,進行提取出,根據提取出的圖像數據信息的特征,對提取的圖像數據,來構建數據特征空間。然后根據提取的圖像特征對來進行圖像數據信息的分類,從中挖掘出知識與規則,可以用得到的知識與規則來預測未來的信息。在多維分析圖像數據信息中,根據圖像的形狀、紋理、顏色等來構建多維的數據特征,然后依據多維的數據特征來進行綜合分析。另外,根據數據圖像多特征構成的特征、數據圖像的顏色直方圖的特征和基于小波的帶有區域粒度的特征,對圖像數據信息進行相似性檢索。同時,可以依據圖像的特征,完成運用關聯規則對圖像數據信息進行挖掘。運用以上數據挖掘方法從原始圖像數據信息中挖掘出有價值的信息規則與模式。對挖掘發現的信息規則與模式,還需要進行模式提取、知識表達和知識推理,最后得到所需要的知識與規則。要實現圖像數據信息的挖掘,是一項需要綜合應用各類知識與技術才能實現的復雜的工程。
隨著每天海量數字圖像的產生,要挖掘出有用的知識信息,需要其超大的存儲空間,Hadoop云平臺可以處理TB級數據。如何快速高效地解決海量圖像數據的存儲和計算,是目前要解決的問題。Hadoop云平臺的分布式文件系統(HDFS)和分布式并行計算框架(MapReduce)能夠滿足整個挖掘系統的需求。對數字圖像的數據挖掘,因其存儲數據格式的不同,需要分別利用不同的處理技術來解決格式問題。因此,基于Hadoop云平臺,構建海量數字圖像數據挖掘系統。
在云平臺下運用圖像并行化處理技術,用HBase和Hive存儲和管理海量圖像數據,map的功能是對海量圖像數據首先進行圖像的預處理和圖像特征的提取,reduce 根據提取到的圖像特征,對同類圖像特征進行數據挖掘,從而實現了通過MapReduce 程序從它們中獲得圖像數據并處理。最終輸出保存獲得的挖掘知識與規則。因此,在Hadoop云平臺下,對海量圖像數據進行挖掘,利用分布式文件系統(HDFS)和分布式并行計算框架(MapReduce),可以有效地解決了對海量圖像數據信息的存儲和計算的難題。
在Hadoop中MapReduce來進行海量圖像數據挖掘,了解數據流,設計所需的鍵值對類型。MapReduce程序由用戶定義的 map 函數、reduce函數和作業驅動程序三部分組成,在MapReduce計算框架中,Hadoop將輸入數據劃分成等長的作業分片,在Map任務執行時調用map 函數,每個Map任務處理一個作業分片,這些Map任務是并行執行的。Hadoop又將每個作業分片劃分為多個相同的鍵值對,每個Map任務對該分片中每個鍵值對再調用map函數來進行處理。在Reduce任務執行時被調用reduce函數,作業驅動程序用于初始化作業的配置。本系統把一個圖像文件作為一個作業分片,再把整個作業分片作為一個鍵值對來處理。這樣每個Map任務只需調用一次map函數來處理一個圖像文件,進而實現多個圖像文件的并行化處理。
文章利用Hadoop云平臺構建了基于Hadoop云平臺的海量數字圖像數據挖掘系統,利用Hadoop云平臺來進行海量數字圖像數據的信息的挖掘,挖掘海量數字圖像數據的有用信息為人們的不同需要服務,有效解決了網絡中海量數字圖像信息挖掘。
范明譯.數據挖掘——概念與技術[M].北京:機械工業出版社,2001.
Exploration on the Digital Image Data Mining Based on the Cloud platform
Zhang Yanli
(Guangdong AIB Polytechnic College,Guangdong,510507)
In this paper,by means of the cloud platform Hadoop distributed file system(HDFS)and distributed parallel computing framework(graphs),for huge amounts of digital image data mining.Build a huge amounts of digital image based on Hadoop cloud platform data mining system,realize the huge amounts of digital image information data mining.
cloud computing;Data mining;Hadoop;graphs
A
TP311
張燕麗(1975-),女,河南鄭州人,講師,研究方向:計算機應用