基于hadoop平臺的分布式數據挖掘系統的設計探討

2017-04-25 12:12:09陳志雄

數字技術與應用 2017年1期

陳志雄

摘要：在社會經濟快速發展的情況下，網絡信息技術的更新速度越來越快，如今，促進了大數據時代的進一步發展，而Hadoop作為分布式系統的代表，也成為大數據挖掘系統的重要組成部分之一。分布式數據挖掘系統的主要任務是利用Hadoop搭建分布式集群環境，然后在該環境上部署相應的數據挖掘任務，前提是要對分布式文件系統HDFS和MapReduce的并行編程模式原理進行深入的分析研究，同時選擇運用K-means聚類算法，使Hadoop平臺的數據挖掘系統的任務具有良好的發展效率，同時也能顯示其計算能力的擴展性能。下面就Hadoop平臺的分布式數據挖掘系統的設計進行深入的分析探討，進而促進信息數據系統的進一步發展。

關鍵詞：Hadoop平臺；數據挖掘；系統設計；K-means

中圖分類號：TP311.13 文獻標識碼：A 文章編號：1007-9416（2017）01-0179-01

1 數據挖掘的簡單概述

Hadoop是一個分布式系統基礎架構，它實現了一個分布式文件系統，具有極高的容錯性，在因特網上是最受歡迎的搜索關鍵字的內容分類工具，能夠解決許多具有伸縮性的問題，能提高文件搜索效率[1]。而數據挖掘系統是在Hadoop平臺建立的，因此，數據挖掘系統的發展與Hadoop平臺緊密結合。數據挖掘主要是在大量數據中尋找有價值的信息技術，主要由以下三個階段組成，數據準備階段，需要對大量的信息進行清理，并對數據整合，同時還對數據格式進行轉換；數據挖掘階段，根據相應的智能算法對數據進行分析，然后形成一定的數據模式；結果評估階段，主要根據挖掘出的數據模式的運行效果進行評判，對沒有任何效果的評估模式全部排除。

2 數據挖掘的主要任務與具體計算方法

2.1 數據挖掘基本任務分析

數據挖掘的任務是由大數據發展的方向決定的，同時為數據挖掘工作提供了方向，由于數據挖掘以尋找數據模式為主，并且數據模式也是隨著數據的應用領域不同而發生變化，因此，在數據挖掘期間，其任務主要分為描述性挖掘和預測性挖掘兩種。描述性挖掘任務主要根據數據的一般特征，對數據庫中的數據進行概括、總結，然后尋找數據之間的關系和類型，最終形成固定的數據模式；對于預測性挖掘主要根據接觸的數據做出相應的判斷，并加入與之相對應的新的數據的模式[2]。

2.2 數據挖掘的具體計算方法

數據聚類算法是對數據進行拆分合并同類項計算，也就是將數據項劃分為多層次的子集，對具有相似特性的數據項進行歸類，然后對同一個子集中的數據進行計算，該計算方法主要根據數據自身的特性來劃分。具體如下所示：

在數據庫B中，所有數據的集合為未知數X={X1，X2，X3……Xn}，而在許多的X中有一部分具有相似性，因而Xi（i=1，2，3……n）。其中對于一個整體集合X，被許多具有相似的X組合分割成m個子集，出現了許多的C1，C2，C3……Cn。同時每一個子集還要滿足一定的條件：①每一個子集不能為零；②所有的子集整合后必須恰好等于集合X；③每一個子集不能有共同交集；④i必須不等于零。

聚類法是數據挖掘算法的重要組成部分，而K-m eans算法是最常用的最基本的聚類算法。主要根據空間中K個中心點對相對應的數據對象進行聚類，當然這個點不是固定不變的，而是設定一個或幾個點后進行逐一的變換更新，在不斷更新分配數據時，就能尋找到符合條件的聚類結果[3]。經過長期的更新分配之后，根據數據聚類的規律總結數據模式，然后將這一模式作為數據挖掘系統的固定函數模式，在以后的數據挖掘計算中只需要代入相關的數據就可以快速獲取結果。

如上述的函數式，在數據挖掘計算中，需要對Ck固定，就可以選擇出最優的Xk；對Xk固定后，就能選擇最優的Ck，他們選擇的結果都是花費代價最小的時候。采用K-means計算法可以獲得一個最優解的值，這個值會使得挖掘的數據接近最優，并且在數據挖掘中的優勢非常的顯著。

3 結語

Hadoop是一個能夠對大數據進行分布式處理的軟件平臺，具有極高的可靠性和高效性，因而在數據挖掘系統設計方面能夠提供很好的幫助，尤其在數據挖掘計算方法方面，能夠根據數據挖掘的數據模式建立比較固定優越的計算模式。

參考文獻

[1]郭建偉，李瑛，杜麗萍，趙桂芬，蔣繼婭.基于hadoop平臺的分布式數據挖掘系統研究[J].中國科技信息，2013，13：81-83.

[2]羅剛.基于HADOOP的數據挖掘平臺分析與設計[J].電子世界，2013，18：16-17.

[3]樊龍，萬定生，顧昕辰.基于Hadoop云平臺的水利普查數據挖掘系統的設計和實現[J].計算機與數字工程，2014，05：831-834+875.