基于MapReduce和分布式緩存的KNN分類算法研究

2015-08-18 11:12:28涂敬偉皮建勇貴州大學計算機科學與信息學院貴州貴陽550025貴州大學云計算與物聯網研究中心貴州貴陽550025

網絡安全與數據管理 2015年2期

關鍵詞：分類

涂敬偉，皮建勇（1.貴州大學計算機科學與信息學院，貴州貴陽 550025；2.貴州大學　云計算與物聯網研究中心，貴州　貴陽　550025）

涂敬偉1，2，皮建勇1，2
（1.貴州大學計算機科學與信息學院，貴州貴陽 550025；2.貴州大學云計算與物聯網研究中心，貴州貴陽550025）

隨著大數據時代的到來，K最近鄰（KNN）算法較高的計算復雜度的弊端日益凸顯。在深入研究了KNN算法的基礎上，結合MapReduce編程模型，利用其開源實現Hadoop，提出了一種基于MapReduce和分布式緩存機制的KNN并行化方案。該方案只需要通過Mapper階段就能完成分類任務，減少了TaskTracker與JobTracker之間的通信開銷，同時也避免了Mapper的中間結果在集群任務節點之間的通信開銷。通過在Hadoop集群上實驗，驗證了所提出的并行化KNN方案有著優良的加速比和擴展性。

KNN分類算法；并行化；MapReduce編程模型；Hadoop；分布式緩存

0　引言

在數據挖掘中，分類算法是基礎和核心的研究內容，如何實現對事物的自動歸檔和分類是其主要的研究內容。經典的分類算法主要有決策樹、貝葉斯分類器、最近鄰、SVM、神經網絡等。這些算法在電子商務、通信、互聯網、醫療以及科學研究等領域起到了非常重要的決策支撐作用。其中，K最近鄰（KNN）分類法是一種簡潔、易實現、分類準確率較高的算法，在文本分類、圖像及模式識別等方面有著廣泛的應用。但是，隨著大數據時代對分類任務要求的提高，傳統的KNN分類算法已經不能滿足人們的需求。

針對KNN算法的時間復雜度高、運算速度慢等不足，眾多學者從不同的方向對算法進行了改進研究。比如參考文獻［1］中所提到KD樹，建立了一種對K維空間中的實例進行存儲以便對其進行快速檢索的數據結構，減少了計算距離的次數；參考文獻［2］中，通過建立低維的特征向量空間來降低計算開銷；參考文獻［3］則是通過減少訓練樣本來降低計算開銷。這些改進的算法或以犧牲算法的分類準確率為代價，或在降低樣本相似度計算代價的同時，引入了新的計算代價，同時也降低了模型易讀性。然而，Google分布式計算模型 MapReduce的提出，為KNN處理大數據集提供了一種新的可能。A-pache基金會的開源項目 Hadoop的發布，使得這種可能成為了現實。

本文簡單介紹了MapReduce編程模型，對傳統的KNN算法進行了簡單扼要的介紹和分析；提出并實現了基于MapReduce模型的并行化方案。通過實驗驗證了并行化KNN方法的高效性，并分析了其不足與以后的研究方向。

1　MapReduce編程模型

簡單地說，MapReduce［4］編程模型采用了“分而治之”的思想，將一個大而復雜的作業分割成眾多小而簡單的獨立任務，然后將這些任務分發給集群中各節點獨立執行。

在 Map和 Reduce中，數據通常以＜key，value＞鍵值對的形式存在。

MapReduce編程模型的執行過程如圖1所示。具體流程大致可分為以下幾個部分：

（1）用戶提交任務后，MapReduce首先將 HDFS上的源數據塊邏輯上劃分為若干片。隨后，將切片信息傳送給 JobTacker，并通過 Fork創建主控進程（master）和工作進程（worker）。

（2）由主控進程負責任務調度，根據數據本地化策略，為空閑的worker分配任務。

（3）在 Mapper階段，被分配到 Map任務的 worker讀取輸入數據的對應分片。Mapper與 Split是一一對應的。Mapper任務首先通過相關的函數，以行為單位，將 Split轉化為 Map能夠處理的＜key，value＞鍵值對的形式傳遞給Map，Map產生的中間鍵值對緩存在內存之中。

（4）當緩存溢出時，緩存的中間鍵值對根據用戶定義的 Reducer的個數 R，分成 R個區，并寫入本地磁盤。分區一一對應于 Reducer。Reducer會通過 master獲得相對應的分區在本地磁盤上的位置信息。

（5）Reducer階段，Reducer首先讀取與之相對應的分區數據，隨后根據鍵值對＜key，value＞的 key值對其進行排序，將具有相同 key值的排在一起。

（6）Reduce函數遍歷排序后的中間鍵值對。對于每個唯一的鍵，根據用戶重寫的 Reduce，處理與之相關聯的 value值。Reduce的輸出結果以鍵值對的形式寫入到該分區的輸出文件中。

（7）當所有的Map和 Reduce任務都完成以后，master會喚醒用戶程序，用戶程序對MapReduce平臺的調用由此返回。

圖1　MapReduce編程模型

由此可見，MapReduce為用戶提供了一個極其簡單的分布式編程模型。用戶只需關心與任務相關的Map和Reduce即可，其他的對用戶而言都是透明的。

2　KNN算法描述

K近鄰法［5］是在1968年由COVER T和HART P提出的，它沒有顯式的學習過程。分類時，對新的實例，根據其K個最近鄰的訓練實例的類別，通過多數表決等方式進行預測。所以，實際上K近鄰法是利用訓練集對特征向量空間進行劃分，并作為其分類的“模型”［6］。具體算法描述如下：

輸入數據：訓練數據集 T=｛（x1，y1），（x2，y2），…，（xN，yN）｝

其中，xi∈X?Rn為實例的特征向量，yi∈｛c1，c2，…cK｝為實例的類別，i=1，2，…N；實例特征向量x。

輸出：實例x所屬的類y

（1）計算實例x與每個訓練實例的距離；

（2）令 K是最近鄰數目，根據計算的距離度量，在訓練集中找出與x最近鄰的 K個點的集合Nk（x）；

（3）在Nk（x）中根據分類決策規則（如多數表決）決定x的類別y：

其中，I為指示函數，即當yi=cj時I為1，否則I為0。

從算法描述可以看到，算法的原理和實現非常簡單。但是，由于每判定一個輸入實例都要遍歷一次所有的訓練樣本，并計算該輸入實例到所有訓練樣本的距離，因此，對于具有海量和高維的訓練數據集以及分類任務時，K近鄰法的計算開銷會以驚人的速度增加。總的分類任務所需時間將遠遠超出人們的預期，使得K近鄰法失去了用武之地。

3　并行化KNN的分析與實現

3.1并行化KNN分析

單節點情況下，針對一個分類任務，訓練樣本和測試樣本的大小一般情況下是固定的。所有的工作量由一臺PC獨立承擔。在集群環境下，借鑒 MapReduce“分而治之”的思想，將海量的數據集進行分割，上傳至Hadoop集群的分布式文件系統HDFS。然后將大的樣本相似性計算和分類決策規則分割到存有訓練樣本的節點上進行并行處理。這是并行化KNN算法的基本思想。

一般情況下，MapReduce編程模型處理的是單一數據源的任務，比如WordCount任務。但是，KNN分類是有導師的學習，需要兩個數據源：訓練數據集和測試數據集，且要求在 Map任務開始前，能夠讀取到這兩個數據集。為了解決雙數據源的問題，本文采用了 Hadoop提供的分布式文件緩存拷貝機制［7］，它能夠在任務運行過程中及時地將文件復制到任務節點以供使用。當集群PC的內存有限、文件無法整個放入到內存中時，使用分布式緩存機制進行復試是最佳的選擇。

將測試文件散布到集群的各個節點中，將訓練數據作為邊數據分發給存有測試集的節點。在 Mapper階段，雖然每個測試樣例仍要遍歷整個訓練數據集，但是，每個 Mapper只需要完成 1/n個測試集與整個訓練集的相似性計算，如圖2（b）所示。所以在 Mapper階段，測試樣本即可獲得與訓練數據集全局的相似性。從而在本地就能夠得到測試樣例的K個最近鄰居，并根據投票選出測試樣例的類別。不需要經過 Reducer階段、集群間的數據傳輸、與 master進程之間的信息交互，進而節約任務運行的時間，提高了算法的效率。

圖2　串行和并行KNN流程對比圖

3.2并行化KNN的實現

根據上一小節的分析，只通過 Mapper就能夠完成分類任務。首先，Mapper讀取到的分片數據由 InputFormat對象，生成＜key，value＞鍵值對。其中，key為測試樣本在分片中的偏移量，value為每個樣本的內容，數據類型為Text。同時，在運行Map之前，將訓練數據上傳至 HDFS或本地文件系統，借助分布式緩存機制，將訓練集分發給每一個 slave節點，然后 Mapper通過一個靜態的方法UseDistributedCache（）實現對緩存數據的調用。之后，通過Map計算每一個測試樣本與每一個訓練樣本的距離，獲得每一個訓練樣本的類別標志；找出測試實例的K個最近鄰，根據投票得到測試實例的類別；最后將結果以＜key，value＞的形式輸出到指定的目錄。具體偽代碼如下：

輸入：＜key，value＞

輸出：＜key，String＞

ClassMapper｛

使用 UseDistributedCache（），獲得測試數據集Tests；

創建KNNnode對象 node，存儲訓練樣本與測試樣本的距離和訓練樣本的類別；

Map（key，value）｛

訓練樣本向量化，得到向量化的測試樣本 test；

遍歷本節點訓練樣本集 Trains，得到測試樣本與每一個訓練樣本的距離 distanc以及相應訓練樣例的類標示 catalog，并賦值給node對象；

通過 PriorityQueue得到與測試樣距離最近的 K個 node對象的隊列 pq；

根據投票獲得測試樣本的類c；

輸出結果output.collct（test，c）；

｝

4　實驗結果與分析

4.1實驗環境

并行化KNN實驗是在Hadoop平臺下完成的。硬件設備為6臺X86架構的PC，主設備節點采用 Intel志強四核處理器，內存為 4 GB；從設備節點采用 AMD四核處理器，主頻為2.7 GHz，內存為4 GB。

4.2實驗數據集

實驗采用標準數據集CoverType，它通過地質變量來預測森林植被覆蓋類型，是54維的7分類數據集。共有58萬個樣本，選取其中的30萬個為訓練樣本，其余的28萬個為測試實例，數據集大小為 70 MB。

4.3結果分析

實驗首先對傳統的KNN算法和本文提出的并行化KNN的運行效率進行了驗證。另外，為了驗證采用分布式緩存機制帶來的性能提升，還實現了另一種基于MapReduce的并行化 KNN方案［8］，采用內存的機制傳遞邊數據。這種方案由于受到單節點PC內存的限制，不能通過內存來傳遞訓練數據，只能將測試數據作為邊數據，由內存傳遞給 woker。因此，這種方法不僅需要經過Mapper階段，還需要經過 Reducer階段。理論上，這種方案的效率要低于采用分布式緩存機制的并行化KNN。

在分布式環境下，由于數據分布的不確定性，實驗結果具有一定的顛簸，以下實驗數據均為在多次實驗后所取得的合理值。

圖3顯示了三種算法在處理相同任務時所需要的時間。從圖中可以看到，在單臺和雙臺PC的情況下，并行化 KNN方案一（采用分布式緩存機制）和方案二（采用內存機制）并沒有表現出其高效性，反而因為需要啟動JVM以及信息交互的原因，運行時間比傳統KNN算法的時間更長。當集群的節點數大于3臺時，隨著節點數量的增加，并行化KNN的運行時間開始大幅度地減少，體現出并行化的KNN算法的高效性。

圖3　運行時間對比圖

圖4為方案一和方案二的加速比對比圖，從圖中可以看到，隨著節點數量的增加，方案二的加速比也迅速地增加，明顯優于方案一。

通過實驗得出，基于分布式緩存機制的并行化KNN算法在運行效率和擴展性上均要優于基于內存的并行化KNN。

圖4　加速比示意圖

5　結論

本文根據傳統KNN算法的特點，提出了一種基于Mapreduce和分布式緩存機制的并行化 KNN算法的實現。減少了任務執行過程中集群之間的信息交互以及中間數據的傳輸時延，從而使得本文提出并實現的并行化KNN算法在效率上有了進一步的提高。但是本文提出的并行化方案只是對傳統KNN算法最基本的并行化的實現，效率提升受到KNN算法本身特性的約束。借鑒前人的研究成果，對算法本身的K近鄰查找策略進行研究，在此基礎上實現并行化，取得更理想的效果，將是接下來研究的主要工作和方向。

［1］SAMET H.The design and analysis of spatial data structures［M］.MA：Addison-Wesley，1990.

［2］FRANKLIN M，HALEVY A，MAIER D.A first tutorial on dataspaces［J］.Proceedings of the VLDB Endowment，2008，1（2）：1516-1517.

［3］劉莉，郭艷艷，吳揚揚.一種基于基本信息單元的索引［J］.計算機工程與科學，2011（9）：117-122.

［4］DEANJ，GHENAWATS.MapReduce：simplifieddata processing on large clusters［J］.Communications of the ADM-50th Anniversary Issue：1958-2008，2008，51（1）：107-113.

［5］COVER T，HART P.Nearest neighbor pattern classification［J］. IEEE Transactions on Information Theory，1967，13（1）：21-27.

［6］李航.統計學習方法［M］.北京：清華大學出版社，2012.

［7］TOM W.Hadoop：the definitive guide（second editon）［M］. O′Reilly Media，Inc.，2011.

［8］閆永剛，馬廷淮，王建.KNN分類算法的 MapReduce并行化實現［J］.南京航空航天大學學報，2013，45（4）：550-555.

Parallelized K-nearest neighbor algorithm based on MapReduce and distributed cache

Tu Jingwei1，2，Pi Jianyong1，2
（1.College of Computer Science and Information，Guizhou University，Guiyang 550025，China；（2.Research Centre of Cloud Computing and Internet of Things，Guizhou University，Guiyang 550025，China）

With the advent of the era of big data，K-nearest neighbor algorithm′s shortcoming which high computational complexity is become more and more seriously.Through the use of distributed cache mechanism and Hadoop programming ideas provided，thispaperproposedKNNparallelizationschemebasedontheMapReduce.Theprogramonlyneedstocomplete classification tasks by Mapper stage.It reduced the communication overhead between the TaskTracker and JobTracker；on the other hand，it avoided the intermediate results Mapper overhead communication and information transfer between nodes in the cluster task. Through experiments on a Hadoop cluster，the proposed parallel KNN has a better speedup and scalability.

K-nearest neighbor algorithm；parallelization；MapReduce；hadoop；distributed cache

TP399

1674-7720（2015）02-0018-04

（2014-09-30）

涂敬偉（1987-），男，碩士，主要研究方向：海量數據挖掘。

皮建勇（1973-），男，博士，副教授，主要研究方向：數據挖掘，人工智能，分布式并行計算。

基于MapReduce和分布式緩存的KNN分類算法研究

0 引言

1 MapReduce編程模型

2 KNN算法描述

3 并行化KNN的分析與實現

4 實驗結果與分析

5 結論

0　引言

1　MapReduce編程模型

2　KNN算法描述

3　并行化KNN的分析與實現

4　實驗結果與分析

5　結論