雷宇
(長江職業學院數據信息學院,湖北 武漢 430074)
在網絡技術應用愈發廣泛的社會背景下,相關大數據技術的研究已成為了社會中的焦點問題,如何有效處理大規模數據量已成為技術產業的研究重點。尤其在現代化社會背景下,商業技術、生產技術、經營技術不斷更新,導致社會中可用的數據量顯著性提升。面對海量增長的數據集合,若不及時采用有效的處理方式,不僅會使數據存儲出現負荷危險,甚至會在一定程度上造成對數據使用的低效率性[1]。為此,本文引進分布式KNN分類器,使用k-近鄰算法,設計一種大數據分類處理方法,確保對價值數據集合的有效聚類。
在設計大數據分類處理方法的過程中,引進分布式KNN分類器,對大數據回歸任務進行聚類處理。在此過程中,可借鑒分類器運行中的KNN算法,將其定義為一種非參數計算方法[2]。假定參與訓練的大數據樣本集合表示為Ds,參與測試的大數據樣本集合表示為Ts,每個樣本集合中的數據量均表示為n,樣本數表示為t。此時,可認為集合中的每一個數據樣本均為一個多元特征的數據組[3]。表達公式如下。

公式(1)中:p表示為樣本對應屬性;ω表示為樣本數據所屬類別。假定數據樣本的對應空間表示為D,則對于訓練大數據樣本集合Ds而言,Ds的ω屬于一個已知項;Ts的ω屬于一個未知項。
此時,使用KNN算法對未知項進行檢索,以歐幾里德距離作為度量的標準,選擇K個升序樣本值,對大數據樣本集合進行聚類處理。處理過程中,設定樣本集合的復雜度表示為n×D,每個樣本均存在k個近鄰點,結合近鄰點的數量,對距離進行計算,并將最終的計算結果作為大數據樣本聚類的結果[4]。此過程可用如下計算公式表示。

公式(2)中:hloss(h)表示為大數據樣本聚類結果(/距離計算結果);xi表示為漢明損失量i;Y表示為升序樣本值;q表示為樣本標簽長度;h表示為歐幾里德距離度量單位,導出計算結果,完成對于分布式KNN分類器的大數據回歸任務聚類處理。
在完成上述相關處理的基礎上,結合MR框架,對大數據樣本集合進行分類處理。流程如下圖1所示。

圖1 整合MR框架的大數據分類處理流程
按照上述圖1所示的流程,在進行大數據分類處理的過程中,可定義一個value處理鍵,將待分類的樣本數據進行Map映射處理,完成映射處理后的數據樣本集合通常可作為直接樣本數據,即存在任意一個處理分區,可實現對任意鍵進行關聯分類處理。而提出的Map映射鍵通常需要應用在一個指定中間key上,即與value處理鍵進行配對,當匹配結果存在顯示存在關聯性,即可認為鍵位具備對應分類特征,便可直接將此鍵位與value處理鍵連接,完成配對。當匹配結果存在顯示不存在關聯性時,即可認為鍵位不具備對應分類特征,需要對大數據樣本集合進行持續篩選,只有篩選結果滿足Map映射關系時,或映射鍵通常位于指定中間key上時,即可認為樣本數據集合與其具備一定的直接關聯,此時便可執行對樣本的分類處理。綜合上述分析,完成對大數據分類處理方法的設計。
在完成上述對基于分布式KNN分類器的大數據分類處理方法設計后,本文提出下述對比實驗,希望通過設計對比實驗的方式,證明本文設計方法的有效性。在本文設計的此次實驗中,選擇Higuust;Guiggi;Caggerts;A-hugs;B-reasts五個大數據集合作為此次實驗的數據樣本。上述提出的數據集合中不僅涉及了大量的實例性內容,同時也涵蓋了大量對集合的描述性數據內容。對提出的大數據集合進行描述。
上述提出的大數據樣本集合U型均符合交叉對比實驗需求,隨機選擇樣本數據集合中的85.0%的數據信息作為實驗數據(/訓練樣本),剩余數據樣本則作為對測試數據。本次實驗在互聯網支撐下進行,設定主分類節點上包括5個信息節點,即每組數據均可被劃分為5類,信息節點采用Ei2.0-2560處理器進行處理。除上述提出的實驗要求,與實驗環境相關的參數可用如下表1表示。

表1 實驗環境布設
在完成對實驗環境的布設后,分別采用本文設計的基于分布式KNN分類器的大數據分類處理方法與傳統分類處理方法,對測試樣本集合進行分類處理。將漢明指數、加速比值、分類時間等多項參數作為評估方法的依據,執行對比實驗。結果如下表2所示,實驗結果以本文方法/傳統方法表示。
表2中,F表示為方法應用價值,如上述表3所示的實驗結果,看出本文大數據分類處理方法,在實際應用中,無論是在處理中的漢明損失,或是分類處理時長、加速比值等方面,其優勢顯著高于傳統方法。為此,得出本文此次對比實驗的結果:本文設計的大數據分類處理方法,具有更高的處理效率、更低的數據損失率,相比傳統的方法,本文方法更優[5]。

表2 對比實驗結果
本文使用分布式KNN分類器,利用KNN算法,從聚類大數據回歸任務、整合MR框架的大數據分類處理流程兩個方面,完成對大數據分類處理方法的設計。并通過對比實驗得出最終結論:相比傳統的大數據分類處理方法,本文設計的大數據分類處理方法,具有更高的處理效率、更低的數據損失率,整體應用價值相對較高。