于蘋蘋,倪建成,韋錦濤,曹 博,姚彬修
(1.曲阜師范大學 信息科學與工程學院,山東 日照 276826;2.曲阜師范大學 軟件學院,山東 曲阜 273100)
隨著Internet技術以及社交媒體的發展,文本信息規模越來越大,如何高效地在海量文本信息中挖掘出有價值的信息成為當前的研究熱點[1]。文本分類技術作為文本處理的關鍵技術,在提高信息檢索、利用等方面應用廣泛。當前,使用較多的分類算法有樸素貝葉斯、支持向量機(support vector machine,SVM)、K-最近鄰(K-nearest neighbor,KNN)等[2]。由于KNN分類算法具有穩定性強、準確率高等優點,在數據挖掘領域得到了廣泛應用[3]。
近年來,國內外學者對KNN分類算法的準確率和分類效率進行了深入研究。在準確率上,文獻[4]在傳統KNN文本分類算法的基礎上提出了一種基于關聯分析的KNN改進算法,能夠較好地確定K值,降低時間復雜度。文獻[5]提出了一種基于KNN文本分類的偽裝入侵檢測方法,使得有區分性的命令權重增大,有利于更準確地表示用戶的行為特征。在時間效率方面,Deng等[6]使用K-means方法對大規模訓練集進行聚類裁剪,從而減少相似度的計算,提高分類效率。同時,有研究者將KNN算法應用于分布式平臺,進一步提高分類效率。如文獻[7]將SVM分類算法與KNN分類算法相結合,利用Hadoop云計算平臺實現算法并行化。Anchalia等[8-9]依托MapReduce框架實現了KNN分類算法的并行化,縮短了分類時間。MapReduce框架[9]利用并行分布式計算模型對數據進行處理,是有效處理大數據集的關鍵所在。但研究人員在實驗中發現MapReduce在Hadoop[10]中具有限制性[11]:MapReduce在執行過程中,每輪作業都需要重新啟動,開銷過大;……