邵葉秦
摘要:為了從大量的電子郵件中檢測垃圾郵件,提出了一個基于Hadoop平臺的電子郵件分類方法。不同于傳統的基于內容的垃圾郵件檢測,通過在MapReduce框架上統計分析郵件收發記錄,提取郵件賬號的行為特征。然后使用MapReduce框架并行的實現隨機森林分類器,并基于帶有行為特征的樣本訓練分類器和分類郵件。實驗結果表明,基于Hadoop平臺的電子郵件分類方法大大提高了大規模電子郵件的分類效率。
關鍵詞:Hadoop;MapReduce;大規模;垃圾郵件;分類
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)34-8119-03
隨著 Internet的迅速發展,電子郵件已經逐漸演變成了一種快捷、經濟、有效的通信方式,并且得到了廣泛使用。然而,作為其副產品的垃圾郵件不斷泛濫,不僅占用網絡帶寬和服務器資源,耗費用戶的精力和時間,而且傳播危險的病毒和散播不實信息,給運營商、用戶和社會都帶來了不良影響,解決垃圾郵件問題已成為人們迫切的要求。
然而郵件數據數量龐大,這使得在單機上實施郵件分類往往需要消耗大量的、甚至不可承受的時間和資源。這啟發我們使用Hadoop [1]平臺,利用MapReduce [2]計算模型將算法并行化,從而提高郵件分類的效率。
1 Hadoop技術
Hadoop是一個可以處理海量數據的分布式開源計算平臺。它通過高容錯性、高伸縮性的分布式文件系統Hadoop Distributed Filesystem [3]部署在普通的硬件設備上,通過分布式的MapReduce框架簡單、快速的開發運行于普通計算機上的并行應用。
MapReduce[5]主要有Map操作和Reduce操作組成。Map操作負責把一個任務分解成多個任務進行處理,Reduce操作負責匯總分解后的多個任務的處理結果?!?br>