[葉志雄 朱麗芳 劉鋼庭 李啟文 王丹弘]
基于Hadoop平臺的內容相似度與PageRank的垃圾短信識別融合模型
[葉志雄 朱麗芳 劉鋼庭 李啟文 王丹弘]
垃圾短信 Hadoop 內容相似度 PageRank 貝葉斯
葉志雄
男,中國移動通信集團廣東有限公司,主要從事垃圾短信治理工作。
朱麗芳
女,中國移動通信集團廣東有限公司,主要從事不良信息治理工作。
劉鋼庭
男,中國移動通信集團廣東有限公司,主要從事信息安全管理工作。
李啟文
男,中國移動通信集團廣東有限公司,主要從事信息安全管理工作。
王丹弘
男,中國移動通信集團廣東有限公司,主要從事信息安全管理工作。
筆者所在省級運營商的客戶數目已達1.2億多,短信作為海量客戶間傳遞信息的載體,為彼此間的溝通架起有效的通道。短信在創造經濟效益和社會效益的同時,少數不法分子利用短信進行欺詐、傳播不實信息,給運營商帶來了嚴重的社會代價和文化損失。
文獻[1]對語料分詞和統計,通過選擇信息增益較大特征進行降維,結合樸素貝葉斯算法,減少個別特征對結果的干擾。文獻[2]首先分析垃圾短信的供需問題,基于短信內容和短信發送渠道2個方面,分別提出非對稱二維評判矩陣和分層分級治理策略,發現垃圾短信中的廣告類短信比重最大,詐騙和色情類短信的危害最嚴重。文獻[3]構建垃圾短信用戶識別指標體系,通過建立隨機森林模型對垃圾短信用戶精準識別。文獻[4]構建基于獨立空間布隆過濾器的垃圾短信過濾系統,并給出系統結構,實驗說明在允許一定“假陽性”誤報率的條件下,該系統可以有效節省資源,提升識別性能。……