王貴新,鄭孝宗,張浩然,張小川
(1.重慶工程學院 軟件學院,重慶 402260;2.重慶理工大學 計算機學院,重慶 400054)
?
基于Word2vec的短信向量化算法
王貴新1,鄭孝宗1,張浩然1,張小川2
(1.重慶工程學院 軟件學院,重慶402260;2.重慶理工大學 計算機學院,重慶400054)
摘要針對目前垃圾短信過濾效果有待提高的問題,提出一種新的短信特征提取方法。該方法采用了建立在深度學習理論基礎上的最新成果和Word2vec工具。基于中文短信的內容和結構特點,利用該工具設計了一個短信向量化算法。該算法能有效地將每條短信與一個向量對應,在深度置信網絡上利用該算法對垃圾短信進行分類實驗。實驗結果表明,推廣性能比已有報道結果提高了約5%。
關鍵詞深度置信網絡;深度學習;短信;向量化
目前垃圾短信治理主要采用軟件自動過濾和人工干預[1-5]。但這些學習和過濾算法目前已經不能很好適應機器學習環境,特別是深度學習算法理論的完善和應用發展,為機器學習提供了廣闊空間[6]。
垃圾短信的自動過濾系統,一般采用多分類器的組合,使得分類效果更佳。在這過程中,短信特征的分析和提取是非常重要的環節[5]。本文將利用深度學習的理論工具Word2vec,研究短信特征提取的新算法,并將該算法采用深度置信網絡(DBN)進行了驗證,取得了較好的分類效果。
實驗樣本來源于以前所做垃圾短信智能分類系統項目所收集的大約有三百萬條短信。處于保護個人隱私目的,該樣本內容沒有主、被叫號碼、短信時間等信息。……