檀亞寧 劉宏玉 王子浪

摘要:自然語言處理是目前智能科學領域中的一個非常熱門的方向,文本的分類同樣也是自然語言處理中的一項關鍵的技術。隨著深度學習發展,樸素貝葉斯算法也已經在文本的分類中取得到了良好的分類效果。本文針對短文本的分類問題,首先對短文本數據進行了預處理操作,其中包括中文分詞、去除停用詞以及特征的提取,隨后闡明了樸素貝葉斯算法構建分類器的過程,最后將樸素貝葉斯算法與邏輯回歸和支持向量機分類算法的分類效果進行了對比分析,得出樸素貝葉斯算法在訓練所需的效率上及準確率上有較為優異的表現。
關鍵詞:自然語言處理文本分類機器學習樸素貝葉斯
引言
文本分類問題是自然語言處理中的一個非常經典的問題。文本分類是計算機通過按照一定的分類標準進行自動分類標記的有監督學習過程。在文本特征工程中,和兩種方法應用最為廣泛[1] 。在分類器中,使用普遍的有樸素貝葉斯,邏輯回歸,支持向量機等算法。其中樸素貝葉斯是基于貝葉斯定理與特征條件獨立假設的分類方法,有著堅實的數學基礎,以及穩定的分類效率。基于此,本文采用基于的特征提取的樸素貝葉斯算法進行文本分類,探求樸素貝葉斯算法在短文本分類中的適用性。
1數據預處理
1.1中文分詞
中文分詞是指將一個漢字序列切分成一個個單獨的詞。中文分詞是中文文本處理的一個基礎步驟,也是對中文處理較為重要的部分,更是人機自然語言交流交互的基礎模塊。在進行中文自然語言處理時,通常需要先進行中文分詞處理[2] 。
1.2停用詞處理
去除停用詞能夠節省存儲空間和計算時間,降低對系統精度的影響。對于停用詞的處理,要先對語料庫進行分詞、詞形以及詞性的類化,為區分需求表述和信息內容詞語提供基礎。去停用詞后可以更好地分析文本的情感極性,本文采用廣泛使用的哈工大停用詞表進行去停用詞處理。
1.3特征提取
文本數據屬于非結構化數據,一般要轉換成結構化的數據,一般是將文本轉換成“文檔-詞頻矩陣”,矩陣中的元素使用詞頻或者。它的計算為,
某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低詞語頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。
2模型的建立
2.1貝葉斯理論
樸素貝葉斯分類器是一系列以假設特征之間強(樸素)獨立下運用貝葉斯定理為基礎的簡單概率分類器[3] 。
構成文本的有意義的單元是詞語,文本的類別和文本出現的詞語是有關聯性的。假設文本可以用一組能表示文本類別的特征詞來表示,可以把這組特征詞定義成文本的特征向量。假設訓練樣本集中有個不同的類別,,,…,要確定特征向量屬于哪個類別,只需要計算每個類別的條件概率,選取概率值最大的類別作為文本的類別[4] 。根據貝葉斯定理可得文本分類函數:
3實驗及結果分析
3.1實驗結果
經過對比分析不同種類分類器效果,后進行十折交叉驗證取平均值,實驗結果如下表。
3.2結果分析
綜合表1中的準確率和F1值可以看出,樸素貝葉斯模型在準確率和F1值與邏輯回歸和支持向量機分類器相比都較高。而且在訓練時間上,樸素貝葉斯在有更為優異的表現。
4結論
本文在研究短文本分類方法的基礎上,使用了樸素貝葉斯模型作為分類器,進行了文本分類的實驗。通過基于的特征提取,十折交叉驗證后取平均值準確率可以到達91.95%,F1值為0.91,得到了樸素貝葉斯分類器這一方法在短文本分類上具有較好的適用性的結果。
參考文獻:
[1] 孟濤,王誠.基于擴展短文本詞特征向量的分類研究[J/OL].計算機技術與發展.
[2] 紀明宇,王晨龍,安翔,牟偉曄.面向智能客服的句子相似度計算方法[J/OL].計算機工程與應用.
[3] 黃勇,羅文輝,張瑞舒.改進樸素貝葉斯算法在文本分類中的應用[J].科技創新與應用.
[4] 丁月,汪學明.一種基于改進特征加權的樸素貝葉斯分類算法[J/OL].計算機應用研究.
(作者單位:華北理工大學理學院)