王瑛,榮麒,王勇



摘要:樸素貝葉斯算法由于其具有簡單、穩定和高效的優點,被廣泛運用在文本分類領域,但由于算法所涉及屬性的獨立性和同等重要性,算法的文本分類效果并不理想。針對以上問題,該文采用一種基于N-gram特征的加權樸素貝葉斯文本分類算法的模型對5種文本進行分類實驗,然后將實驗得到的準確率、召回率、F1值等評價標準對模型進行評估,并與傳統的樸素貝葉斯模型分類算法得到的結果進行比較,結果表明分類效果得到較大的提升。
關鍵詞:樸素貝葉斯;N-Gram;加權;文本分類
中圖分類號:TP393? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)19-0136-03
Weighted Naive Bayes Text Classification Algorithm Based on N-gram Features
WANG Ying, RONG Qi, WANG Yong
(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: The Naive Bayes algorithm is widely used in the field of text classification because of its simplicity, stability and efficiency. However, due to the independence and equal importance of the attributes involved in the algorithm, the text classification effect of the algorithm is not ideal. In response to the above problems, this paper uses a weighted naive Bayesian text classification algorithm model based on N-gram features to classify five types of texts, and then compare the accuracy, recall, F1 value and other evaluation criteria obtained from the experiment to the model It is evaluated and compared with the results obtained by the traditional Naive Bayes model classification algorithm. The results show that the classification effect has been greatly improved.
Key words: Na?ve Bayes; N-Gram; weighted; text classification
1 背景
樸素貝葉斯是一種簡單又高效的分類算法,并且有強大的數學理論背景做支撐,其在分類過程中效率穩定,在很多領域表現出非常好的性能,被廣泛應用于文本分類領域,但其用于文本分類的效果不夠理想,有很大的改進空間。本文采用N-gram特征提取方法結合加權后的樸素貝葉斯分類算法對文本進行分類,本文第2部分介紹了傳統的樸素貝葉斯文本分類算法的理論及其實現原理;第3部分主要介紹利用N-gram模型對文本進行特征詞提取和利用TF-IDF模型對特征詞進行加權;第4部分介紹了本文的實驗,實驗結果表明基于N-gram特征的加權樸素貝葉斯模型相比于傳統的樸素貝葉斯有更好的文本分類效果。
2 樸素貝葉斯算法
樸素貝葉斯算法是一種典型以貝葉斯算法為基礎的分類算法,其所涉及的各個特征必須相互獨立,主要思想就是:對于給定的文本類標簽集合C = {[c1],[ c2],[ c3],….,[ cn] }以及一個待分類的文本d,計算出輸入各個類別的條件概率[Pci|d(i=1,2,…,n)],選出最大值,其對應的類別就是該文本所屬的類別。樸素貝葉斯文本分類公式如下:
[pci|d=argmax pcik=1m pwk|ci]
其中,先驗概率[pci]表示文本訓練集中[ci] 類文本的數量在所有文本訓練集數量中所占的比重,[pwk|ci]計算公式如下:
[ pwk|ci=l=1|D|Nwk,? dl +1s=1|V|l=1|D|Nwk,? dl+∣V∣]
其中[wk]表示某一特征詞,[m]表示測試文本[d]包含的特征詞數目,文本[dl]表示文本類[ci]中的某一訓練文本,[i=1|D|Nwk,? ci ]表示[wk]在類型為[ci]文本中的出現的次數,[i=1|D|Nwk,? ci]表示在類型為[ci]的文本中出現特征詞[wk]的總次數,[∣V∣]表示特征詞總數目,[∣D∣]表示[ci]中文本數目。其為了防止0次的特征詞對分類決策的影響,采用“拉普拉斯修正”,進行+1平滑操作。
3 N-gram特征提取和加權
3.1 N-gram特征提取
N-gram模型是基于統計語言的模型,它的基本思想是將文本內容滑動到N個字節大小的滑動窗口中,形成N個字節長度的片段序列。 每個字節片稱為一個gram,對所有gram片段執行詞頻統計,并根據設置的閾值將詞頻較低的特征進行過濾操作,最后形成關鍵字gram列表,即文本的特征向量空間。