基于N-gram特征的加權(quán)樸素貝葉斯文本分類算法

2021-09-27 16:26:20王瑛，榮麒，王勇

電腦知識(shí)與技術(shù) 2021年19期

王瑛，榮麒，王勇

摘要：樸素貝葉斯算法由于其具有簡(jiǎn)單、穩(wěn)定和高效的優(yōu)點(diǎn)，被廣泛運(yùn)用在文本分類領(lǐng)域，但由于算法所涉及屬性的獨(dú)立性和同等重要性，算法的文本分類效果并不理想。針對(duì)以上問題，該文采用一種基于N-gram特征的加權(quán)樸素貝葉斯文本分類算法的模型對(duì)5種文本進(jìn)行分類實(shí)驗(yàn)，然后將實(shí)驗(yàn)得到的準(zhǔn)確率、召回率、F1值等評(píng)價(jià)標(biāo)準(zhǔn)對(duì)模型進(jìn)行評(píng)估，并與傳統(tǒng)的樸素貝葉斯模型分類算法得到的結(jié)果進(jìn)行比較，結(jié)果表明分類效果得到較大的提升。

關(guān)鍵詞：樸素貝葉斯;N-Gram;加權(quán);文本分類

中圖分類號(hào)：TP393? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2021）19-0136-03

Weighted Naive Bayes Text Classification Algorithm Based on N-gram Features

WANG Ying， RONG Qi， WANG Yong

（School of Computers， Guangdong University of Technology， Guangzhou 510006， China）

Abstract： The Naive Bayes algorithm is widely used in the field of text classification because of its simplicity， stability and efficiency. However， due to the independence and equal importance of the attributes involved in the algorithm， the text classification effect of the algorithm is not ideal. In response to the above problems， this paper uses a weighted naive Bayesian text classification algorithm model based on N-gram features to classify five types of texts， and then compare the accuracy， recall， F1 value and other evaluation criteria obtained from the experiment to the model It is evaluated and compared with the results obtained by the traditional Naive Bayes model classification algorithm. The results show that the classification effect has been greatly improved.

Key words： Na?ve Bayes; N-Gram; weighted; text classification

1 背景

樸素貝葉斯是一種簡(jiǎn)單又高效的分類算法，并且有強(qiáng)大的數(shù)學(xué)理論背景做支撐，其在分類過程中效率穩(wěn)定，在很多領(lǐng)域表現(xiàn)出非常好的性能，被廣泛應(yīng)用于文本分類領(lǐng)域，但其用于文本分類的效果不夠理想，有很大的改進(jìn)空間。本文采用N-gram特征提取方法結(jié)合加權(quán)后的樸素貝葉斯分類算法對(duì)文本進(jìn)行分類，本文第2部分介紹了傳統(tǒng)的樸素貝葉斯文本分類算法的理論及其實(shí)現(xiàn)原理;第3部分主要介紹利用N-gram模型對(duì)文本進(jìn)行特征詞提取和利用TF-IDF模型對(duì)特征詞進(jìn)行加權(quán);第4部分介紹了本文的實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明基于N-gram特征的加權(quán)樸素貝葉斯模型相比于傳統(tǒng)的樸素貝葉斯有更好的文本分類效果。

2 樸素貝葉斯算法

樸素貝葉斯算法是一種典型以貝葉斯算法為基礎(chǔ)的分類算法，其所涉及的各個(gè)特征必須相互獨(dú)立，主要思想就是：對(duì)于給定的文本類標(biāo)簽集合C = {[c1]，[ c2]，[ c3]，….，[ cn] }以及一個(gè)待分類的文本d，計(jì)算出輸入各個(gè)類別的條件概率[Pci|d（i=1，2，…，n）]，選出最大值，其對(duì)應(yīng)的類別就是該文本所屬的類別。樸素貝葉斯文本分類公式如下：

[pci|d=argmax pcik=1m pwk|ci]

其中，先驗(yàn)概率[pci]表示文本訓(xùn)練集中[ci] 類文本的數(shù)量在所有文本訓(xùn)練集數(shù)量中所占的比重，[pwk|ci]計(jì)算公式如下：

[ pwk|ci=l=1|D|Nwk，? dl +1s=1|V|l=1|D|Nwk，? dl+∣V∣]

其中[wk]表示某一特征詞，[m]表示測(cè)試文本[d]包含的特征詞數(shù)目，文本[dl]表示文本類[ci]中的某一訓(xùn)練文本，[i=1|D|Nwk，? ci ]表示[wk]在類型為[ci]文本中的出現(xiàn)的次數(shù)，[i=1|D|Nwk，? ci]表示在類型為[ci]的文本中出現(xiàn)特征詞[wk]的總次數(shù)，[∣V∣]表示特征詞總數(shù)目，[∣D∣]表示[ci]中文本數(shù)目。其為了防止0次的特征詞對(duì)分類決策的影響，采用“拉普拉斯修正”，進(jìn)行+1平滑操作。

3 N-gram特征提取和加權(quán)

3.1 N-gram特征提取

N-gram模型是基于統(tǒng)計(jì)語(yǔ)言的模型，它的基本思想是將文本內(nèi)容滑動(dòng)到N個(gè)字節(jié)大小的滑動(dòng)窗口中，形成N個(gè)字節(jié)長(zhǎng)度的片段序列。每個(gè)字節(jié)片稱為一個(gè)gram，對(duì)所有g(shù)ram片段執(zhí)行詞頻統(tǒng)計(jì)，并根據(jù)設(shè)置的閾值將詞頻較低的特征進(jìn)行過濾操作，最后形成關(guān)鍵字gram列表，即文本的特征向量空間。

電腦知識(shí)與技術(shù)2021年19期

電腦知識(shí)與技術(shù)的其它文章: 應(yīng)用型本科院校電氣工程專業(yè)校企合作創(chuàng)新創(chuàng)業(yè)教育基地建設(shè)研究與實(shí)踐; 基于OBE的《C語(yǔ)言程序設(shè)計(jì)》教學(xué)模式探索; 高職院校 “十四五”信息化發(fā)展規(guī)劃思路研究; 人工智能時(shí)代計(jì)算機(jī)專業(yè)人才培養(yǎng)模式研究; 在線教學(xué)研究熱點(diǎn)與前沿; 《網(wǎng)絡(luò)開發(fā)技術(shù)》課程“金課”建設(shè)與路徑研究