999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于N-gram特征的加權(quán)樸素貝葉斯文本分類算法

2021-09-27 16:26:20王瑛,榮麒,王勇
電腦知識(shí)與技術(shù) 2021年19期

王瑛,榮麒,王勇

摘要:樸素貝葉斯算法由于其具有簡(jiǎn)單、穩(wěn)定和高效的優(yōu)點(diǎn),被廣泛運(yùn)用在文本分類領(lǐng)域,但由于算法所涉及屬性的獨(dú)立性和同等重要性,算法的文本分類效果并不理想。針對(duì)以上問題,該文采用一種基于N-gram特征的加權(quán)樸素貝葉斯文本分類算法的模型對(duì)5種文本進(jìn)行分類實(shí)驗(yàn),然后將實(shí)驗(yàn)得到的準(zhǔn)確率、召回率、F1值等評(píng)價(jià)標(biāo)準(zhǔn)對(duì)模型進(jìn)行評(píng)估,并與傳統(tǒng)的樸素貝葉斯模型分類算法得到的結(jié)果進(jìn)行比較,結(jié)果表明分類效果得到較大的提升。

關(guān)鍵詞:樸素貝葉斯;N-Gram;加權(quán);文本分類

中圖分類號(hào):TP393? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)19-0136-03

Weighted Naive Bayes Text Classification Algorithm Based on N-gram Features

WANG Ying, RONG Qi, WANG Yong

(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)

Abstract: The Naive Bayes algorithm is widely used in the field of text classification because of its simplicity, stability and efficiency. However, due to the independence and equal importance of the attributes involved in the algorithm, the text classification effect of the algorithm is not ideal. In response to the above problems, this paper uses a weighted naive Bayesian text classification algorithm model based on N-gram features to classify five types of texts, and then compare the accuracy, recall, F1 value and other evaluation criteria obtained from the experiment to the model It is evaluated and compared with the results obtained by the traditional Naive Bayes model classification algorithm. The results show that the classification effect has been greatly improved.

Key words: Na?ve Bayes; N-Gram; weighted; text classification

1 背景

樸素貝葉斯是一種簡(jiǎn)單又高效的分類算法,并且有強(qiáng)大的數(shù)學(xué)理論背景做支撐,其在分類過程中效率穩(wěn)定,在很多領(lǐng)域表現(xiàn)出非常好的性能,被廣泛應(yīng)用于文本分類領(lǐng)域,但其用于文本分類的效果不夠理想,有很大的改進(jìn)空間。本文采用N-gram特征提取方法結(jié)合加權(quán)后的樸素貝葉斯分類算法對(duì)文本進(jìn)行分類,本文第2部分介紹了傳統(tǒng)的樸素貝葉斯文本分類算法的理論及其實(shí)現(xiàn)原理;第3部分主要介紹利用N-gram模型對(duì)文本進(jìn)行特征詞提取和利用TF-IDF模型對(duì)特征詞進(jìn)行加權(quán);第4部分介紹了本文的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明基于N-gram特征的加權(quán)樸素貝葉斯模型相比于傳統(tǒng)的樸素貝葉斯有更好的文本分類效果。

2 樸素貝葉斯算法

樸素貝葉斯算法是一種典型以貝葉斯算法為基礎(chǔ)的分類算法,其所涉及的各個(gè)特征必須相互獨(dú)立,主要思想就是:對(duì)于給定的文本類標(biāo)簽集合C = {[c1],[ c2],[ c3],….,[ cn] }以及一個(gè)待分類的文本d,計(jì)算出輸入各個(gè)類別的條件概率[Pci|d(i=1,2,…,n)],選出最大值,其對(duì)應(yīng)的類別就是該文本所屬的類別。樸素貝葉斯文本分類公式如下:

[pci|d=argmax pcik=1m pwk|ci]

其中,先驗(yàn)概率[pci]表示文本訓(xùn)練集中[ci] 類文本的數(shù)量在所有文本訓(xùn)練集數(shù)量中所占的比重,[pwk|ci]計(jì)算公式如下:

[ pwk|ci=l=1|D|Nwk,? dl +1s=1|V|l=1|D|Nwk,? dl+∣V∣]

其中[wk]表示某一特征詞,[m]表示測(cè)試文本[d]包含的特征詞數(shù)目,文本[dl]表示文本類[ci]中的某一訓(xùn)練文本,[i=1|D|Nwk,? ci ]表示[wk]在類型為[ci]文本中的出現(xiàn)的次數(shù),[i=1|D|Nwk,? ci]表示在類型為[ci]的文本中出現(xiàn)特征詞[wk]的總次數(shù),[∣V∣]表示特征詞總數(shù)目,[∣D∣]表示[ci]中文本數(shù)目。其為了防止0次的特征詞對(duì)分類決策的影響,采用“拉普拉斯修正”,進(jìn)行+1平滑操作。

3 N-gram特征提取和加權(quán)

3.1 N-gram特征提取

N-gram模型是基于統(tǒng)計(jì)語(yǔ)言的模型,它的基本思想是將文本內(nèi)容滑動(dòng)到N個(gè)字節(jié)大小的滑動(dòng)窗口中,形成N個(gè)字節(jié)長(zhǎng)度的片段序列。 每個(gè)字節(jié)片稱為一個(gè)gram,對(duì)所有g(shù)ram片段執(zhí)行詞頻統(tǒng)計(jì),并根據(jù)設(shè)置的閾值將詞頻較低的特征進(jìn)行過濾操作,最后形成關(guān)鍵字gram列表,即文本的特征向量空間。

主站蜘蛛池模板: 色哟哟国产精品| 一级毛片免费观看久| 一本一道波多野结衣一区二区 | 99久久精品无码专区免费| 日韩一区精品视频一区二区| 欧美日本在线播放| 三上悠亚精品二区在线观看| 欧美va亚洲va香蕉在线| 69精品在线观看| 国产美女自慰在线观看| 精品视频一区二区三区在线播| YW尤物AV无码国产在线观看| 熟妇人妻无乱码中文字幕真矢织江| 亚洲精品视频免费| 91免费国产在线观看尤物| 亚洲乱伦视频| 真实国产乱子伦视频| 91精品国产自产91精品资源| 久久人搡人人玩人妻精品| 久久亚洲国产最新网站| 天天躁夜夜躁狠狠躁躁88| 国产香蕉在线| 亚洲视频二| 久久成人免费| 亚洲精品在线影院| 国产精品成| 97国产在线观看| 激情成人综合网| 久青草免费在线视频| 久久国产成人精品国产成人亚洲| 午夜国产在线观看| 538国产在线| 青青青视频91在线 | 国产菊爆视频在线观看| 国产成年无码AⅤ片在线| 免费人成视网站在线不卡| 久久香蕉国产线看观看精品蕉| 极品性荡少妇一区二区色欲| 五月天香蕉视频国产亚| 欧美日韩国产高清一区二区三区| 四虎国产在线观看| 国产第一页免费浮力影院| 伊人婷婷色香五月综合缴缴情| 伊人久热这里只有精品视频99| 日韩精品一区二区三区大桥未久 | 91系列在线观看| 国产精品三级专区| 国产天天色| 狠狠v日韩v欧美v| 国产日本欧美亚洲精品视| 亚洲国产成人超福利久久精品| 欧美一区二区三区香蕉视 | 亚洲免费毛片| 欧美中出一区二区| 啦啦啦网站在线观看a毛片| 精品视频在线一区| 四虎影视库国产精品一区| 超碰精品无码一区二区| 国产99视频免费精品是看6| 呦女精品网站| 国产手机在线小视频免费观看| 乱人伦99久久| a毛片在线播放| 国模极品一区二区三区| 18禁高潮出水呻吟娇喘蜜芽| 18禁不卡免费网站| 国产成人综合日韩精品无码首页| 国产经典免费播放视频| 97在线碰| 一级毛片在线免费看| 波多野结衣一区二区三区四区视频| 日本在线亚洲| 国产精品专区第一页在线观看| 中文无码日韩精品| 国内精品一区二区在线观看| 成人亚洲天堂| 四虎AV麻豆| 国产精品亚洲欧美日韩久久| 制服丝袜一区| 日韩欧美国产中文| 午夜无码一区二区三区| 久久国产精品电影|