999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于N-gram特征的加權樸素貝葉斯文本分類算法

2021-09-27 16:26:20王瑛,榮麒,王勇
電腦知識與技術 2021年19期

王瑛,榮麒,王勇

摘要:樸素貝葉斯算法由于其具有簡單、穩定和高效的優點,被廣泛運用在文本分類領域,但由于算法所涉及屬性的獨立性和同等重要性,算法的文本分類效果并不理想。針對以上問題,該文采用一種基于N-gram特征的加權樸素貝葉斯文本分類算法的模型對5種文本進行分類實驗,然后將實驗得到的準確率、召回率、F1值等評價標準對模型進行評估,并與傳統的樸素貝葉斯模型分類算法得到的結果進行比較,結果表明分類效果得到較大的提升。

關鍵詞:樸素貝葉斯;N-Gram;加權;文本分類

中圖分類號:TP393? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)19-0136-03

Weighted Naive Bayes Text Classification Algorithm Based on N-gram Features

WANG Ying, RONG Qi, WANG Yong

(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)

Abstract: The Naive Bayes algorithm is widely used in the field of text classification because of its simplicity, stability and efficiency. However, due to the independence and equal importance of the attributes involved in the algorithm, the text classification effect of the algorithm is not ideal. In response to the above problems, this paper uses a weighted naive Bayesian text classification algorithm model based on N-gram features to classify five types of texts, and then compare the accuracy, recall, F1 value and other evaluation criteria obtained from the experiment to the model It is evaluated and compared with the results obtained by the traditional Naive Bayes model classification algorithm. The results show that the classification effect has been greatly improved.

Key words: Na?ve Bayes; N-Gram; weighted; text classification

1 背景

樸素貝葉斯是一種簡單又高效的分類算法,并且有強大的數學理論背景做支撐,其在分類過程中效率穩定,在很多領域表現出非常好的性能,被廣泛應用于文本分類領域,但其用于文本分類的效果不夠理想,有很大的改進空間。本文采用N-gram特征提取方法結合加權后的樸素貝葉斯分類算法對文本進行分類,本文第2部分介紹了傳統的樸素貝葉斯文本分類算法的理論及其實現原理;第3部分主要介紹利用N-gram模型對文本進行特征詞提取和利用TF-IDF模型對特征詞進行加權;第4部分介紹了本文的實驗,實驗結果表明基于N-gram特征的加權樸素貝葉斯模型相比于傳統的樸素貝葉斯有更好的文本分類效果。

2 樸素貝葉斯算法

樸素貝葉斯算法是一種典型以貝葉斯算法為基礎的分類算法,其所涉及的各個特征必須相互獨立,主要思想就是:對于給定的文本類標簽集合C = {[c1],[ c2],[ c3],….,[ cn] }以及一個待分類的文本d,計算出輸入各個類別的條件概率[Pci|d(i=1,2,…,n)],選出最大值,其對應的類別就是該文本所屬的類別。樸素貝葉斯文本分類公式如下:

[pci|d=argmax pcik=1m pwk|ci]

其中,先驗概率[pci]表示文本訓練集中[ci] 類文本的數量在所有文本訓練集數量中所占的比重,[pwk|ci]計算公式如下:

[ pwk|ci=l=1|D|Nwk,? dl +1s=1|V|l=1|D|Nwk,? dl+∣V∣]

其中[wk]表示某一特征詞,[m]表示測試文本[d]包含的特征詞數目,文本[dl]表示文本類[ci]中的某一訓練文本,[i=1|D|Nwk,? ci ]表示[wk]在類型為[ci]文本中的出現的次數,[i=1|D|Nwk,? ci]表示在類型為[ci]的文本中出現特征詞[wk]的總次數,[∣V∣]表示特征詞總數目,[∣D∣]表示[ci]中文本數目。其為了防止0次的特征詞對分類決策的影響,采用“拉普拉斯修正”,進行+1平滑操作。

3 N-gram特征提取和加權

3.1 N-gram特征提取

N-gram模型是基于統計語言的模型,它的基本思想是將文本內容滑動到N個字節大小的滑動窗口中,形成N個字節長度的片段序列。 每個字節片稱為一個gram,對所有gram片段執行詞頻統計,并根據設置的閾值將詞頻較低的特征進行過濾操作,最后形成關鍵字gram列表,即文本的特征向量空間。

主站蜘蛛池模板: 亚洲伊人电影| 国产精品亚洲一区二区三区z | 亚洲精品亚洲人成在线| 1024你懂的国产精品| 无码AV动漫| 亚洲欧美日韩另类在线一| 国产香蕉一区二区在线网站| 久久大香伊蕉在人线观看热2| 中国毛片网| 亚洲第一区在线| 午夜少妇精品视频小电影| 国产成人无码综合亚洲日韩不卡| 国内精品免费| 欧美成人看片一区二区三区| 国产精品九九视频| 日本爱爱精品一区二区| 色婷婷亚洲综合五月| 成人国产精品视频频| 成人综合网址| 天天爽免费视频| 婷婷伊人五月| 欧美区一区二区三| 亚洲第一视频区| 玩两个丰满老熟女久久网| 亚洲无码熟妇人妻AV在线| 波多野结衣AV无码久久一区| 第一页亚洲| 无码啪啪精品天堂浪潮av| 亚洲欧美成人综合| 中文字幕在线永久在线视频2020| 重口调教一区二区视频| 久久亚洲精少妇毛片午夜无码 | 久草国产在线观看| 丁香综合在线| 久久婷婷五月综合色一区二区| 噜噜噜久久| 欧美啪啪一区| 亚洲中文字幕无码爆乳| 欧美激情网址| 精品国产黑色丝袜高跟鞋| 亚洲人成网站在线观看播放不卡| 91在线国内在线播放老师| 伊人久久大线影院首页| 无码中文AⅤ在线观看| 亚洲天堂免费观看| 国产亚洲一区二区三区在线| 国产精品视频猛进猛出| 99青青青精品视频在线| 老汉色老汉首页a亚洲| 欧美亚洲一区二区三区导航| 性喷潮久久久久久久久| 天天色天天综合网| 国产精品人成在线播放| 97超碰精品成人国产| 无码精品一区二区久久久| 中文字幕av一区二区三区欲色| 久久久久国产精品嫩草影院| 999国产精品永久免费视频精品久久 | 激情无码视频在线看| 欧美日韩在线亚洲国产人| 亚洲精品视频在线观看视频| m男亚洲一区中文字幕| 国产第一福利影院| 97人人做人人爽香蕉精品| 欧美色99| 永久免费无码成人网站| 香蕉久久永久视频| 国产超碰在线观看| 精品一区二区三区无码视频无码| 亚洲精品久综合蜜| 精品小视频在线观看| 一级全免费视频播放| 国内熟女少妇一线天| 午夜毛片免费观看视频 | 露脸真实国语乱在线观看| 亚洲中文字幕97久久精品少妇| 九九线精品视频在线观看| 久久www视频| 免费三A级毛片视频| 制服丝袜无码每日更新| 91精品国产福利| 国产精品亚洲va在线观看|