999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯的中文文本分類

2019-11-03 14:07:16姜天宇王蘇徐偉
電腦知識與技術 2019年23期

姜天宇 王蘇 徐偉

摘要:在當今數據大爆炸時代,每天所產生的文本量數以億計,急需整理分類,然而傳統的數據分類的文本處理方式過于煩瑣,在浩瀚的數據流中迅速,高效,精確地找到需求信息極其困難。怎么有效地區分鑒別雜亂的信息,怎么迅速地滿足用戶的需求,都面臨著困難。為了解決信息無序的問題,文本的自動分類技術自然成了處理和組織大量信息的一個重要技術。因此眾多文本分類方法應運而生,樸素貝葉斯也是其中一種。樸素貝葉斯作為數據的十大算法之一,由于其易于構造和解釋,并具有良好的性能,因此被廣泛用于解決分類和排序問題。本文研究基于樸素貝葉斯算法的中文文本分類改進算法。

關鍵詞:樸素貝葉斯;文本預處理;特征選擇

中圖分類號:TP181? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2019)23-0253-02

開放科學(資源服務)標識碼(OSID):

Chinese Text Classification Based on Naive Bayes

JIANG Tian-yu, WANG Su, XU Wei

(College of Electronic and Optical Engineering, Nanjing University of Posts and Telecommunications,Nanjing 210023, China)

Abstract: In today's era of big data explosion, billions of texts are generated every day, which are in urgent need of sorting and classification. However, the traditional text processing method of data classification is too complicated, and it is extremely difficult to find demand information quickly, efficiently and accurately in the vast data flow. How to effectively distinguish and identify mixed and disorderly information, how to quickly meet the needs of users, are facing difficulties. In order to solve the problem of information disorder, automatic text classification technology has naturally become an important technology for processing and organizing a large amount of information. Therefore, many text classification methods emerge at the right moment, and naive bayes is one of them. As one of the top ten data algorithms, naive bayes is widely used to solve classification and sorting problems due to its easy construction and interpretation and good performance. This paper studies an improved algorithm for Chinese text classification based on naive bayes algorithm.

Key words: Naive bayes; Text preprocessing; Feature selection;

樸素貝葉斯是一種基于概率的統計學習模型,它有一個前提假設,即給定類的所有屬性都是完全獨立的。雖然這一假設在許多實際應用中經常被違反,但樸素貝葉斯仍然是排名前十的算法之一,因為它的簡單、高效和可解釋性。

1 樸素貝葉斯文本分類法

基于特征獨立性的假設稱為樸素貝葉斯分類法,就是對于某個類別節點,表示文本的屬性之間沒有任何關系即相互獨立。

如圖1所示,樸素貝葉斯分類模型的表示方法為:

C 為類別節點,A1,A2,…, Am是類別節點 C 下文本表示的m個屬性結點。

在實際應用中,我們假設其中每個屬性對所屬類別的影響是相互獨立的。這一假設降低了計算復雜度,因而能夠加快分類速度。

使用樸素貝葉斯分類器對文本進行分類的過程如下:

(1)首先我們用特征向量空間來表示文本類別,這樣一來我們就把分類的首要工作轉變成構造每個類別的特征向量空間。我們就可以把訓練集分成 m 類特征向量空間,每個文本類別擁有了一個獨有的表示該類別文本的特征向量空間。

(2)我們用 P(ci|x)來表示待分類文本x屬于類別ci的概率,那么文本分類的關鍵就是求出使P(ci|x)取最大值的類別。

(3)根據式[PAm|B=PAmPB|Am∑PAiPB|Aii],用 P(ci|x)(i=1,2,…,m)計算每個類別的條件概率。

(4)文檔所屬類別就是條件概率最大的類別。可以用公式表示為:P(ck|x)=max{P(c1|x),…, P(cm|x)},則x∈ck。

由于如何實現最優的樸素貝葉斯分類器是一個很困難的問題,改進的樸素貝葉斯分類方法引起了研究者的廣泛關注。

改進的方法大致可分為五大類:1)結構擴展;2)屬性權重;3)屬性選擇;4)實例加權;5)局部學習。

2 系統設計

2.1文本預處理

本文的實驗語料樣本來自新華社的1659封郵件,包含有環境、交通、教育、軍事、經濟、體育共6個類別。接著給1659封郵件中每封郵件中的文本進行分詞處理, 由此產生與之對應的文本詞語表。再接著進一步簡化,消去副詞、虛詞、量詞這些沒有意義的詞, 消去經常重復多次出現沒有顯著特征的動詞、名詞, 記下體現文本中權重較高的詞及詞頻, 將這些文本形成向量空間模型, 最后將全部文本處理完成之后形成一個矩陣,稱其為詞頻矩陣,類屬性加在最后一列。

2.2特征選擇

本文使用改進TF-IDF做特征選擇。TF-IDF(Term Frequency–Inverse Document Frequency)是一種用于信息搜查的常用加權技術。TF-IDF是一種統計方法,用以評估每個字詞對于一份文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。

TF,(Term Frequency)表示某個關鍵詞在某個文檔中出現的頻率。可以表示為:

詞頻(TF)=某個詞在文章的出現次數/文章的總詞數。即:

[TFi,j=ni,jkni,k]

DF,(Document Frequency)的縮寫,表示文檔集合中,出現某個關鍵詞的文檔個數。

IDF,(Inversed Document Frequency)的縮寫,表示一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到:

[IDFj=logD1+DFj]

其中|D|:語料庫中的文件總數

如果一個詞越常見,那么分母就越大,逆文檔頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文檔都不包含該詞)。log表示對得到的值取對數。

TF-IDF計算公式如下:

[TF-IDFi,j=詞頻(TFi,j)×逆文檔頻率(IDFj])

某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。可以看到,TF-IDF與一個詞在文檔中的出現次數成正比,與該詞在整個語言中的出現次數成反比。所以,自動提取關鍵詞的算法就很清楚了,就是計算出文檔的每個詞的TF-IDF值,然后按降序排列,取排在最前面的幾個詞。

2.3系統流程圖

3 系統驗證

3.1訓練分類仿真結果

本文所有實驗都是在普通PC(Intel CORE i7,2.60 GHz CPU,8.0 GB RAM),軟件為Pycharm64,使用Python語言實現提出的樸素貝葉斯算法。本文的實驗樣本來自新華社的1659封郵件,包含有環境、交通、教育、軍事、經濟、體育6個類別。

先對待分類文本進行關鍵詞提取,每篇提取前 20 個權重最大的詞,再轉換成詞向量,然后與模型訓練計算出來的先驗概率一起計算出文本屬于每一類文本的概率,然后比較大小,選擇概率最大的并判別文本屬于哪個類別,輸出類別標簽。

注:

1.調和平均值 = 查全率 × 查準率 × 2/查全率 + 查準率。

2.圖中P為查準率,R為查全率,F1為調和平均值

由上圖可得以下表格:

從上表我們可以看出,對待分類文本采用改進TF-IDF 算法提取關鍵字后,再運用樸素貝葉斯算法對文本進行分類,各類文本都取得不錯的分類效果,尤其環境類的查準率和調和平均值都超過了 90%。分類速度約為 800 篇/min。

4 總結

在本文中,我們首先研究了現有的樸素貝葉斯分類方法。然后,我們通過改進TF-IDF加權方法,該方法通過對訓練數據的特征加權頻率進行深度計算來估計樸素貝葉斯的條件概率。實驗結果表明,與之前方法相比,我們的改進TF-IDF加權方法很少會降低模型的質量,而且在很多情況下,可以顯著提高模型的質量。最后,我們對樸素貝葉斯中文文本分類器進行了改進TF-IDF加權,并取得了顯著的改進。

參考文獻:

[1]賀科達,朱錚濤,程昱.基于改進TF-IDF 算法的文本分類方法研究[J].廣東工業大學學報,2016(9).

[2] 安艷輝,董五洲,游自英.基于改進的樸素貝葉斯文本分類研究[J].河北省科學院學報,2007(01):22.

[3] 饒麗麗,劉雄輝,張東站.基于特征相關的改進加權樸素貝葉斯分類算法[J].廈門大學學報:自然科學版,2012(4):682.

[4] 楊凱峰,張毅坤,李燕.基于文檔頻率的特征選擇方[J].計算機工程,2010(17):33.

[5] 陳葉旺,余金山.一種改進的樸素貝葉斯文本分類方法[J].華僑大學學報:自然科學版,2011(4):401.

[6] 朱娟.基于貝葉斯算法的多語言文檔分類[D].蘇州大學,2016.

[7] 包小兵.基于樸素貝葉斯的Web文本分類及其應用[J].電腦知識與技術,2016(30):220.

[8] 史琬瑩.樸素貝葉斯方法在文本分類中的運用[J].電子技術與軟件工程,2018(208).

[9] 賀鳴,孫建軍,成穎.基于樸素貝葉斯的文本分類研究綜述[J].情報科學,2016(7):147.

【通聯編輯:唐一東】

主站蜘蛛池模板: 国产成人免费高清AⅤ| 国产欧美日韩综合一区在线播放| 亚洲无码视频一区二区三区 | 欧美一区二区人人喊爽| 国产AV毛片| 无码 在线 在线| 亚洲国产无码有码| 综合色区亚洲熟妇在线| 最新亚洲av女人的天堂| 最新精品国偷自产在线| 高清无码手机在线观看| 久久综合伊人 六十路| 18禁色诱爆乳网站| 精品91在线| 国产精品美女自慰喷水| 精品无码视频在线观看| 亚洲婷婷丁香| 欧美日韩精品一区二区在线线| 四虎综合网| 亚洲天堂网在线视频| 丁香六月激情婷婷| 曰韩免费无码AV一区二区| 国产色伊人| 欧美成人午夜影院| 中国精品久久| 日本亚洲成高清一区二区三区| 亚洲无卡视频| 香蕉久人久人青草青草| 国产正在播放| 一本大道香蕉高清久久| 亚洲国产欧美国产综合久久| 人妻夜夜爽天天爽| 欧美激情一区二区三区成人| 美女被操91视频| 亚洲一区二区视频在线观看| 亚洲第一黄片大全| 亚洲一区国色天香| 国产精品毛片在线直播完整版| 无码中字出轨中文人妻中文中| 无套av在线| 日本在线亚洲| 国产精品护士| 精品伊人久久大香线蕉网站| 美女啪啪无遮挡| 26uuu国产精品视频| 91外围女在线观看| 久久免费观看视频| 久久婷婷色综合老司机| h网址在线观看| 免费在线观看av| 四虎国产永久在线观看| 特级欧美视频aaaaaa| 99久久这里只精品麻豆| 日韩精品亚洲人旧成在线| 亚洲第一区在线| 男女性午夜福利网站| 欧美人与性动交a欧美精品| 中文字幕免费视频| 99尹人香蕉国产免费天天拍| 最新国产你懂的在线网址| 亚洲欧美在线精品一区二区| 亚洲精品无码久久久久苍井空| 免费观看男人免费桶女人视频| 青草视频久久| 日韩国产精品无码一区二区三区| 欧美国产日韩另类| 国产精品性| 狠狠久久综合伊人不卡| a毛片在线| 夜色爽爽影院18禁妓女影院| 福利在线一区| 免费一级毛片在线播放傲雪网| 欧美五月婷婷| 97国内精品久久久久不卡| 九九九久久国产精品| 久热99这里只有精品视频6| 看你懂的巨臀中文字幕一区二区| 无码国产偷倩在线播放老年人| 激情六月丁香婷婷| 九九九精品成人免费视频7| 亚洲a免费| 最新国产精品第1页|