999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多項式樸素貝葉斯的文本分類及應用研究

2022-05-30 08:08:15肖自乾陳經優符天
電腦知識與技術 2022年27期

肖自乾 陳經優 符天

摘要:在信息數據爆炸式增長的今天,各類信息如潮水般呈現在人們面前,利用文本分類技術可以高效、準確地找到人們需要的有關分類信息,為進一步開展數據挖掘和分析奠定基礎。文章的標題、摘要是內容的高度概括,針對這些短文本進行分類則成為自動文本分類的研究方向。基于互聯網信息平臺各類信息數據,文章分別采用Bow和TF-IDF等技術方法進行文本向量化,構建多項式樸素貝葉斯模型對訓練集數據進行訓練,并對比研究測試集預測結果,實現短文本自動文本分類,為實現快速獲取某類信息熱點提供參考。

關鍵詞:Bow;TF-IDF;樸素貝葉斯;文本分類;網格搜索

中圖分類號:TP393? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)27-0061-03

開放科學(資源服務)標識碼(OSID):

1 引言

隨著信息技術迅速發展和大數據時代的到來,各類新聞、咨詢的數據也在急速增長。根據我國工業和信息化部有關互聯網數據統計顯示,2021年1-10月社交通訊類、生活服務類、新聞閱讀類應用下載量分別達2545億次、1870億次、1566億次[1]。由此可見,面對海量的數據,如何將這些信息根據用戶需求進行高效、準確分類并推送給用戶顯得尤為重要。本文采集各大互聯網平臺熱點新聞咨詢作為訓練數據集,并對其進行數據預處理,分別選擇Bow和TF-IDF等文本向量化技術提取文本特征,應用樸素貝葉斯分類算法進行文本分類,在此基礎上對分類模型進行優化,提高了文本分類準確率。

2 文本向量化

2.1 文本預處理

在英文文本處理中將句子分割為單詞比較容易,而中文則不那么容易,需要進行分詞處理。本文使用jieba庫進行中文分詞,它是一款非常流行中文開源分詞包,具有高性能、準確率、可擴展性等特點,提供三種分詞模式,即精確模式、全模式以及搜索引擎模式。jieba分詞結合基于規則和基于統計兩類方法:首先基于前綴詞典進行詞圖掃描,可以快速構建包含全部可能分詞結果的有向無環圖,這個圖包含多條分詞路徑,有向是指全部的路徑都始于第一個字、止于最后一個字,無環是指節點之間不構成閉環。其次,基于標注語料、使用動態規劃的方法可以找出最大概率路徑,并將其作為最終的分詞結果。對于未登錄詞,則使用了基于漢字成詞的HMM模型,采用了Viterbi算法進行推導[2]。

2.2 文本特征提取

在本文研究中主要使用Bow和TF-IDF兩種文本向量化方法。Bow也稱之為詞袋模型,最初被用在信息檢索領域,是自然語言處理和信息檢索下被簡化的表達模型,對于一篇文檔來說,假定不考慮文檔內的詞的順序關系和語法,只考慮該文檔是否出現過這個單詞。在實際操作中將文本中的詞語轉換為詞頻矩陣,并計算各個詞語出現的次數。該方法的缺陷主要在于:隨著新詞的出現詞匯量便會隨之增加,因此向量的長度也會增加;容易產生稀疏矩陣;沒有保留任何關于句子語法和文本中單詞順序的信息。

TF-IDF是一種統計方法,用以評估一個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TF,即詞頻,表示詞條在文本中出現的頻率,這個數字通常會被歸一化, 以防止它偏向長的文件[3]。TF用公式表示如下:

[TFi,j=ni,jknk,j]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)

其中,[ni,j]表示詞條 [ti] 在文檔 [dj]中出現的次數,[TFi,j]就是表示詞條[ti]在文檔 [dj]中出現的頻率。

在通常情況下,一些通用的詞語對于主題并沒有太大的作用,反倒是一些出現頻率較少的詞才能夠表達文章的主題,所以只考慮TF是不合適的。在權重的設計必須是一個詞如果它預測主題的能力越強,權重則越大,反之,權重則越小。IDF表示關鍵詞的普遍程度。如果包含詞條[i]的文檔越少,IDF越大,則說明該詞條具有很好的類別區分能力。某一特定詞語的IDF,可以由總文件數目除以包含該詞語之文件的數目的商取對數得到:

[IDFi=logD1+j : ti ∈dj]? ? ? ? ? ? ? ? ? ?(2)

其中,[|D|]表示所有文檔的數量,[|j : ti ∈dj|]表示包含詞條[ti ]的文檔數量,這里要加 1主要是防止包含詞條[ti ]的數量為 0 從而導致分母為零導致運算出錯的現象發生。

某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語,表達為:

[TF-IDF=TF?IDF]? ? ? ? ? ? ? ? ? ? ? (3)

綜上所述,詞袋模型只考慮每種詞匯在該訓練文本中出現的頻率,而TF-IDF除了考量某一詞匯在當前訓練文本中出現的頻率之外,同時關注包含這個詞匯的其他訓練文本數目的倒數。相比之下,訓練文本的數量越多,TF-IDF這種特征量化方式就更有優勢。

3 多項式樸素貝葉斯算法

3.1樸素貝葉斯算法

樸素貝葉斯算法是一種基于數學理念的分類算法[4]。“樸素”是一種帶有假設的限定條件,“貝葉斯”則指的是貝葉斯公式。樸素貝葉斯算法利用后驗概率進行預測,核心方法是通過似然度預測后驗概率,而學習的過程就是不斷提高似然度的過程,其數學公式如下:

[Py|x1,…,xn=P(y)i=1nP(xi|y)P(x1,…,xn)]? ? ? ? ? ? ? (4)

基于樸素貝葉斯算法學習過程,它不再需要驅動迭代逼近過程的假設函數和損失函數。通過比較不同特征與類之間的似然關系,最后把似然度最大的那個類作為預測結果。數學表達式如下:

[y=argmaxyP(y)i=1nP(xi|y)]? ? ? ? ? ? ? (5)

樸素貝葉斯分類算法具體步驟:

1)統計樣本數據。需要統計先驗概率[P(y)]和似然度[P(x|y)];

2)根據待預測樣本所含的特征,對不同類分別進行后驗概率計算;

3)比較[y1,...,yn]的后驗概率,哪個的概率值最大就將其作為預測值輸出。

3.2多項式樸素貝葉斯

多項式樸素貝葉斯算法是文本分類中使用的兩種經典的樸素貝葉斯變體之一[5],這個分布的每個類別[y]的參數向量為[θy=(θy1,...,θyn)],其中[n]是特征數量(在文本分類中是詞典大小),[θyi]是特征[i]在類別[y]的一個樣本中出現的概率[P(xi∣y)]。參數[θy]由最大似然的平滑版本來估計,即相對頻率計數:

[θyi=Nyi+αNy+αn]

其中[Nyi=x∈Txi]是訓練集[T]上特征[i]在類別[y]的一個樣本中出現的次數。[Ny=i=1nNyi]是類[y]的所有特征的總數。平滑先驗α≥0讓學習樣本中不存在的特征占一定的比例,并防止在進一步的計算中出現零概率。α=1時為拉普拉斯平滑,α<1時為李德斯通平滑。

4 分類模型構建及評價

4.1 數據集

從各大互聯網平臺收集“財經”“體育”“健康”“娛樂”四類新聞標題構成數據集,并進行分類標注,最終整理數據集共20000條,平均每類數據5000條,隨機選取20%作為測試數據集。

4.2 模型構建及預測

在此分別應用Bow和TF-IDF方法進行文本向量化并進行對比,同時引入停用詞,用于去掉一些沒有意義的符號、詞語等。初步設定忽略詞出現的次數與語料庫文檔數的百分比達到50%的那些詞。訓練模型選擇多項式樸素貝葉斯算法,設定平滑參數[α]為0.5,其他參數均使用默認值。分別使用各分類500條、1000條、2000條、4000條進行訓練,預測數據為各分類1000條。預測結果見表1。

在表1中,precision表示正確預測為正的,占全部預測為正的比例;Recall表示正確預測為正的,占全部實際為正的比例;f1-score表示精確率和召回率的調和平均數。從表1中可以看出,在文檔數越多的情況下,用TF-IDF進行向量化比用Bow表現更好。

4.3模型優化

網格搜索是最簡單、應用最廣泛的超參數搜索算法之一,它通過查找搜索范圍內的所有的參數值確定最優值[6]。當采用較小的步長產生所有參數值時,網格搜索很大概率找到全局最優值,但是這樣將消耗較多的計算資源和時間。因此在實際應用過程中,一般會先找到全局最優值可能的位置;然后再進一步縮小搜索范圍來尋找更精確的最優值,由于目標函數的原因,此處的最優值是局部最優,并不一定達到全局最優。以上建立模型中[α]初始設定為0.5,并不一定是最優值。這里采用網格搜索方法對其進行參數優化,在[0,1]區間以0.05為步長,可以找到參數范圍內精度最高的參數[α]為0.1,因此再一次縮小搜索范圍,最終找到最優參數[α]為0.067。同時我們將原來單個詞語作為特征擴展為可包含1~2個詞組成的詞組作為特征。優化后預測結果見表2。

通過表2可以看出,通過參數的搜索,根據找到的最優參數[α]可以進一步提高文本信息預測精度。最優分類統計報告見表3:

在表3中,support列中1000表示各分類測試數據量,4000為各分類測試數據量總和。從預測結果可以看出通過參數優化后,accuracy進一步提高到95.125%,分類效果有一定提升。

5 結語

本文重點圍繞自動文本分類開展研究。使用不同的文本向量化方法建立文本特征模型,在樸素貝葉斯算法基礎上進一步應用多項式樸素貝葉斯算法構建訓練模型,對不同文本向量化方法得到的預測結果進行對比研究,最后采用網格優化等方式進行優化,較好地提高文本分類的高效性和準確性。

參考文獻:

[1] 2021年1-10月份互聯網和相關服務業運行情況.[EB/OL].[2021-12-20]. https://www.miit.gov.cn/gxsj/tjfx/hlw/index.html.

[2] 石鳳貴.基于jieba中文分詞的中文文本語料預處理模塊實現[J].電腦知識與技術,2020,16(14):248-251,257.

[3] 許麗,焦博,趙章瑞.基于TF-IDF的加權樸素貝葉斯新聞文本分類算法[J].網絡安全技術與應用,2021(11):31-33.

[4] 莫凡.機器學習算法的數學解析與Python實現[M].北京:機械工業出版社,2020.

[5] scikit-learn, Naive Bayes. [EB/OL].[2021-12-20].https://scik it-learn.org/dev/modules/naive_bayes.html.

[6] 丁輝.基于網格優化模型的支持向量機企業信用評級應用研究[J].金融科技時代,2021,29(10):63-66.

【通聯編輯:王力】

主站蜘蛛池模板: 亚洲成aⅴ人片在线影院八| 乱人伦99久久| 久久不卡精品| 国产剧情伊人| 日韩 欧美 小说 综合网 另类| 99热这里都是国产精品| 亚洲狠狠婷婷综合久久久久| 国产成人一二三| 亚洲成av人无码综合在线观看| 亚洲成a人片77777在线播放| 亚洲电影天堂在线国语对白| 好紧太爽了视频免费无码| 国产第二十一页| 国产精品 欧美激情 在线播放| 波多野吉衣一区二区三区av| 国产欧美日韩18| 999国产精品永久免费视频精品久久| 国产91小视频| 欧美激情视频一区| 欧美一道本| 国产日韩精品欧美一区灰| 美女国产在线| 不卡视频国产| 亚洲欧美另类久久久精品播放的| 国产精品综合久久久| 国产激爽大片高清在线观看| 欧美97色| 久久精品无码专区免费| 久久国产精品嫖妓| 欧美亚洲国产日韩电影在线| AV不卡在线永久免费观看| 日韩精品一区二区三区免费| 亚洲无码久久久久| 欧美区一区| 久久久久九九精品影院| 18禁高潮出水呻吟娇喘蜜芽| 欧洲极品无码一区二区三区| 国禁国产you女视频网站| 在线欧美国产| 天天综合网亚洲网站| 午夜电影在线观看国产1区| 国产制服丝袜91在线| 好紧好深好大乳无码中文字幕| 亚洲二区视频| 午夜欧美在线| 波多野结衣中文字幕一区二区 | 久草性视频| 国产精品55夜色66夜色| 波多野结衣爽到高潮漏水大喷| 就去色综合| 久久网欧美| 久久综合国产乱子免费| 精品国产成人av免费| 欧美黄网在线| 欧美日本在线播放| 久久精品66| 国产在线视频福利资源站| 国产成人1024精品| 欧美激情视频一区二区三区免费| 日韩精品亚洲人旧成在线| 亚洲精品桃花岛av在线| 久久久久88色偷偷| 一级高清毛片免费a级高清毛片| 99精品高清在线播放| 激情乱人伦| 国产免费精彩视频| 国产亚洲第一页| 国产在线麻豆波多野结衣| 欧美色视频网站| 国产精品成人一区二区不卡| 青青国产在线| 麻豆国产精品视频| 自拍偷拍欧美日韩| 人妻91无码色偷偷色噜噜噜| 精品无码专区亚洲| 色噜噜狠狠色综合网图区| 亚洲无线国产观看| 高清大学生毛片一级| 精品国产成人三级在线观看| 亚洲综合片| 东京热一区二区三区无码视频| 国产在线视频自拍|