郭泓 等
尚慶生? 趙薇? 韓運龍
摘? 要:摘要是對消息的一種高度概括,因此,如何有效地對摘要進行快速、準確的識別,是當前中文摘要識別領域的一個重要課題。文章提出TF-IDF和貝葉斯算法相結合的新聞分類方法,通過TF-IDF算法提取短文文本中的特征詞集合,捕捉短文文本表達的語義,并計算出相應的TF-IDF值,將TF-IDF值形成特征向量作為貝葉斯算法的輸入來實現新聞文本分類,最后根據錯誤率對預測結果進行評價。試驗結果表明,該方法可以將貝葉斯方法與TF-IDF相結合,實現對信息的快速分類。
關鍵詞:貝葉斯算法;TF-IDF;新聞分類
中圖分類號:TP391? ? 文獻標識碼:A? ? 文章編號:2096-4706(2023)23-0089-04
Research on Chinese News Title Classification Based on Bayesian Algorithm
GUO Hong, SHANG Qingsheng, ZHAO Wei, HAN Yunlong
(Lanzhou University of Finance and Economics, Lanzhou? 730101, China)
Abstract: Abstract is a high level summary of messages, therefore, how to effectively identify abstracts quickly and accurately is an important topic in the current field of Chinese abstract recognition. This paper proposes a news classification method that combines TF-IDF and Bayesian algorithm. Using the TF-IDF algorithm to extract the set of feature words in short text, captures the semantics expressed in the short text, and calculates the corresponding TF-IDF values. The TF-IDF values are formed into feature vectors as input to the Bayesian algorithm to achieve news text classification. Finally, the prediction results are evaluated based on the error rate. The experimental results indicate that this method can combine Bayesian method with TF-IDF to achieve rapid classification of information.
Keywords: Bayesian algorithm; TF-IDF; news classification
0? 引? 言
隨著互聯網的飛速發展和普及,大數據應運而生,在傳統媒體、新媒體以及自媒體的理性推動下,新聞數量也呈現出爆發式增長趨勢。在海量的信息環境下,如何對合適的信息進行信息分類是一個亟待解決的問題。消息成為人們掌握當前社會事件的一種主要方式,特別是最近幾年,隨著新聞界數字化的發展,以及新聞網站的廣泛應用,讓人們“足不出戶,便能知悉世界上所發生事情”的愿望得到了很好的實現。在互聯網上,新聞報道和評論等文字信息的數量迅速增長。
在持續迅猛增加的文字數據面前,僅憑手工進行數據的自動處理已經力不能及。近年來,利用機器學習技術實現分類已經成為一種趨勢。運用機器學習技術,可以實現對新聞平臺上海量數據的自動歸類,從而提高使用者的搜索速度,改善使用者的閱讀感受。此外,還可以根據歸類結果,對有價值的資訊進行深入的剖析和挖掘,從而幫助使用者更好地理解需求,這也是本文的研究價值。
1? 新聞文本數據的采集與處理
1.1? 新聞文本數據采集
通常,文字分類模型以事先標記好類型的語料為練習集,它是一種有監督的學習,其關鍵問題在于如何選取適當的分類方法,建立分類模型。本文采用TF-IDF方法從文本信息中抽取一些有用的信息,然后使用貝葉斯方法對這些信息進行歸類,并將這些信息整合起來形成一個新的信息結構。文本分類步驟如下:
1)預處理。填補文本中的缺失值,刪除重復值。
2)中文分詞。使用Python中的jieba庫為文本分詞,并去除停用詞。
3)構建詞向量空間。統計文本詞頻,生成文本的詞向量空間[1]。
4)權重策略—TF-IDF方法。使用TF-IDF發現特征詞,并抽取為反映文檔主題的特征。
5)分類器。使用樸素貝葉斯算法訓練分類器。
6)評價分類結果。基于錯誤率對分類器的測試結果進行評價分析。
在進行文本分析之前,需要準備相應的文本數據集。數據集的獲取方式是采用網絡上的公開數據集。本文數據集包含訓練集3 306條數據,測試集196條數據。所有的新聞標題分為四類,分別為女性、體育、文學出版、校園。
數據集里包含女性新聞數據954條,體育類數據1 337條,文學出版類數據766條,校園類數據249條,保存的是新聞正文文本。
1.2? 新聞文本數據預處理
在進行文字識別時,文字預處理是最普遍也是必不可少的一環。可以將存在不一致性或沒有實質意義的文字予以剔除,并對切完后的無效詞語進行篩選,從而盡量減少文字噪音對識別效果的干擾。同時,該方法還可以減少對數據存儲的消耗,增強其推廣性能。本文對文字資料的預處理方法包括文字清理、文字切分和去除廢用詞語等。當前,業內普遍使用的切分器有jieba分詞、清華的分詞工具以及斯坦福的分詞包[2]。其中,jieba分詞在詞性標注、分詞準確率、分詞粒度以及分詞表現方面都比較出色,所以本文將jieba應用于文本分詞。新聞題目的數據很少,其含義又比較簡單,所以無法使用jieba的所有禁用詞匯,我們只對“呢”“嗎”和“的”等幾個常用的禁用詞匯進行篩選,最大限度剔除停用詞匯。
所收集到的消息數據包含許多js標記,還包含主題和文本內容等。可能會影響文字分析,因此需要對文字數據進行預處理。
清理文字資料是十分有必要的。對所獲取的信息進行文字加工,包括去掉文字中的標點符號,文字中英文文字的大、小寫統一,清除多余的空白和頁面上的標簽符號。在試驗過程中,去除了大量的字符、制表、空白、回車碼等對試驗結果的影響。文檔中的編碼有些問題,所有用errors過濾錯誤,刪除多余的空行與空格。
本文使用一個中文的第三方語言程序代碼數據庫——jieba作為切詞。jieba自動切分是以中文詞典為基礎,通過一定數量的中文詞典,判斷漢字間的相關可能性,選取較高可能性的詞語組合為短語,得到自動切分的結論。jieba切分有三種方式,即精確模式、全模式、搜索引擎模式,本文使用三種方式來切分文本,并且沒有多余的詞匯[3]。
經過數據清洗、切詞、移除停用詞等操作,數據的預處理得以完成。正如上面顯示的那樣,在禁用詞匯列表中,幾乎沒有任何特別的符號,都是為下一步準備合適的數據集。預處理后的數據集包含3 303條新聞數據,其中約有75%的數據用于訓練,25%的數據用于測試。
2? 采用TF-IDF算法提取關鍵詞
詞頻-逆向文件頻率(Term Frequency–Inverse Document Frequency, TF-IDF)是一種廣泛應用于信息檢索(Information Retrieval)與文本挖掘(Text Mining)的加權技術。同時,它也是一種在文獻集合或文獻資料中,評價特定詞語在文獻中重要性的一種統計學方法。它的主要思想是:若一個詞語在一篇論文中出現的頻率較高,而在其他論文中很少出現,那么該詞或詞組就會被視為有很好的類別區分能力,適用于分類[4]。
詞頻(Term Frequency, TF)是指詞匯出現的頻率,也就是詞匯(關鍵詞)在一篇文章中出現的次數。可以運用如下計算式來計算詞匯的頻率:
計算出的TF值通常會被歸一化,一般是詞頻除以文章總詞數,防止它偏向字數多的長篇幅文章。
逆向文件頻率(Inverse Document Frequency, IDF),可以由總文件數目除以包含該詞語的文件數目,再將求得的商取對數得到。包含詞條的文檔越少,IDF越大,說明詞條具有很好的類別區分能力[5]。可以運用如下計算式計算IDF:
TF-IDF值可由下述計算式得到:
TF-IDF = TF×IDF
由上述關系式可以看出,某一特定文件內的高頻率詞語,以及該詞語在整個文件集合中的低文件頻率,可以產出高權重的TF-IDF。所以,TF-IDF往往會篩選出一些常用詞匯,只留下有意義的詞匯。
在確認語料庫的格式無誤后,需要對文本數據進行文本向量化。文本向量化有兩種方法:CountVectorizer構造Ngram詞袋模型以及TfidfVectorizer構造TF-IDF特征。
詞袋模型操作的第一步是切詞,在切詞完成以后,就可以根據每一個詞在正文中出現的頻率,獲得正文基礎上詞的特性,假如把每一個正文中的詞與相應的詞頻放在一塊,也就是我們通常所說的“向量化”。詞袋模型需要經歷分詞(Tokenizing)、統計修訂詞特征值(Counting)、標準化(Normalizing)過程。在詞袋模型的“詞匯頻率”一項中,可以獲得一篇文章中全部單詞的頻率,并采用詞匯矢量進行表達[6]。部分詞經過TF-IDF算法的提取,詞頻矩陣如圖1所示。
3? 基于貝葉斯算法的新聞分類
3.1? 貝葉斯算法簡介
貝葉斯分類是對基于貝葉斯原理的一種分類方法的泛指。它是一種非常簡便的方法,其基本思路是:針對給定的待分類器,通過計算得到每一個類在給定的待分類器中的出現概率,其中最大的就是待分類器中的某一個。貝葉斯算法具有運算速度快、泛化能力強等優點,因此被認為是解決此類問題的不二之選[7]。樸素貝葉斯算法的核心為:
P(B / A) = P(A / B) P(B) / P(A)
整個樸素貝葉斯分類分為三個步驟:
1)前期工作。主要是為了滿足貝葉斯方法的基本要求,其工作重點是針對不同的情形,將不同的特征進行合理的細分,再通過手動方式將其中的一部分進行歸類,從而得到一個訓練樣本庫。以待分類器中的全部數據為輸入,以特征量和訓練樣本為輸出。該步驟是所有天然貝葉斯分類中僅有的一個步驟,它的優劣直接關系到分類結果的優劣,而分類結果的優劣主要取決于特征屬性的優劣以及分類結果的優劣[8]。
2)分類器集訓。該環節的工作是統計各個分類的發生頻次,以及對各個分類的條件概率進行估算,最后進行統計。該模型以圖像的特征參數和學習數據作為其輸入,以分類器作為其輸出[9]。
3)應用階段。在此過程中,將被識別對之間的對應關系轉化為被識別對象,這個步驟也是一個機械步驟,通過編程來實現。
3.2? 新聞分類結果
在jieba精確模式下,預測分類的錯誤率為9%,jieba全模式下的錯誤率為10%,jieba搜索引擎模式下的錯誤率為7.5%,分別如圖2、圖3、圖4所示。
由上圖可知該數據集在貝葉斯算法的基礎上,采取jieba搜索引擎模式下的錯誤率最低,準確率最高。
改變貝葉斯算法中的參數Alpha,當Alpha為0.08時,貝葉斯分類錯誤率為10%;當Alpha為0.04時,貝葉斯分類錯誤率為9.5%;當Alpha為0.01時,貝葉斯分類錯誤率為9%;當Alpha為0.001時,貝葉斯分類錯誤率為8.5%;Alpha的值越小,貝葉斯分類的準確率越高[10]。
4? 結? 論
首先,通過對公共資料來源的采集和清理,得到有效的信息;其次,使用jieba切分方法來分割信息,并使用已有的禁用詞語對文本進行分析;最后,通過對jieba切分的三種方式來構建詞矢量。實驗結果表明,TF-IDF構建的詞矢量更符合當前的信息類別,而且在jieba分詞的搜索引擎模式下,貝葉斯方法對信息類別的誤差和正確度都是最小的。本研究還存在幾個不足之處,比如,公共數據集的使用率并不高,由于計算力等原因,本論文所使用的數據只有3 306條,而當數據擴展到30 000條時,最終的效果將會更顯著。盡管TF-IDF方法簡便、快捷,但其缺陷在于:
1)未充分利用特征單詞的空間分布對區分度的影響,且單詞位于文件中的不同區域,其空間分布對區別的影響程度也不盡相同。
2)根據常規的TF-IDF公式,有些生疏單詞的ID頻度很高,所以這些生疏單詞很容易被誤當作文件關鍵字。
3)經典詞匯識別函數中的識別函數僅關注詞匯與其所使用文字數量的相關性,而忽視了同一分類內詞匯識別函數的分配。鑒于以上缺點,在下一步的實驗中,將會使用TF-IDF的改進算法——TF-IWF算法。基于貝葉斯的自然語言處理方式,盡管簡單高效,但其對標記的依賴程度較低,且當面對海量的文本時,會耗費大量的時間和精力,而基于深度神經網絡的文字識別則具有顯著的優點。在此基礎上,利用深度神經網絡對其進行深入的分析。
參考文獻:
[1] 王彬,司楊濤,付軍濤.基于改進的TF-IDF和貝葉斯算法的新聞分類 [J].科技風,2020(31):9-10+17.
[2] 郝洺.中文短文本表示與分類方法研究 [D].北京:北京科技大學,2022.
[3] 彭子豪,譚欣.并行化改進的樸素貝葉斯算法在中文文本分類上的應用 [J].科學技術創新,2020(26):176-178.
[4] ZHANG M H. Applications of Deep Learning in News Text Classification [J/OL].Scientific Programming,2021,2021:(2021-08-05).https://doi.org/10.1155/2021/6095354.
[5] 葉雪梅.文本分類TF-IDF算法的改進研究 [D].合肥:合肥工業大學,2020.
[6] 李思卓,周蘭江,周楓,等.基于互譯特征詞對匹配的老-漢雙語句子相似度計算方法研究 [J].現代電子技術,2019,42(24):79-83+87.
[7] DENG L,GE Q,ZHANG J,et al. News Text Classification Method Based on the GRU_CNN Model [J/OL].International Transactions on Electrical Energy Systems,2022,2022:(2022-08-31).https://doi.org/10.1155/2022/1197534.
[8] 阿曼.樸素貝葉斯分類算法的研究與應用 [D].大連:大連理工大學,2015.
[9] 徐鳳亞.多層次中文文本分類技術的研究 [D].北京:清華大學,2005.
[10] 李丹.基于樸素貝葉斯方法的中文文本分類研究 [D].保定:河北大學,2011.
作者簡介:郭泓(1999—),女,漢族,江西撫州人,碩士研究生在讀,研究方向:數據分析與信息處理;尚慶生(1972—),男,漢族,甘肅張掖人,碩士生導師,副教授,博士,研究方向:計算機應用、機器學習、深度學習;趙薇(1999—),女,漢族,河北石家莊人,碩士研究生在讀,研究方向:數據分析與信息處理;韓運龍(1998—),男,滿族,遼寧開原人,碩士研究生在讀,研究方向:數據分析與信息處理。