嚴石


摘要:隨著網絡的普及以及互聯網的飛速發展,在網上獲取信息已經成了一種重要的方式,互聯網充斥著大量的新聞數據,如何有效的獲取利用這些數據已經成為當務之急。本文介紹了文本分類的原理,以及解決文本分類問題的流程,通過真實新聞數據集對相關算法進行測試,并給出了實驗結果。
關鍵詞:新聞數據;文本分類;算法; 測試
中圖分類號:TP311? ?文獻標識碼:A
文章編號:1009-3044(2019)16-0283-02
開放科學(資源服務)標識碼(OSID):
Abstract: With the popularity and the rapid development of the Internet, it has become an important way to obtain information on the Internet. The Internet is full of a large number of news data. How to effectively obtain and use these data has become an urgent matter. This paper introduces the principle of text categorization and the flow of solving the problem of text categorization. The related algorithms are tested by real news datasets, and the experimental results are given.
Key words: news data; text classification; algorithms; test
文本分類,就是利用計算機相關技術將具有相同特征的文本信息根據一定的規則劃分到事先預定好的類別之中。樸素貝葉斯方法是一種基于貝葉斯定理和特定條件獨立性假設的分類方法。相關研究的實驗表明,這種方法應用到文本分類的任務上效果較好[1]。
1 文本分類的流程
文本是一種非結構化的數據,在進行分類之前,先要進行分詞、去停用詞,并通過一定的方式將文本用向量表示出來,將處理過后的數據輸入到分類模型中才能到的結論[2]。為了測評分類器的效果,我們采用通用的準確率P(Precision)、召回率R(Recall)、以及F值(F-score)作為實驗的評價指標[3]。
2 樸素貝葉斯算法
1) 設D是訓練元組和它們相關聯的類標號的集合,每一個元組用一個n維屬性向量[X={x1,x2,…,xn}]表示,描述由n個屬性[A1,A2,…,An]對元組的n個測量。
2) 假設有m個類[C1,C2,…,Cm]。給定元組X,樸素貝葉斯分類法預測X屬于[Ci]類,當且僅當
3 實驗結果及分析
我們準備了科技、汽車、娛樂、軍事、體育五類新聞數據,并選取五組不同數目的樣本,把樣本的75%用作訓練集,剩下的25%用作測試集。下圖為測試后平均精度最高的一組數據:
我們發現不同類別的新聞在同一次測試中,其準確率、召回率、F值也有細微的差別,而分類的精度隨著測試樣本數目的增大會有一定的提高,同時,在樣本數目不變的情況下,分類的精度會隨著特征值的數目增大而提高。
4 結語
本文分析了新聞文本分類的流程,并用樸素貝葉斯算法構造分類器,通過大量的分組實驗,獲取了在不同樣本數目、不同特征值數目下的精度,在下一步實驗中,我們將測試該方法應用于其他的類型分類下的精度問題。
參考文獻:
[1] 靳小波.文本分類綜述[J].自動化博覽, 2006 (S1) :24, 26, 28, 29.
[2] 劉測,韓家新.面向新聞文本的分類方法的比較研究[J].智能計算機與應用,2018,8(5):38-41.
[3] 楊娟,王未央.幾種文本分類算法性能比較與分析[J].現代計算機(專業版),2016(25):12-16.
[4] 劉冬瑤,劉世杰,陳宇星,張文波,周振.新聞文本自動分類技術概述[J].電腦知識與技術,2017,13(35):87-91.
【通聯編輯:梁書】