999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向新聞的文本分類研究

2019-08-12 01:27:59嚴石
電腦知識與技術(shù) 2019年16期

嚴石

摘要:隨著網(wǎng)絡(luò)的普及以及互聯(lián)網(wǎng)的飛速發(fā)展,在網(wǎng)上獲取信息已經(jīng)成了一種重要的方式,互聯(lián)網(wǎng)充斥著大量的新聞數(shù)據(jù),如何有效的獲取利用這些數(shù)據(jù)已經(jīng)成為當務之急。本文介紹了文本分類的原理,以及解決文本分類問題的流程,通過真實新聞數(shù)據(jù)集對相關(guān)算法進行測試,并給出了實驗結(jié)果。

關(guān)鍵詞:新聞數(shù)據(jù);文本分類;算法; 測試

中圖分類號:TP311? ?文獻標識碼:A

文章編號:1009-3044(2019)16-0283-02

開放科學(資源服務)標識碼(OSID):

Abstract: With the popularity and the rapid development of the Internet, it has become an important way to obtain information on the Internet. The Internet is full of a large number of news data. How to effectively obtain and use these data has become an urgent matter. This paper introduces the principle of text categorization and the flow of solving the problem of text categorization. The related algorithms are tested by real news datasets, and the experimental results are given.

Key words: news data; text classification; algorithms; test

文本分類,就是利用計算機相關(guān)技術(shù)將具有相同特征的文本信息根據(jù)一定的規(guī)則劃分到事先預定好的類別之中。樸素貝葉斯方法是一種基于貝葉斯定理和特定條件獨立性假設(shè)的分類方法。相關(guān)研究的實驗表明,這種方法應用到文本分類的任務上效果較好[1]。

1 文本分類的流程

文本是一種非結(jié)構(gòu)化的數(shù)據(jù),在進行分類之前,先要進行分詞、去停用詞,并通過一定的方式將文本用向量表示出來,將處理過后的數(shù)據(jù)輸入到分類模型中才能到的結(jié)論[2]。為了測評分類器的效果,我們采用通用的準確率P(Precision)、召回率R(Recall)、以及F值(F-score)作為實驗的評價指標[3]。

2 樸素貝葉斯算法

1) 設(shè)D是訓練元組和它們相關(guān)聯(lián)的類標號的集合,每一個元組用一個n維屬性向量[X={x1,x2,…,xn}]表示,描述由n個屬性[A1,A2,…,An]對元組的n個測量。

2) 假設(shè)有m個類[C1,C2,…,Cm]。給定元組X,樸素貝葉斯分類法預測X屬于[Ci]類,當且僅當

3 實驗結(jié)果及分析

我們準備了科技、汽車、娛樂、軍事、體育五類新聞數(shù)據(jù),并選取五組不同數(shù)目的樣本,把樣本的75%用作訓練集,剩下的25%用作測試集。下圖為測試后平均精度最高的一組數(shù)據(jù):

我們發(fā)現(xiàn)不同類別的新聞在同一次測試中,其準確率、召回率、F值也有細微的差別,而分類的精度隨著測試樣本數(shù)目的增大會有一定的提高,同時,在樣本數(shù)目不變的情況下,分類的精度會隨著特征值的數(shù)目增大而提高。

4 結(jié)語

本文分析了新聞文本分類的流程,并用樸素貝葉斯算法構(gòu)造分類器,通過大量的分組實驗,獲取了在不同樣本數(shù)目、不同特征值數(shù)目下的精度,在下一步實驗中,我們將測試該方法應用于其他的類型分類下的精度問題。

參考文獻:

[1] 靳小波.文本分類綜述[J].自動化博覽, 2006 (S1) :24, 26, 28, 29.

[2] 劉測,韓家新.面向新聞文本的分類方法的比較研究[J].智能計算機與應用,2018,8(5):38-41.

[3] 楊娟,王未央.幾種文本分類算法性能比較與分析[J].現(xiàn)代計算機(專業(yè)版),2016(25):12-16.

[4] 劉冬瑤,劉世杰,陳宇星,張文波,周振.新聞文本自動分類技術(shù)概述[J].電腦知識與技術(shù),2017,13(35):87-91.

【通聯(lián)編輯:梁書】

主站蜘蛛池模板: 国产精品成人免费视频99| 国产老女人精品免费视频| 色首页AV在线| 伊人久久综在合线亚洲2019| 国产精品毛片在线直播完整版| 三上悠亚精品二区在线观看| 亚洲A∨无码精品午夜在线观看| 91无码视频在线观看| 免费一级无码在线网站| 亚洲精品成人片在线播放| 国产精品尤物在线| 免费国产不卡午夜福在线观看| 啪啪免费视频一区二区| 国内a级毛片| 国产精品任我爽爆在线播放6080| 国产成a人片在线播放| 亚洲一区二区黄色| 国产91精品调教在线播放| 国产精品免费入口视频| 亚洲国产精品一区二区第一页免| 人妻丰满熟妇AV无码区| 国产国语一级毛片在线视频| 日韩第九页| 麻豆AV网站免费进入| 好吊色国产欧美日韩免费观看| jizz在线免费播放| 青青青草国产| 女人18毛片久久| 精品亚洲麻豆1区2区3区| 毛片免费高清免费| 国产综合在线观看视频| a在线亚洲男人的天堂试看| 久草视频精品| 8090成人午夜精品| 黄色污网站在线观看| 国产一区免费在线观看| 97久久精品人人| 中文字幕 欧美日韩| 亚洲va欧美ⅴa国产va影院| 国产亚卅精品无码| 国产精品久久久久久久久久久久| 免费国产无遮挡又黄又爽| 免费a在线观看播放| 亚洲人妖在线| av一区二区三区高清久久| 女人毛片a级大学毛片免费| 亚洲香蕉在线| 亚洲精品动漫在线观看| 免费国产高清精品一区在线| 秋霞国产在线| 国产成人精品一区二区三在线观看| 亚洲视频免费播放| 欧美精品啪啪| 国产十八禁在线观看免费| 亚洲伦理一区二区| 日本一区二区三区精品国产| 午夜a级毛片| 亚洲精品国产乱码不卡| 久久夜色撩人精品国产| 国产特一级毛片| 九月婷婷亚洲综合在线| 永久免费av网站可以直接看的| 国产成人精品日本亚洲77美色| av色爱 天堂网| 亚洲人成网站18禁动漫无码| 波多野结衣久久高清免费| 亚洲AⅤ综合在线欧美一区| 五月婷婷中文字幕| 国产在线观看精品| 欧美一级黄片一区2区| 无码国产偷倩在线播放老年人 | 丁香六月激情综合| 91在线丝袜| 国产AV毛片| 毛片视频网址| 香蕉伊思人视频| 再看日本中文字幕在线观看| 秋霞午夜国产精品成人片| 91丝袜乱伦| 亚洲色图综合在线| 日本免费高清一区| 国产精品亚洲一区二区在线观看|