999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯方法在文本分類中的運用

2018-02-25 11:54:22史琬瑩
電子技術(shù)與軟件工程 2018年11期

史琬瑩

摘要 在互聯(lián)網(wǎng)飛速發(fā)展的背景下,面對龐大的數(shù)據(jù),我們急需一種有效的數(shù)據(jù)分類方式,樸素貝葉斯就是在這種情況下得廣泛關(guān)注的。樸素貝葉斯是一種基于條件獨立性和貝葉斯定理的分類方法。本文通過樸素貝葉斯原理,樸素貝葉斯分類流程,模型評估,介紹了如何用樸素貝葉斯方法處理文本分類問題。

[關(guān)鍵詞]樸素貝葉斯 特征選擇 文本分類

1 引言

隨著互聯(lián)網(wǎng)的飛速發(fā)展,海量數(shù)據(jù)注入到通訊設(shè)備中。如此大量的信息就讓信息檢索和數(shù)據(jù)挖掘的重要性更加突出。文本分類作為數(shù)據(jù)挖掘的一部分也逐漸被人們重視起來。其中文本分類的主要內(nèi)容是在預(yù)先給定的類標(biāo)簽的集合下,根據(jù)文章內(nèi)容,確定它的類別。當(dāng)前比較流行的文本分類方法主要包涵文本的表示,分類方法及效果,評估,這三部分。我們接下來將要通過三個方面來介紹:文本表示,分類器構(gòu)造和分類器評估。

2 樸素貝葉斯原理

樸素貝葉斯是基于條件獨立性和貝葉斯定理的分類方法。

2.1 條件獨立性

條件獨立性是指集合中任意兩個事件均為相互獨立事件,不存在依賴關(guān)系,滿足:

P(XY|Z)=P(X|Z)*P(Y|Z)

(1)

2.2 條件概率

條件概率是指事件x在另一個事件y發(fā)生的條件下,其發(fā)生的概率,可以表示為:

其中,P(X)表示X的先驗概率或者稱為邊緣概率。P(Y|X)表示己知事件x發(fā)生后事件Y發(fā)生的條件概率,也稱Y的后驗概率。

2.3 全概率公式

設(shè)實驗E的樣本空間為S,Y1,…,Yn為S的一個劃分,且P(Yi》O(i=l,2,…,n),則對樣本空間中的任一事件X,恒有

P(X)=∑niP(Yi)P(XIYi)

(3)

2.4 貝葉斯公式

設(shè)Y1,Y2,…,Yn為樣本空間的一個劃分,X為Ω中的任一事件,且P(X)>O,則恒有

3 樸素貝葉斯分類流程

3.1 特征選擇

本文使用TFIDF做特征選擇。TF-IDF是一種用以評測某一個文件或是文件集,在所有語料中重要程度的統(tǒng)計方法,字詞的重要性與其在文件中出現(xiàn)的次數(shù)成正比,與在語料庫中出現(xiàn)的頻率成反比。

詞頻(TF)表示詞語在文件中出現(xiàn)的頻率。為了減小因文件長度造成的誤差,通常以頻率表示這個數(shù)字。

對于在某個特定文件中的文本,它的重要性通常可以表示為:

文件頻率(DF) DF,表示包含詞語t的文檔個數(shù)。

逆向文件頻率(IDF)用來表示詞語在文件中的普遍程度。用總文件數(shù)與包含該詞語的文件數(shù)目相除,可以得到該詞在文件中的普遍程度。若包含該詞的文件越少,則IDF值越大,則可以說明該詞區(qū)分某一類文件的能力較強。結(jié)算公式為:

在計算得到每個詞匯的TFIDF值以后,按照值的大小進行遞減排序,選出TFIDF值較大的部分詞匯作為特征。

3.2 樸素貝葉斯模型計算流程

樸素貝葉斯模型的計算流程如下所示:

(1)設(shè)x為一個待分類項;

(2)有類別集合C={y1,…ym);

(3)計算P(y1|x),…,P(yn|x);

(4) 如果P(yk|x)=max{P(y1|x),…, P(yn|x}),則x屬于yk。

根據(jù)上述分析,樸素貝葉斯流程如圖1表示。

4 模型評估

4.1 準(zhǔn)確率

準(zhǔn)確率是最常用的分類指標(biāo)。就最常見的二分類問題來說,模型的目的是分析出正類和負類。在測試集合中,被正確識別的量,除以測試集中的總量(包括把正樣本識別為負樣本以及把負樣本識別為負樣本的情況)就是準(zhǔn)確率。

4.2 精確度和召回率

精確度容易和準(zhǔn)確率混為一談。其實,精確度針對的只是預(yù)測正確的樣本中,正樣本的數(shù)量。它可以由預(yù)測正確的樣本中,正樣本的數(shù)量除以模型中所有正樣本的數(shù)量總數(shù)得到。表現(xiàn)為預(yù)測為正的樣本中,真正是正的數(shù)目。

召回率表示對于測試集中的正樣本,分類器能識別出來的概率,它是用預(yù)測正確的正樣本數(shù)目除以測試集中所有的正樣本數(shù)目計算得出的。

4.3 混淆矩陣

混淆矩陣將實際樣本數(shù)和預(yù)測樣本數(shù)放到同一表格中進行分析的方法,是用來計算準(zhǔn)確率、精確度、召回率常用的一種方法。對于二類分類問題而言,樣本一般會被標(biāo)為正類和負類,其中正類是我們關(guān)注的類型。

參考文獻

[1]蘇金樹,張博鋒,徐昕,基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J],軟件學(xué)報,2006,17 (09):1848-1859.

[2]李學(xué)明,李海瑞,薛亮,何光軍,基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,38 (08):37-40.

主站蜘蛛池模板: 美女被操91视频| 久久99国产乱子伦精品免| 亚洲综合色吧| 精品国产一二三区| 国产一区二区三区在线观看视频 | 国产精品尹人在线观看| 日韩在线影院| 久草网视频在线| 黄色国产在线| 麻豆国产在线不卡一区二区| 午夜一区二区三区| 欧美色综合网站| 国产精品第一区| 亚洲精品卡2卡3卡4卡5卡区| 国产精品视频a| 毛片最新网址| 国产成人一级| 亚洲色图另类| 欧美一区二区啪啪| 啦啦啦网站在线观看a毛片 | 高清免费毛片| 久久永久视频| 亚洲热线99精品视频| 99视频精品在线观看| 一级片一区| 成人国产精品一级毛片天堂| 国产区成人精品视频| 成人免费午夜视频| 在线无码九区| 日本精品中文字幕在线不卡| 精品国产aⅴ一区二区三区| 国产精品男人的天堂| 国产麻豆精品手机在线观看| 国产精品视频999| 夜夜操天天摸| 国产素人在线| 操国产美女| 国产精品免费福利久久播放| 国产精品专区第1页| 亚洲天堂日韩在线| 国产精品自在在线午夜| 不卡无码网| 91欧洲国产日韩在线人成| 欧美国产日韩在线| 狠狠亚洲婷婷综合色香| 久久黄色影院| 成人噜噜噜视频在线观看| 国产视频 第一页| 久久久精品久久久久三级| 伊在人亞洲香蕉精品區| 国产熟睡乱子伦视频网站| 国产美女视频黄a视频全免费网站| 欧美日韩一区二区在线免费观看| 亚洲精品自在线拍| 国产精品jizz在线观看软件| 成人无码一区二区三区视频在线观看| 国产麻豆永久视频| 亚洲天堂在线视频| 成人午夜视频在线| 免费观看男人免费桶女人视频| 国产一级片网址| 中国一级特黄大片在线观看| 在线国产91| 狼友视频国产精品首页| 无码不卡的中文字幕视频| 国产精品久久自在自线观看| 亚洲国产欧美自拍| 又大又硬又爽免费视频| 爆操波多野结衣| 国产97视频在线观看| 99热国产在线精品99| 国产精品欧美亚洲韩国日本不卡| 亚洲视频四区| 网久久综合| 精品99在线观看| 国产a v无码专区亚洲av| 久久99热66这里只有精品一| 精品伊人久久久大香线蕉欧美| 亚洲天堂日本| AV无码一区二区三区四区| www.日韩三级| 一级毛片在线免费看|