999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TAN結構的貝葉斯文本分類器研究

2012-08-13 09:19:14王景中易路杰
網絡安全技術與應用 2012年1期
關鍵詞:分類文本

王景中 易路杰

北方工業大學信息工程學院 北京 100144

0 引言

樸素貝葉斯分類器是貝葉斯分類中一種最常見且原理簡單,實際應用很成功的方法。樸素貝葉斯分類器中的“樸素”主要是指假設各屬性間相互獨立。在文本分類中,假設不同的特征項在確定的類別下的條件概率分布相互獨立,這樣在計算特征項之間的聯合分布概率時可以大大提高分類器的速度。目前,很多文本分類系統都采用貝葉斯分類算法,在郵件分類、電子會議、信息過濾等方面都有了廣泛的應用。

1 樸素貝葉斯分類器

1.1 貝葉斯公式介紹

貝葉斯定理為:設S為試驗E的樣本空間,A為E的事件,B1,B2,…Bn為S的一個劃分,且有P(A)>0,P(Bi)>0(i=1,2,…n),則有:

1.2 貝葉斯文本分類

貝葉斯文本分類模型是一種基于統計方法的分類模型,是現有文本分類算法中最有效的方法之一。其基本原理是:通過樣本數據的先驗概率信息計算確定事件的后驗概率。在文本分類中的應用為:通過計算給定文本的特征值在樣本庫中某一確定類Ci中的先驗概率,得出給定文本的特征值屬于Ci類的后驗概率,再通過比較,得出后驗概率最大的即為給定文本最可能屬于的類別。因此,貝葉斯類別判別式為:

本文采用布爾表示法描述文本,每個文本表示為特征矢量(w1,w2,…w),V為特征詞表,為特征詞表總詞數,V=(B1, B2,…B)。特征矢量中的wi={0,1},1表示特征詞表中的第i個詞出現,0表示沒有出現。

根據貝葉斯公式:

式中P( Ci)為樣本集中屬于Ci類的概率,為Ci類中給定文本特征詞的概率。

式中P( Ci)的值為每個類別在樣本集中的頻率,即為樣本集中屬于Ci類的文本數與樣本集中的總的文本數的比率。的值計算比較困難,理論上只有建立一個足夠大的樣本集才能準確得到。如何得出的值也是貝葉斯算法的關鍵,直接影響分類的性能。目前只能通過估算得出。

由于貝葉斯分類模型的假設,文本特征屬性之間獨立同分布,因此各屬性聯合概率等于各屬性概率的乘積,即:

式中P(wj/Ci)為Ci類文本中wj的詞頻與Ci類文本的總詞頻的比率。在本文中P(wj/Ci)的值估算采用下式:

式中Nwj表示特征詞的詞頻,表示類文本數,B(Ci/dk)={0,1},1表示文本dk屬于Ci類,0表示不屬于Ci類。

1.3 TAN結構的貝葉斯文本分類

由Friedman等人提出的TAN(Tree Augmented Naive)樹狀結構模型,使樸素貝葉斯模型獨立性假設更符合實際。在應用中的主要思路是采用貝葉斯網絡中的表示依賴關系的方法,在其中的各葉節點之間增加一些必要的邊,用來表示各屬性變量之間的關系,從而放寬了樸素貝葉斯中的獨立性假設。

樸素貝葉斯理論的獨立性假設即要求每個屬性有且僅有一個父節點,為類節點。而 TAN模型中,用節點表示屬性,通過有向邊表示屬性間的關系,把類別屬性作為根節點,其余屬性作為它的子節點。在具體實現時這些增加的邊需滿足兩個條件,首先,類別變量沒有父節點。其次,每個屬性變量有一個類變量為父節點和最多另一個屬性變量作為其父節點,即

在給定待分類文本中,貝葉斯分類器選擇后驗概率最大的CNB為該文本所屬類別,據(3)式、(4)式得:

式中πwj代表wj的父節點集。增加有向邊后πwj具有兩種形式:πwj沒有非類父節點和πwj有一個非類父節點。因此要計算(6)式就需要估算出三個值:P(Ci)、P(wj/Ci)、P(wj/Ci,ws)。前兩個值在上文中已經說明,而P(wj/Ci,ws)為在Ci類中,ws出現時wj的概率。因此這里就考慮了兩個詞之間的關系。P(wj/Ci,ws)的值等于Ci類文本中出現ws的文本中wj的總詞頻與Ci類中出現ws的文檔的總詞頻的比率。即:

2 實驗結果

目前,人們最常用的評價分類性能的指標是查準率(精確率)和查全率(召回率)。查準率是指分類器正確判別為該類的測試樣本數與分類器判別為該類的測試樣本總數的比率。查全率是指分類器正確判別為該類的測試樣本數與該類的總測試樣本數的比率。以上兩個指標體現了文本分類質量的兩個方面,需要綜合考慮,因此有F1測試作為綜合評估指標。

實驗選取中文自然語言處理開發平臺提供的語料庫的文章,選擇六類文本進行測試,分別是計算機、農業、經濟、藝術、環境、政治,共1800篇,每類300篇。其中從每類中選取200篇為訓練樣本文檔,余下100篇為測試文檔。測試結果見表1。

表1 實驗結果

從表1可看出,在所取測試集中,平均查準率達到0.80,平均查全率達到 0.79,平均F1測試值達到 0.79。基本達到了文本分類的效果。

3 結束語

上述樸素貝葉斯分類算法基本實現了文本分類,但是還存在著一些問題。首先 TAN結構雖然考慮了兩兩屬性間的關聯,但文本中屬性之間可能存在的其他更多的關聯并沒有考慮到,因此適用范圍還是有一定的局限性。還有在計算特征詞屬于某一確定的類的概率時,由于訓練集的選擇不同,或者訓練集不足夠大,這會有某些不常見的特征詞在訓練庫中不出現,而樸素貝葉斯判別式是一個乘積的值,這樣就會對結果影響很大。這些問題在以后的工作中還需要不斷的改進。

[1] 陳葉旺,余金山.一種改進的樸素貝葉斯文本分類方法[J].華僑大學學報(自然科學版).2011.

[2] 陳欣,張菁,李曉光.一種面向中文敏感網頁識別的文本分類方法[J].測控技術.2011.

[3]張玉芳,陳劍敏,熊忠陽.一種改進的貝葉斯文本分類方法[J].華僑大學學報(自然科學版).2007.

[4] 史瑞芳.貝葉斯文本分類器的研究與改進[J].計算機工程與應用.2009.

[5] 王瀟,胡鑫,三種分類算法的比較[J].石河子大學學報(自然科學版).2005.

[6] 石洪波,王志海,黃厚寬.貝葉斯文本分類方法研究[J].山西大學學報[J].2002.

[7] 安艷輝,董五洲,游自英.基于改進的樸素貝葉斯文本分類研究[J].河北省科學院學報.2007.

[8] 劉沛騫,馮晶晶.一種改進的樸素貝葉斯文本分類算法[J].微計算機信息.2010.

[9] 梁宏勝,徐建民,成岳鵬.一種改進的樸素貝葉斯文本分類方法[J].河北大學學報(自然科學版).2007.

[10] 余芳,姜云飛.一種基于樸素貝葉斯分類的特征選擇方法[J].2004.

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 无码av免费不卡在线观看| 欧美日韩亚洲国产主播第一区| YW尤物AV无码国产在线观看| 亚洲天堂在线免费| 国产一区在线视频观看| 奇米影视狠狠精品7777| 国产又粗又爽视频| 国产一在线| 99热这里只有精品国产99| 欧美一区二区三区国产精品| 亚洲女同欧美在线| 九九热在线视频| 亚洲精品va| 日韩国产亚洲一区二区在线观看| 国产午夜福利片在线观看| 亚洲成人网在线观看| 亚洲Va中文字幕久久一区| 中国国产一级毛片| 国产激情第一页| 色成人亚洲| 国产高清无码第一十页在线观看| 热久久这里是精品6免费观看| 久久人与动人物A级毛片| 视频二区中文无码| 国产精品专区第1页| 亚洲欧美一区二区三区蜜芽| 人与鲁专区| 亚洲精品不卡午夜精品| 久久婷婷人人澡人人爱91| 91视频免费观看网站| 永久免费无码日韩视频| 高清视频一区| 国产麻豆精品久久一二三| 国产幂在线无码精品| 精品视频一区在线观看| 国产美女自慰在线观看| 奇米影视狠狠精品7777| 真人免费一级毛片一区二区| 免费国产高清精品一区在线| 国产精品人莉莉成在线播放| 成人毛片免费在线观看| 国产香蕉在线| 91丝袜美腿高跟国产极品老师| 国产网站一区二区三区| 先锋资源久久| 国产永久在线观看| 国产日韩AV高潮在线| 九九视频在线免费观看| 99久久精彩视频| 色哟哟国产成人精品| 欧美日韩成人在线观看| 日韩 欧美 小说 综合网 另类| 欧美19综合中文字幕| 国产精品免费露脸视频| 色老头综合网| 丁香六月激情综合| 国产亚洲美日韩AV中文字幕无码成人| 亚洲区欧美区| 午夜激情福利视频| 欧美日韩激情| 久久久91人妻无码精品蜜桃HD| 国产乱人伦AV在线A| 亚洲国产中文欧美在线人成大黄瓜 | 国产91精选在线观看| 最新日本中文字幕| 日本道中文字幕久久一区| 国产欧美专区在线观看| 国产欧美又粗又猛又爽老| 欧美中出一区二区| 国产91成人| 欧美亚洲中文精品三区| 91精品视频网站| 91精品国产情侣高潮露脸| 日本黄色a视频| 乱色熟女综合一区二区| 老司机精品一区在线视频| 精品亚洲欧美中文字幕在线看| 四虎影视无码永久免费观看| 国产精品久久自在自线观看| 欧美成人第一页| 亚洲天堂成人| 国禁国产you女视频网站|