999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于增量的貝葉斯算法在網頁文本中的應用

2013-07-22 02:52:28屈軍
赤峰學院學報·自然科學版 2013年13期
關鍵詞:分類文本

屈軍

(臺山磐石電視大學,廣東臺山529200)

基于增量的貝葉斯算法在網頁文本中的應用

屈軍

(臺山磐石電視大學,廣東臺山529200)

如今文本自動分類技術發展已較為成熟,中文網頁的分類也是自動分類技術的應用之一.分類精度依賴于分類算法,貝葉斯算法在網頁分類中有很廣泛的使用,但它需要大量且已標記的訓練集,而獲得大量帶有類別標注的樣本代價很高.本文以中文網頁信息增量式的學習作為研究對象,利用網頁已驗信息處理訓練集增量問題,提出一種改進的增量式的貝葉斯分類算法,研究利用未標記的中文網頁來提高分類器的性能,并進行相關實驗對比和評價.

增量學習;貝葉斯;TFID;文本自動分類;網頁

1 引言

能否從海量的網頁中迅速、準確的搜索用戶感興趣的信息是對網頁分類技術的挑戰.如今,網頁分類相關技術的研究正逐漸成為繼文本分類之后機器學習領域的研究熱點.雖然文本分類技術已經在中文網頁分類中使用,但網頁分類中的問題相對文本分類更加難以處理,因為網頁格式多樣化,除純文本以外,還有其它一些內容對分類有影響.貝葉斯分類器對網頁的分類通過對訓練集的樣本進行學習,訓練集的樣本數量要求盡可能大的,并且要對樣本進行標記,樣本的標記是需要通過人工來完成,工作量大而且容易出錯.因此,本文研究訓練集的中文網頁樣本在沒有標記的情況下,通過分類器的進行增量學習,從而提高分類器的分類效果,并結合TFIDF算法設計了一個的增量式貝葉斯分類系統,并進行相關實驗對比和評價.

2 貝葉斯分類算法及改進算法

2.1 貝葉斯條件概率公式

隨著計算機技術的日益成熟,使用機器來模擬人類學習活動學科-機器學習,成為研究的熱點之一.機器學習是一門研究機器獲取新知識和新技能,并識別現有知識的學問.貝葉斯理論在機器學習研究領域就以其獨特的性能成為注目的焦點,比如具有概率表達能力的豐富性、知識表達形式不確定性、綜合先驗知識的增量學習特性等,所以貝葉斯理論占有相當重要的地位在機器學習研究領域中.假設概率計算的方法是貝葉斯理論的核心內容,數據本身和不同數據的概率是在基于假設的先驗概率和給定假設下的前提下完成的.貝葉斯理論提供的理論架構是其他算法研究和應用的依據,對于概率的直接操作和定量多個假設的置信度的算法提供了基礎.在貝葉斯理論中,學習和推理都是以概率的規則來實現,使用概率地表示所有形式的不確定性.貝葉斯學習的結果表示為隨機變量的概率分布,它可以解釋為我們對不同可能性的信任程度.貝葉斯公式表示為如下形式其中,h代表假設,而D代表看到的數據集.P(h|D)為給定集D時假設h成立的概率(后驗概率),P(h),P(D)為先驗知識,而P(D|h)為在給定假設下觀察到數據集D的概率,此為先驗概率,可用統計的方法得到.

2.2 分類算法TFIDF介紹

TFIDF是常用的文本分類中算法,它采用的是空間向量模型,特征詞需要通過分詞系統取得,每個特征詞作為一個特征項,特征項的參數是tk,文檔用向量表示為…,xin),wik是賦予特征項tk(1≤k≤n,n表示文檔中特征項的總數)的數值,wik的值反映特征項tk對文本的重要程度,稱為特征項的權重,即:wik=tfik*idfkidfk=log(N/dfk+1),詞頻tfik指某個特征項tk在文檔di中出現的次數,文檔頻率dfk指整個文檔集合中,包含特征項tk的文檔個數,idfk是特征項tk反比文檔頻率,N代表訓練集文本的數量.TFIDF算法通過對同屬一類的所有文本中的向量進行疊加,得到每一個類Cj(Cj∈C,C是一個集合,代表分類文檔的類別)的特征向量.利用TFIDF分類器測試文本所屬的類別時,通過計算該篇文本的向量和每個類特征向量的相似度距離,相似度距離最大的類向量所屬的第j類就是被測試文本的類別.計算公式如下:

TFIDF算法作為一種有監督學習的分類算法,訓練集的規模和樣本的選擇對算法有明顯的影響,對于己標記的文檔的訓練集,增加訓練集的規模,TFIDF算法的分類精度明顯提高.

2.3 改進的貝葉斯分類增量算法

改進的增量式訓練分類算法的提出前題是:(1)保證現在分類處理的精度;(2)訓練集的規模盡可能要小;(3)已被標記的訓練集.該算法的特點是通過利用兩種不同的分類算法,增量式地訓練未標記文檔.這兩種算法采用文本分類中較為典型的樸素貝葉斯(簡稱NB)和TFIDF算法,由基于概率模型的樸素貝葉斯負責計算文檔后驗概率,由基于向量空間模型TFIDF方法負責計算文檔向量和類向量的相似度.由于TFIDF算法不需要樸素貝葉斯算法所需要的貝葉斯前提假設,因此利用TFIDF分類器聯合樸素貝葉斯分類器進行增量訓練,能更好地降低樸素貝葉斯假設條件帶來的影響.

增量貝葉斯分類算法步驟如下:

假設L為已分類數據集;U為未分類數據集;L0為改變后的已分類的數據集;U0為改變后的未分類的數據集.

step1:令L0=L;U0=U;

step2:if(U0),則:

①用L0對NB和TFIDF分類器進行訓練;

②用NB分類器判斷U0中每個文檔的類別,做標記;③用TFIDF分類器判斷U0中每個文檔的類別,做標記;④取每個相同類別中的文檔的交集(即利用NB和TFIDF分類器進行投票);⑤若交集為空,goto step3⑥在每一個交集中,根據文檔的相似度,對文檔進行排列,作為評分標準,從中選取m個評分高的文檔,加入L0中;⑦令加入L0中的文檔數為T,L0=L0+T;U0=U0-T;goto step2;step3:以L0為訓練集進行訓練并對測試集進行測試,評價.算法中的m值從實驗經驗得出.從以上算法可以看出,結合TFIDF算法的NB分類器(以下簡稱T_N分類器),充分利用了未標記數據來補充訓練集,即訓練算法采用的是增量訓練,利用兩種分類算法建立內嵌的分類器協同合作地訓練未分類文檔,逐次用內嵌分類器判別未知文檔的類別并增量地加入到已標記訓練集中,達到增加訓練集的目的.

3 實驗環境及結果分析

3.1 語料庫選擇

(1)采用中科院成熟語料庫,該語料庫是經過人工分類好的平衡語料庫,包括十個類別:環境、計算機、交通、教育、經濟、軍事、體育、醫藥、藝術、政治.(2)從人民網抓取中文網頁3265個,根據其從屬類別進行人工分類,分為八個類別:教育、游戲、飲食、體育、娛樂、科技、旅游、軍事.

3.2 實驗

實驗①:NB分類器和T_N分類器分類準確率的比較.經過分類測試,得到如下實驗結果,見圖1.

圖1 分類性能對比圖

從實驗結果中得出T_N在分類性能上比NB有一定的提高,在初始訓練集較小的情況下,也可以得到不錯的分類準確率,隨著訓練集文本數的提高,分類性能雖有提高,但起伏不大,這表明增量集對分類性能起到較大的作用;而NB分類性能整體比T_N分類器差,而且對訓練集大小比較敏感,隨著訓練集文本數的遞增,性能曲線起伏較大,在訓練集文本數少的情況下,分類性能明顯降低.這說明,未標記的數據集在分類中對分類性能起到較大的作用.實驗①:觀察算法迭中增量集對分類性能的提高所作的貢獻.在T_N分類器中,每經過兩次迭代,就對測試集進行測試評價.經過分類測試,得到如下實驗結果,見圖2.

圖2 分類器迭代過程中的準確率

從準確率的分布情況,我們可以看到,T_N分類器在經過每次迭代后所增加的訓練樣本都起到一定的作用,這進一步說明我們所設計的分類系統在每一次的增量學習中都能夠提高分類器的性能.

總的來說,針對海量的中文網頁自動分類問題,貝葉斯分類算法充分利用了先驗信息的特性,是增量學習中的最佳選擇模型,結合TFIDF算法的貝葉斯分類器實驗證明確實能發揮其優點,可以解決獲得大量已標記文本的問題,實驗結果表明增量式訓練算法具有較高的分類準確度.

〔1〕蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展.軟件學報,2006,17(9).

〔2〕余芳.一個基于樸素貝葉斯方法的WEB文本分類系統:WebCAT.計算機工程與應用,2004(13).

〔3〕劉青,何政.結合EM算法的樸素貝葉斯方法在中文網頁分類上的應用.計算機工程與科學,2005,27(7).

TP391.1

A

1673-260X(2013)07-0023-02

猜你喜歡
分類文本
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产精品毛片一区视频播| 久久国产成人精品国产成人亚洲| 久久综合九九亚洲一区| 国产三级成人| 欧美中文字幕在线视频| 91黄色在线观看| 乱人伦99久久| 久久精品国产免费观看频道| 国产亚洲精品97在线观看 | 久草视频精品| 国产第一页亚洲| 亚洲精品不卡午夜精品| 91福利在线看| www.日韩三级| 成人午夜久久| 伊人成人在线| 欧美福利在线观看| 国产亚洲精品资源在线26u| 亚洲人成在线精品| a在线观看免费| 另类综合视频| 久操线在视频在线观看| 欧美亚洲一二三区| 伊伊人成亚洲综合人网7777 | 亚洲午夜天堂| 欧美啪啪网| 嫩草在线视频| 三级国产在线观看| 国产精品视频白浆免费视频| 无码'专区第一页| 亚洲日韩精品欧美中文字幕| 中文成人无码国产亚洲| 天天色天天综合| 青青草国产精品久久久久| 亚洲精品在线91| 最新国产精品第1页| 9cao视频精品| 特级精品毛片免费观看| 激情六月丁香婷婷四房播| P尤物久久99国产综合精品| 日本草草视频在线观看| 精品国产香蕉伊思人在线| 999精品视频在线| 国产日本欧美亚洲精品视| 广东一级毛片| 久草热视频在线| 日韩毛片免费| 尤物精品视频一区二区三区| 伊伊人成亚洲综合人网7777| 欧美 亚洲 日韩 国产| 日本一区二区三区精品国产| 欧美日韩国产成人在线观看| a欧美在线| 一级不卡毛片| 亚洲成人精品| 三级国产在线观看| 美女被狂躁www在线观看| 成人午夜精品一级毛片| 国产XXXX做受性欧美88| 亚洲精选无码久久久| 国产理论最新国产精品视频| 91免费在线看| 色有码无码视频| 六月婷婷精品视频在线观看| 国产成人精品免费av| 99草精品视频| 日韩午夜片| 久久免费观看视频| 亚洲男人天堂2018| 国产情精品嫩草影院88av| 日日噜噜夜夜狠狠视频| 超碰91免费人妻| 国模私拍一区二区| 久久人搡人人玩人妻精品一| 巨熟乳波霸若妻中文观看免费| 曰韩人妻一区二区三区| 亚洲午夜综合网| 中文字幕有乳无码| 老熟妇喷水一区二区三区| 国产精品网曝门免费视频| 99中文字幕亚洲一区二区| 性色一区|