999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

特征提取方法對樸素貝葉斯文本分類器的影響分析

2013-11-06 09:13:50遲慶云劉夢琳姜振鳳棗莊學院信息科學與工程學院山東棗莊277160
長江大學學報(自科版) 2013年25期
關鍵詞:特征提取分類特征

遲慶云,劉夢琳,姜振鳳,胡 華 (棗莊學院信息科學與工程學院,山東 棗莊 277160)

特征提取方法對樸素貝葉斯文本分類器的影響分析

遲慶云,劉夢琳,姜振鳳,胡 華 (棗莊學院信息科學與工程學院,山東 棗莊 277160)

特征提取方法在文本分類過程中起著重要作用,文本分類的效果受特征提取方法選擇的直接影響。采取信息增益和文檔頻率2種特征提取方法,對樸素貝葉斯分類模型的查全率和準確率進行驗證比較。研究表明,樸素貝葉斯分類器的分類效果隨著維數的增加先增加后減少;在維數一定時,信息增益(IG)的分類效果明顯好于文檔頻率(DF)的分類效果。

文本分類;樸素貝葉斯文本分類;特征提取

文本分類能夠改善文本信息雜亂的狀況,其廣泛應用于文本索引、文本信息過濾、自動元數據的產生、詞意辨析、Web資源分類和應用程序中的文本管理等方面,其中樸素貝葉斯文本分類算法在垃圾郵件過濾、入侵檢測等領域表現出較好的性能。此外,特征空間的高維性一直是文本分類的難題。在高維特征空間中,特征之間由于可能存在不相關性或者是冗余性,必然會出現過學習現象,導致時間與空間開銷大。為了降低計算復雜度和提高分類準確率,必須降低特征空間維數,而特征提取是降低特征空間維數的較好的解決方法。下面,筆者分析了特征項提取方法對樸素貝葉斯文本分類器的影響。

1 貝葉斯分類算法

研究表明,貝葉斯分類算法能從各個方面進行考慮,其測試結果出錯率較小[1]。計算機通過觀察訓練數據的特點,來猜測一個可能的分類規則,完成訓練階段的最終產品——分類器。訓練過程一般花費時間比較長,系統將所有文本訓練一次后,將假設訓練語料包含N個文本D={D1,D2,…,Dn},上述文本分屬于M個文本類別C={C1,C2,…,Cm},訓練語料集共有L個文本特征詞W={W1,W2,…,WL}。

當文本Di屬于類別Cj時,則有P(Cj|Di)=1,否則P(Cj|Di)=0。如果給定文本類別變量,則文本類別Cj的先驗概率估計為:

(1)

若用F(Wk,Di)表示特征詞Wk在文本Di中出現的次數,則特征詞Wk在類別Cj中的概率估計為:

任何文本都可視為一系列有序排列的特征詞的集合,在貝葉斯分類器通過概率方法對數據如何生成制定了一個強有力的獨立性假設,并得出類別Cj中產生文本Di的概率為:

(3)

根據測試文本特征數據計算測試文本屬于每個類別的概率,然后按照最大概率對測試文本進行分類。測試文本Di屬于類別Cj的概率:

(4)

文本向量通常采用向量空間模型進行描述。在向量空間模型中,如果不經過特征提取,不將非結構化的原始數據轉化為可處理的結構化的形式,而是直接用分詞算法和詞頻統計方法得到的特征項來表示文本向量中的各個維,那么所得到的向量維度將非常大。這種高維的文本向量必然使文本分類過程效率非常低下,不但給后續工作帶來巨大計算開銷,而且會降低分類算法的精確性[2]。因此,需要通過特征提取方法來降低特征空間維數,即使用某種算法從原始文本中抽取出的特征詞進行量化來表示文本信息,用來描述和代替原文本,從而達到降低文本向量空間的目的。采取上述方法不但能選出能夠很好反映文本內容的詞,提高文本分類的效率,而且能降低系統的開銷。

2 特征提取方法

在文本分類中,用于特征提取的方法主要包括文檔頻率、信息增益等。選擇正確的特征提取方法對于對提高文本分類正確率有著十分重要的影響。

2.1文檔頻率

文檔頻率(DF)是指在整個數據集中有多少個文本包含某個單詞。對于文檔頻率,通常會設定一個閾值。針對訓練文本集中每個特征的文檔頻率,若該項的DF值小于閾值,表示該特征是稀有詞,信息含量太少,沒有代表性,應作為噪音加以刪除;若其DF值大于某個閾值也應將其去除,因為其代表了“沒有區分度”的極端情況。總之,在文本分類中使用文檔頻率進行特征提取具有操作簡便、計算迅速的特點[3]。

2.2信息增益

信息增益(IG)是一種基于熵的評估方法,其計算公式如下:

(5)

文檔集中某個特征項對類的貢獻越大,必然對類也越重要,那么它的信息增益值越大。在類分布和特征值分布高度不平衡的情況下,使用該方法的效果會大大降低,因為此時的函數值由不出現的特征決定,絕大多數類都是負類,絕大多數特征都不會出現。

3 樸素貝葉斯文本分類

3.1試驗數據

試驗語料庫分為訓練語料庫和測試語料庫2部分,從復旦大學中文語料庫中下載,訓練集由一組已經完成分類的文本組成,用來歸納各個類別的特性以構造分類器,分別為教育、醫藥、計算機、經濟和環境。測試集用于測試分類器分類效果的文檔的集合。

3.2文本預處理

針對訓練語料庫分詞預處理部分,采用中科院計算所漢語詞法分析系統(ICTCLAS)進行分詞預處理、數據清洗和去除停用詞[4]。ICTCLAS把訓練語料庫中的句子轉換成詞,對標點、助詞、連詞、介詞、量詞等進行清洗,并去掉文本中存在的助詞、副詞、連詞、代詞、介詞、嘆詞、量詞、數詞等。

3.3特征項選擇

特征選擇模塊包括詞頻統計和文本特征選擇。詞頻統計是文本特征項權值計算的基礎,其通過統計一定長度的語言材料計算每個詞出現的次數并分析統計結果。文本特征選擇模塊采用信息增益(IG)和文檔頻率(DF)方法,從原始特征項中抽取一定數量的特征項,從而達到降維目的并形成特征項詞典。在文檔預處理后,將DF和IG特征選擇后的前20個詞取出進行分析。

表1 采用DF和IG特征提取方法提取的特征詞

3.4試驗結果分析

圖1 特征提取的維數為3000維時樸素貝葉斯分類算法

從圖1可以看出,“交通”和“體育”2個類別的查全率、查準率和F1值都為100%;“經濟”的查全率為77.8%,相對較低;“教育”的查準率只有71.4%,是所有類別中最低的,這是由于這上述類別的訓練文本和測試文本的相似度相對較低的緣故[6]。

測試文檔提取1000維、2000維、3000維、4000維的試驗結果如圖2所示。

圖2 測試文檔提取1000維、2000維、3000維、 圖3 不同方法提取特征時性能比較圖

由圖2可知,樸素分類器的分類效果隨著維數的改變而改變,當文檔特征值提取維數在3000維時,分類器的分類效果比較明顯。在特征提取時采用信息增益(IG)和文檔頻率(DF)提取3000維的試驗結果如圖3所示。由圖3可知,信息增益(IG)的分類效果明顯好于文檔頻率(DF)的分類效果,這是因為DF所確定的值,即訓練集合中單詞發生的文本數在總體上是很小的,但在部分文本中出現的頻率可能會很大[7]。

4 結 語

使用信息增益(IG)和文檔頻率(DF)2種特征提取方法,在去除停用詞上,不單純依據停用詞表,而是利用詞性標注進行數據清洗與停用詞表相結合,進而達到降維的目的。研究結果表明,文檔頻率對文本的去停用詞效果要求較高,因而采用該方法的分類效果較差,由于信息增益(IG)考慮了特征項未發現的情況,因而采用該方法可以取得較好的特征選擇效果。

[1]Sebastian F.Machine learning in automated text categorization [J].ACM Computing Surveys, 2002, 34(1):1-47.

[2]夏克儉,張濤.基于貝葉斯算法的垃圾郵件過濾的研究[J].微計算機信息,2008,24(3):179-180.

[3]鐘慰,周鐵軍.樸素貝葉斯分類在入侵檢測中的應用[J].計算機與信息技術,2007(12):24-27.

[4]余芳.一個基于樸素貝葉斯方法的web文本分類系統:web CAT[D].廣州:暨南大學,2004.

[5]王俊英.基于科技文獻的中文文本分類算法研究[D].秦皇島:燕山大學,2005.

[6]楊霞,黃陳英.文本挖掘綜述[J].科技信息,2009,10(3):5-14.

[7]復旦大學語料庫.中文自然語言處理開放平臺[DB/OL].http://ishare.iask. sina.com.cn.ht,2008-09-12 .

[編輯] 李啟棟

TP393.08

A

1673-1409(2013)25-0091-03

2013-06-12

遲慶云(1975-),女,碩士,講師,現主要從事數據倉庫、數據挖掘方面的教學與研究工作。

猜你喜歡
特征提取分類特征
分類算一算
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产欧美日本在线观看| 激情无码字幕综合| 亚洲成a人在线观看| 久久大香伊蕉在人线观看热2| 精品视频免费在线| 亚洲欧美日韩另类在线一| 国产成人h在线观看网站站| 91美女视频在线观看| 在线精品自拍| 狠狠v日韩v欧美v| 国产十八禁在线观看免费| 九色在线观看视频| 99久久婷婷国产综合精| 亚洲中文字幕在线观看| 成人a免费α片在线视频网站| 欧美色综合久久| 国产女人综合久久精品视| 成人福利在线免费观看| 人妻无码中文字幕第一区| 亚洲成aⅴ人在线观看| 狠狠五月天中文字幕| 91香蕉视频下载网站| 婷婷99视频精品全部在线观看| 久草视频一区| 国产va免费精品| 77777亚洲午夜久久多人| 亚洲欧美一区在线| 国产在线98福利播放视频免费| 成人欧美日韩| 欧美日韩激情在线| 四虎国产在线观看| 国产成人一二三| 一区二区三区四区在线| 99久久精品久久久久久婷婷| 日韩欧美亚洲国产成人综合| 国内精自视频品线一二区| 高清视频一区| 青青草原国产免费av观看| 久久精品国产999大香线焦| 国产杨幂丝袜av在线播放| 91福利在线观看视频| 午夜无码一区二区三区在线app| 国产一区二区三区精品久久呦| 久久免费视频播放| 狠狠躁天天躁夜夜躁婷婷| 欧美a级在线| 亚洲三级色| 成人福利一区二区视频在线| 国产精品第三页在线看| 国产三级a| 国产激爽大片高清在线观看| 亚洲色图另类| 日本免费一区视频| 全免费a级毛片免费看不卡| 国产小视频a在线观看| 99精品免费欧美成人小视频| 新SSS无码手机在线观看| 日本影院一区| 亚洲成人网在线观看| 国产激情第一页| 精品久久国产综合精麻豆| 精品国产成人a在线观看| 日本免费a视频| 亚洲an第二区国产精品| 成人精品亚洲| 亚洲天堂伊人| 欧美在线一二区| A级毛片高清免费视频就| 国产欧美自拍视频| 99久久精品久久久久久婷婷| 久久免费精品琪琪| 久久精品aⅴ无码中文字幕| 国产日韩精品欧美一区灰| 91在线一9|永久视频在线| 色综合天天综合中文网| 国产综合亚洲欧洲区精品无码| 2021国产在线视频| 性视频一区| 99热这里只有精品国产99| 久久久久久国产精品mv| 中文字幕无码中文字幕有码在线| 一级香蕉人体视频|