遲慶云,劉夢琳,姜振鳳,胡 華 (棗莊學院信息科學與工程學院,山東 棗莊 277160)
特征提取方法對樸素貝葉斯文本分類器的影響分析
遲慶云,劉夢琳,姜振鳳,胡 華 (棗莊學院信息科學與工程學院,山東 棗莊 277160)
特征提取方法在文本分類過程中起著重要作用,文本分類的效果受特征提取方法選擇的直接影響。采取信息增益和文檔頻率2種特征提取方法,對樸素貝葉斯分類模型的查全率和準確率進行驗證比較。研究表明,樸素貝葉斯分類器的分類效果隨著維數的增加先增加后減少;在維數一定時,信息增益(IG)的分類效果明顯好于文檔頻率(DF)的分類效果。
文本分類;樸素貝葉斯文本分類;特征提取
文本分類能夠改善文本信息雜亂的狀況,其廣泛應用于文本索引、文本信息過濾、自動元數據的產生、詞意辨析、Web資源分類和應用程序中的文本管理等方面,其中樸素貝葉斯文本分類算法在垃圾郵件過濾、入侵檢測等領域表現出較好的性能。此外,特征空間的高維性一直是文本分類的難題。在高維特征空間中,特征之間由于可能存在不相關性或者是冗余性,必然會出現過學習現象,導致時間與空間開銷大。為了降低計算復雜度和提高分類準確率,必須降低特征空間維數,而特征提取是降低特征空間維數的較好的解決方法。下面,筆者分析了特征項提取方法對樸素貝葉斯文本分類器的影響。
研究表明,貝葉斯分類算法能從各個方面進行考慮,其測試結果出錯率較小[1]。計算機通過觀察訓練數據的特點,來猜測一個可能的分類規則,完成訓練階段的最終產品——分類器。訓練過程一般花費時間比較長,系統將所有文本訓練一次后,將假設訓練語料包含N個文本D={D1,D2,…,Dn},上述文本分屬于M個文本類別C={C1,C2,…,Cm},訓練語料集共有L個文本特征詞W={W1,W2,…,WL}。
當文本Di屬于類別Cj時,則有P(Cj|Di)=1,否則P(Cj|Di)=0。如果給定文本類別變量,則文本類別Cj的先驗概率估計為:

(1)
若用F(Wk,Di)表示特征詞Wk在文本Di中出現的次數,則特征詞Wk在類別Cj中的概率估計為:
任何文本都可視為一系列有序排列的特征詞的集合,在貝葉斯分類器通過概率方法對數據如何生成制定了一個強有力的獨立性假設,并得出類別Cj中產生文本Di的概率為:
(3)
根據測試文本特征數據計算測試文本屬于每個類別的概率,然后按照最大概率對測試文本進行分類。測試文本Di屬于類別Cj的概率:

(4)
文本向量通常采用向量空間模型進行描述。在向量空間模型中,如果不經過特征提取,不將非結構化的原始數據轉化為可處理的結構化的形式,而是直接用分詞算法和詞頻統計方法得到的特征項來表示文本向量中的各個維,那么所得到的向量維度將非常大。這種高維的文本向量必然使文本分類過程效率非常低下,不但給后續工作帶來巨大計算開銷,而且會降低分類算法的精確性[2]。因此,需要通過特征提取方法來降低特征空間維數,即使用某種算法從原始文本中抽取出的特征詞進行量化來表示文本信息,用來描述和代替原文本,從而達到降低文本向量空間的目的。采取上述方法不但能選出能夠很好反映文本內容的詞,提高文本分類的效率,而且能降低系統的開銷。
在文本分類中,用于特征提取的方法主要包括文檔頻率、信息增益等。選擇正確的特征提取方法對于對提高文本分類正確率有著十分重要的影響。
2.1文檔頻率
文檔頻率(DF)是指在整個數據集中有多少個文本包含某個單詞。對于文檔頻率,通常會設定一個閾值。針對訓練文本集中每個特征的文檔頻率,若該項的DF值小于閾值,表示該特征是稀有詞,信息含量太少,沒有代表性,應作為噪音加以刪除;若其DF值大于某個閾值也應將其去除,因為其代表了“沒有區分度”的極端情況。總之,在文本分類中使用文檔頻率進行特征提取具有操作簡便、計算迅速的特點[3]。
2.2信息增益
信息增益(IG)是一種基于熵的評估方法,其計算公式如下:

(5)

文檔集中某個特征項對類的貢獻越大,必然對類也越重要,那么它的信息增益值越大。在類分布和特征值分布高度不平衡的情況下,使用該方法的效果會大大降低,因為此時的函數值由不出現的特征決定,絕大多數類都是負類,絕大多數特征都不會出現。
3.1試驗數據
試驗語料庫分為訓練語料庫和測試語料庫2部分,從復旦大學中文語料庫中下載,訓練集由一組已經完成分類的文本組成,用來歸納各個類別的特性以構造分類器,分別為教育、醫藥、計算機、經濟和環境。測試集用于測試分類器分類效果的文檔的集合。
3.2文本預處理
針對訓練語料庫分詞預處理部分,采用中科院計算所漢語詞法分析系統(ICTCLAS)進行分詞預處理、數據清洗和去除停用詞[4]。ICTCLAS把訓練語料庫中的句子轉換成詞,對標點、助詞、連詞、介詞、量詞等進行清洗,并去掉文本中存在的助詞、副詞、連詞、代詞、介詞、嘆詞、量詞、數詞等。
3.3特征項選擇
特征選擇模塊包括詞頻統計和文本特征選擇。詞頻統計是文本特征項權值計算的基礎,其通過統計一定長度的語言材料計算每個詞出現的次數并分析統計結果。文本特征選擇模塊采用信息增益(IG)和文檔頻率(DF)方法,從原始特征項中抽取一定數量的特征項,從而達到降維目的并形成特征項詞典。在文檔預處理后,將DF和IG特征選擇后的前20個詞取出進行分析。

表1 采用DF和IG特征提取方法提取的特征詞
3.4試驗結果分析

圖1 特征提取的維數為3000維時樸素貝葉斯分類算法

從圖1可以看出,“交通”和“體育”2個類別的查全率、查準率和F1值都為100%;“經濟”的查全率為77.8%,相對較低;“教育”的查準率只有71.4%,是所有類別中最低的,這是由于這上述類別的訓練文本和測試文本的相似度相對較低的緣故[6]。
測試文檔提取1000維、2000維、3000維、4000維的試驗結果如圖2所示。

圖2 測試文檔提取1000維、2000維、3000維、 圖3 不同方法提取特征時性能比較圖
由圖2可知,樸素分類器的分類效果隨著維數的改變而改變,當文檔特征值提取維數在3000維時,分類器的分類效果比較明顯。在特征提取時采用信息增益(IG)和文檔頻率(DF)提取3000維的試驗結果如圖3所示。由圖3可知,信息增益(IG)的分類效果明顯好于文檔頻率(DF)的分類效果,這是因為DF所確定的值,即訓練集合中單詞發生的文本數在總體上是很小的,但在部分文本中出現的頻率可能會很大[7]。
使用信息增益(IG)和文檔頻率(DF)2種特征提取方法,在去除停用詞上,不單純依據停用詞表,而是利用詞性標注進行數據清洗與停用詞表相結合,進而達到降維的目的。研究結果表明,文檔頻率對文本的去停用詞效果要求較高,因而采用該方法的分類效果較差,由于信息增益(IG)考慮了特征項未發現的情況,因而采用該方法可以取得較好的特征選擇效果。
[1]Sebastian F.Machine learning in automated text categorization [J].ACM Computing Surveys, 2002, 34(1):1-47.
[2]夏克儉,張濤.基于貝葉斯算法的垃圾郵件過濾的研究[J].微計算機信息,2008,24(3):179-180.
[3]鐘慰,周鐵軍.樸素貝葉斯分類在入侵檢測中的應用[J].計算機與信息技術,2007(12):24-27.
[4]余芳.一個基于樸素貝葉斯方法的web文本分類系統:web CAT[D].廣州:暨南大學,2004.
[5]王俊英.基于科技文獻的中文文本分類算法研究[D].秦皇島:燕山大學,2005.
[6]楊霞,黃陳英.文本挖掘綜述[J].科技信息,2009,10(3):5-14.
[7]復旦大學語料庫.中文自然語言處理開放平臺[DB/OL].http://ishare.iask. sina.com.cn.ht,2008-09-12 .
[編輯] 李啟棟
TP393.08
A
1673-1409(2013)25-0091-03
2013-06-12
遲慶云(1975-),女,碩士,講師,現主要從事數據倉庫、數據挖掘方面的教學與研究工作。