收稿日期:2007-12-02;修回日期:2008-03-24
基金項目:廣東省自然科學基金資助項目(07300647)
作者簡介:周樸雄 (1970-),男, 湖北荊州人,博士,主要研究方向為信息檢索、信息資源管理(puxiongzhou@163.com)*
(華南理工大學 電子商務學院,廣州 510006)
摘 要:將神經網絡集成思想引入Web文本分類領域,提出了利用最小估計誤差策略進行最優加權網絡集成的方案。具體做法是根據各網絡的分類性能、各網絡同其他網絡的相關程度給每個網絡的后驗概率估計賦予不同的權值,通過加權平均提高后驗概率估計的準確程度,進而提高分類率。英文數據庫的實驗結果表明,與經典的Bayes模型、kNN模型相比,該模型具有更高的分類精度與更快的分類速度。
關鍵詞:文本分類;神經網絡集成;精度
中圖分類號:TP391
文獻標志碼:A
文章編號:1001-3695(2008)10-2982-02
Study of Web document classification
based on best weight neural network ensembles
ZHOU Pu-xiong
(College of E-business, South China University of Technology, Guangzhou 510006, China)
Abstract:Inspired by the ideas of neural network ensembles, this paper constructed a multi-BP neural network modeling with best weights that was based the strategy of minimum estimate error. To do this, according to the capability of classification of each network and the degree of each network related to other networks, the different weight would assign to the probability estimates of maximum a posterior (MAP). Further, improved the accuracy of estimate and classification. The experimental results of English database demonstrate that this model hold the better accuracy and speed than the Bayes and kNN models.
Key words:document classification; neural network ensembles; accuracy
0 引言
文本是當前最主要的非結構化信息資源,隨著Internet的日益發展和網上各類信息的迅猛增長,用戶對散布在網絡各處的文檔的檢索工作變得愈加困難。 傳統的做法是對網上信息進行人工分類并加以組織和整理,為人們提供一種相對有效的信息獲取手段。但這種人工分類的做法存在許多弊端,如耗費大量的精力、分類結果一致性不高等。因此,研究高精度的自動文本分類方法具有重要的理論意義和廣闊的應用前景。目前文本自動分類已經成為一個研究熱點,并提出了一系列的分類方法。較為著名的文檔分類方法有支持向量機(SVM)[1,2]、k最近鄰(kNN)[3]、神經網絡[4]、線性最小二乘估計(LLSF)、貝葉斯(Bayes)算法和決策樹等。
自從Hannsen等人[5] 提出神經網絡集成之后, 該技術已被成功地應用于很多領域, 如手寫體數字識別、OCR、語音識別等。神經網絡集成利用多個神經網絡對同一個問題進行學習,集成在某輸入示例下的輸出由構成集成的各神經網絡在該示例下的輸出共同決定。理論與實驗結果證明神經網絡集成能有效提高模型的泛化能力,被視為一種非常有效的工程化神經計算方法[6]。從20世紀80年代開始,人們提出了各種神經網絡結構,對于某個分類問題,可以在同樣的特征下設計出不同的神經網絡分類器。一種做法是:在這些分類器中選出性能最好的一個,如絕對多數投票法和相對多數投票法等;另一種策略則是探索如何將這些分類器的結果綜合起來,典型集成方法是將神經網絡的輸出直接平均[7,8]。直觀上第二種策略應該能獲得更高的識別率,很多研究工作者理論和實踐的結果[5,8]也證明了這一點。但是,已有的結論表明,要增強神經網絡集成的泛化能力,就應該盡可能地使集成中各網絡的誤差互不相關。而另一方面直接平均方法在各神經網的輸出含義不同、各網絡性能差異較大或各網絡的相關性不同時卻很難奏效。
本文針對文本分類問題,從最小后驗概率誤差出發,提出一種新的利用線性回歸進行多神經網絡分類器集成以盡量減少后驗概率誤差的方法,該方法能根據各網絡的分類性能、各網絡同其他網絡的相關程度給每個網絡的后驗概率估計賦予不同的權值,通過加權平均提高后驗概率估計的準確程度,進而提高分類率。
1 用于文本分類的最優權重神經網絡集成模型
假設文本對象有C個類別(ω1,ω2,…,ωC ),構造M個三層BP神經網絡分類器,對于輸入樣本s提取的特征向量為x,則每個BP神經網絡分類器的輸入層有x個神經元,輸出層C個神經元。對于某屬于y類(y∈{1,2,…,C})的輸入樣本其期望輸出為第y個輸出神經元輸出為1,其他的神經元輸出為0,即q(x)=[p1=0,p2=0,…,py=1,pC=0]T,而實際訓練過程中,由于訓練樣本的不充分、訓練時的局部極小等原因,造成第i個分類器的實際輸出為qi(x)=[p^i1, p^i2,…,p^iC]T ,i=1,2,…,M。造成估計誤差 εij(x):p^ij=pj+εij。
基于統計中多次平均降低測量誤差的思路,取各個網絡后的加權和,減小估計誤差。這里對不同網絡給予不同權值是考慮到它們各自性能的差異和彼此相關程度的不同。
設各個分類器的權重為wi(i=1,2,…,M),則q^(x)=∑Mi=1wiqi(x)。構造如圖1所示的神經網絡集成模型。
本文的目的是尋找一個最優加權。在本文中權值選擇的原則是使E{|q(x)-q^(x)|2}達到最小,即dE{|q(x)-q^(x)|2}/dwk=0;k=1,2,…,M(1)而由于E{|q(x)-q^(x)|2}=∑Cj=1E{(pj(x)-∑Mi=1wip^ij(x))2},式(1)即∑Mi=1wi∑Cj=1E{p^ij(x)p^kj(x)}=∑Cj=1E{pj(x)p^kj(x)}
k=1,2,…,M(2)令aik=∑Cj=1E{p^ij(x)p^kj(x)},bk=∑Cj=1E{pj(x)p^kj(x)}
W=w1
w2
wM, A=a11a12…a1M
a21
aM1……aMM, B=b1
b2
bM
則式(2)等價于 AW=B(3)
W=A-1B(4)
因為aik=aki,所以A是一個對稱矩陣。aik實際反映的是第i個和第k個分類器輸出的相關性;bk是第k個分類器期望輸出與真實輸出之間的相關性,反映的是各分類器的準確性。
在實際中,A和B都是通過統計估計得到的:取N個訓練樣本x1,x2,…,xN,則a^ik=1/CN∑Nn=1∑Cj=1p^ij(xn)p^kj(xn)(5)
b^k=1/CN∑Nn=1∑Cj=1pj(xn)p^kj(xn)(6)
對于集成的BP網絡,其具體的訓練及識別過程如下:
a)假設訓練數據集中包含C類文本的信息, 共有m個樣本, 各BP網絡分別用m個樣本進行訓練, 各自分別達到一定精度后停止;
b)根據式(4),按圖1的結構進行神經網絡的集成;
c)提交測試樣本,輸入網絡進行識別,對于一個待識別的文本特征x,若第j( j = 1, 2, …, C)個神經元輸出值最大,則將x歸為第j類文本。
2 實驗結果
本文實驗使用了英文語料庫20newgroup和Reuters 221578,并與kNN、Bayes分類器的結果進行了比較。在預處理部分,選用PCA技術進行文檔向量的降維。對數據集合,筆者選取Reuters221578 中五個類別和20newgroup 中所有的類別,來分別測試算法對于非均勻分布的文檔集合和均勻文檔集合效果。Reuters221578 中的文檔分布如表1所示。
表1 Reuters221578中的文檔分布類別總文檔數類別總文檔數Acq2 369Earn3 864Corn237grain582Crude578
在20newgroup中筆者選取comp.windows.x ,sci.crypt ,alt. atheism ,talk.religion.misc , soc.religion.christian ,共五個類別,每個類別都有1 000 篇文檔。本文使用精度指標(正確判定的類別中正確的文檔數目除以整個測試文檔數) 來評價算法性能。實驗結果如表2、3所示。
表2 Reuters221578數據集分類結果方法訓練時間分類時間分類精度/%Bayes768.8332.482.9kNN010 816.378.6本文方法589.2248.590.6表3 20newgroup數據集分類結果方法訓練時間分類時間分類精度/%Bayes256.2136.983.5kNN01 089.388.3本文方法212.7141.292.1
從結果可以看出,在數據分布不均勻的集合Reuters221578上,kNN的精度最低,而花費的時間最多,反映了kNN算法具有耗時的缺點,且在處理不均勻數據集時精度過低。在20newgroup數據集上的結果表明,kNN算法精度要高于Bayes算法,但仍然是需要高的時間耗費。在兩個數據集上,本文算法無論是時間還是精度都要優于其他兩類算法,表現了好的魯棒性。
3 結束語
高速度、高精度率是所有分類方法追求的目標。本文將神經網絡集成思想應用到文本分類領域,提出了利用最小估計誤差策略進行最優加權網絡集成的方案。 仿真實驗結果表明: 該方法與Bayes模型和kNN模型相比不僅可以明顯提高分類精度,而且具有更快的分類速度,因此該方法不失為一種高效的文本分類新方法,其在文本分類領域的應用是一個有前景的研究方向。
參考文獻:
[1]VAPNIK V N. The nature of statistical learning theory[M] .New York: Springer-Verlag, 1995: 235-313.
[2]CORTES C, VAPNIK V. Support vector networks[J]. Machine Learning,1995,20(3):273-297.
[3]王煜,白石,王正歐.用于Web文本分類的快速kNN算法[J].情報學報,2007,26(1):60-64.
[4]HORNIK K M, STINCHCOMBE M, WHITE H. Multilayer feed-forward networks are universal approximators[J]. Neural Networks, 1989,2(2):359-366.
[5]HANNSEN L K, SALAMON P. Neural network ensembles[J]. IEEE Tran on PAMI,1990,12(10):993-1001.
[6]周志華,陳世福.神經網絡集成[J].計算機學報,2002,25(1):1-8.
[7]TUMER K, GHOSH J. Analysis of decision boundaries in linearly combined neural classifiers[J]. Pattern Recognition, 1996,29(2):341-348.
[8]BATTITI R, COLLA A M. Democracy in neural nets: voting schemes for classification[J]. Neural Networks,1994, 7(4):691-707.