鄒 晴,鈕 焱,李 軍
(湖北工業大學計算機學院,湖北 武漢430068)
文本分類的過程主要由以下幾個步驟構成:1)預處理,把文本信息表示成結構化信息,以使計算機能夠處理;2)特征項選擇,使用特征選擇算法,從特征集中挑選出最能體現出類別信息的特征項,進而得到最佳特征子集;3)分類器訓練與分類運算[1]。其中尤為關鍵的兩步是“特征項選擇”和“分類器訓練與分類運算”。為了更加高效地解決文本分類問題,在理論上,通過將多個分類器的輸出信息結果加以聯合來進行最終決策,無疑會是其中一種可行辦法。
本文選取BP神經網絡、RBF神經網絡及采用K-means算法的RBF神經網絡,利用Sugeno模糊積分作為融合工具,將多個神經網絡文本分類器結合起來,以求得更加理想的中文文本分類結果。
在分類問題中,分類器占有重要的核心位置,分類器的分類效果取決于分類器的性能。常用的幾種分類方法中,在規則比較模糊的判別情況下,人工神經網絡方法具有很強的自學性、容錯性、魯棒性、聯想記憶和推理意識功能等獨特的優勢[2]。因此,基于人工神經網絡的文本分類方法的改進方法值得研究。神經網絡可以看作是一個由函數復合構成的多輸入多輸出系統,每一個非輸入節點都是一個單值多元函數。而通過對這些函數進行模糊積分融合處理,即把幾個已經訓練好的神經網絡分類器同時用于分類,則可以取長補短,獲得更好的分類效果。
BP神經網絡有輸入層、隱含層和輸出層這三個基本層,其中每個層又都包含若干節點,即神經元,該網絡可以看作是非線性的決策過程。起始的特征向量由各特征項的詞頻分別組成,且各自對應于神經網絡輸入層的神經元,文本訓練在隱含層進行,輸出層節點數為輸出的文本類別的個數[3]。BP神經網絡已經作為人工神經網絡中的一種被較多地應用于文本自動分類領域中,其用于函數逼近時,文本特征詞的權值的調整采用梯度下降法,存在著局部極小和收斂速度慢等缺點,在一定程度上影響了文本分類的效果。
RBF神經網絡即徑向基函數(Radical Basis Function)神經網絡,在上述BP網絡的基礎上,在第二層隱含層節點中加入徑向基函數作為訓練文本的激活函數,對于隱含層的輸出加權求和,并據此計算判別特征項的權值,得到從中間層到輸出層間的權值。每一個輸出神經元都各自對應一個判別函數,所以最大的特征權重判別函數值就是文本分類的結果[4]。RBF網絡具有最佳逼近性能和全局最優特性,適于分類曲面復雜的文本分類問題,而且結構簡單,訓練速度快,得以迅速進行大量運算。可是RBF神經網絡對輸入特征項有較高要求,若是特征項選擇不當或是特征項維數過高的話,神經網絡的學習和泛化能力都有出現問題的可能。
在RBF網絡的基礎上,采用K-means算法確定徑向基函數的中心,對于給定的待劃分的文本類別數k,首先建立一個起始劃分。然后為了全部文本特征項的聚類子集當中的記錄達到最大相似,且不同文本特征項的聚類子集的記錄的差異盡可能的大,運用一種迭代重定位技術,嘗試通過對象在劃分之間的移動來反復迭代改進劃分。而劃分出的個體間差異大小選擇歐氏距離作為衡量的依據[5]。結合了K-means算法后的神經網絡分類文本算法,對于傳統的神經網絡分類算法收斂速度慢的缺點有所改進,在取得較好分類精度和召回率情況下,具有較高的運算速度和較強的非線性映射能力。
Sugeno[6]于1974年提出的模糊積分,為信息融合提供了一種可行的方法。首先介紹與模糊積分相關的一些定義及屬性。
定義1:設集合X = {x1,x2,…,xL},其元素有限,其冪集為T(X)。若存在一個集合函數g:T(X)→ [0,1]滿足

則稱其為T(X)上的一個模糊測度。
由模糊測度g的定義可知,存在滿足如下屬性的模糊測度gλ:對所有A,BT(X)和A∩B=存在
gλ(A ∪B)=gλ(A)+gλ(B)+λgλ(A)gλ(B),
λ>-1
1987年日本明尼蘇達大學的Kazerooni等人設計了一種直驅式主動柔順末端操作器,由直流無刷電機帶動連桿機構實現平面內二自由度的運動,并通過末端力傳感器進行力閉環控制,被動RCC彈簧結構使氣動研磨頭實現豎直方向的柔順補償,如圖29所示。為進一步提升末端操作器的柔順性,Kazerooni聯合麻省理工學院開發了被動可調柔順裝置PVCEE(passive variable compliance end-effector),如圖30所示[42]。
令gi=gλ({xi}),則將映射xi→giλ稱為模糊密度函數。
基于模糊測度的概念,Sugeno提出了模糊積分的概念——一個對模糊測度估計的非線性函數。
定義2:設h:X→[0,1]為在X上定義的函數,那么h在集合X上關于模糊測度gλ的Sugeno模糊積分,即

其中,hα是關于h的一個α度量集,hα={x|h(x)≥α}。
有限集合X = {x1,x2,…,xL},設h:1≥h(x1)≥h(x2)≥…≥h(xL)≥0,假如函數h無法滿足此關系,則把集合X的元素重新排列直至函數h能夠滿足此關系為止,那么可以得到在集合X上的關于模糊測度g的函數h的Sugeno模糊積分為

其中,Si= {x1,x2,…,xi}。
令g 是一個gλ模糊測度,gi=g({xi}),則g(Sλi)的值計算如

λ由以下等式得出

λ∈ (-1,+∞),λ≠0,且λ唯一。

圖1 基于模糊積分的多神經網絡融合算法
設一共有 L 個子分類器集合 {x1,x2,…,xL},以及C類目標集合{y1,y2,…,yC}。對于某待識別目標s,其被判定為各類目標的置信度,即是由子分類器xi輸出的識別結果Ui(s)= [μi1(s),μi2(s),…,μiC(s)]。通過Sugeno模糊積分進行融合時,集合X代表這L個子分類器,令網絡xi將示例S分為第j類的概率為hj(xi)=μij,gj(Si)為示例S被子分類器集Si識別為第j類的重要性,經過Sugeno模糊積分融合后,目標s屬于第j類目標的概率也就是置信度,即

依照最大隸屬原則,如果系統要求輸出某一目標類別,就輸出最大μij(s)對應的目標類別[7]。
為將各子分類器輸出的距離dij(s)轉換成置信度,可采用

模糊積分分類器融合識別的過程如下:
1)利用式(3)算出λ;
2)將s屬于各類的信度從小到大依序排列,并將相應的模糊密度也重新排列;
3)使用式(1)、(2)進行模糊測度的計算;4)通過式(4)計算模糊積分;
5)最后按最大隸屬原則進行分類。
實驗中以10個類別的文本為樣例s,分別為:環境(30篇)、計算機(40篇)、交通(36篇)、教育(34篇)、經濟(50篇)、軍事(40篇)、體育(48篇)、醫藥(42篇)、藝術(54篇)和政治(26篇)共400篇文章作為訓練集。對每個類別,分別統計出現在類中的詞頻,互信息及類別信息,并且將根據這三個特征計算出的類別相關度,根據權重的大小,進行排序。
在關鍵字個數為20的情況下,分別用BP神經網絡分類器、RBF神經網絡分類器、采用 K-means算法的RBF神經網絡分類器和基于模糊積分的多神經網絡融合分類器這四種分類器根據輸出的距離dij(s),將文本分為目標的10個類別,進行訓練測試比較。
首先,采用某種方法[8]對10個類別分別得到相應的模糊測度gλ。
在本實驗中,L=3,帶入式(3),即

整理得


根據文獻[8]結論,及根與系數的關系有以計算機、經濟、藝術三類為例,分別得到相應的gλ模糊測度。根據文獻[9],假設各類相應的g1,g2,g3取值,及其經過推導后結果見表1。

表1 模糊密度和相應的λ
根據式(1)(2)計算模糊測度,有

以查準率為例,結合表2已知子分類器數據,按順序排列后再由式(4)進行模糊積分,有



表2 三種不同神經網絡查準率

表3 gλ模糊密度與模糊積分e
查準率是所有判斷出的文本數和人工分類結果的文本數一致的文本所占的百分比[10]。數學公式如


查全率是文本分類系統實際識別出的準確結果和與文本測試集中總的準確結果的百分比。數學公式如查準率和查全率都必須考慮,不能忽視,因為這兩者反映了文本分類質量的兩個不同面,所以出現了一個新的評價指標的測試值:
以計算機類文章的分類為例,最終測試結果見表4。


表4 計算機類文本的不同方法測試結果比較
從表4中可以看到,各子分類器在文本分類上的表現各有優劣。準確度(包括查全率、查準率及F1值)在用模糊積分融合后的多分類器的分類結果,比起各子分類器,優化效果明顯。
在神經網絡文本分類器與模糊積分的基礎上,提出一種基于模糊積分的多分類器融合的中文文本分類方法,不同子分類器的融合,使查準率得到有效提高,進而證明了其有效性與實用性。由于各子分類器間的互補性因融合系統的性能得到了提高,因此,即使某一分類器對某類目標的識別率不高,也不會影響該融合系統的性能。實驗結果表明,該方法有效可行,且具有更好的分類結果。
[1] 陳艷秋,孫培立.一種基于類別強信息特征和貝葉斯算法的中文文本分類器[J].計算機應用與軟件,2014(08):330-333.
[2] 丁 碩,常曉恒.Gaussian型RBF神經網絡的函數逼近仿真研究[J].河南科學,2013(09):367-369.
[3] 朱 敏.基于自適應遺傳BP神經網絡的文本分類方法研究[D].南昌:南昌大學,2010.
[4] 郁嬋嫻.基于RBF網絡的中文文本自動分類的研究[D].上海:華東師范大學,2007.
[5] 盧曼麗.基于K-means算法的神經網絡文本分類算法研究[J].中國管理信息化,2014(21):80-82.
[6] Surgeno M.Fuzzy measures and fuzzy integrals:A Survey[C].Fuzzy Automata and Decision Processes msterdam:North Holland,1977:89-102.
[7] 程 劍,應自爐,張有為.基于模糊積分多分類器融合的人臉表情識別[J].信號處理,2005(21):358-361.
[8] 陳俊芬.基于Choquet模糊積分的多神經網絡融合模型[D].保定:河北大學,2005.
[9] 王熙照.模糊測度和模糊積分及在分類技術中的應用[M].北京:科學出版社,2008:206.
[10]薛 亮.基于SVM的中文文本分類系統的設計與實現[D].重慶:重慶大學,2012.