丁小艷
基于PSO優化的盲源分離式文本特征降維分類方法
丁小艷
江蘇醫藥職業學院醫技學院, 江蘇 鹽城 224005
為了有效解決文本特征分類過程中高階相關性問題,本文在盲源分離式文本特征降維分類方法的基礎上引入粒子群(PSO)算法,有效規避迭代過程中局部最優解問題,且以負熵作為適應度函數,有效改善獨立主成分分析的判別性能,經過實驗證明經過優化后的方案,在精確度、準確率、召回率、1測試值等方面有較好的表現。
文本特征; 盲源分離; PSO; 分類
文本分類指的是以文本的特征為依據,將其分為不同的類型,使同一種文本的特征是最相似的。大部分文本采用的是自然語言,和計算機語言是有明顯區別的,因此,在利用分類系統之前,首先要將文本轉變成其特征項與特征權值所構成之向量,若將分詞詞類當成特征量,向量便有機會達到幾萬維度,這是非常龐雜的,此時計算工作量猛增,并且會產生一系列的無價值信息,對分類造成干擾,所以降維這個環節是非常重要的[1]。
就實踐來看,降維方面可以應用的方法是特征選擇或提取。前者是利用特征計算方法,從特征集合中選擇能夠更好的區分文本的特征項,包括(DF)、2(Ch-)統計、信息增益(IG)、互信息(MI)等方法。文獻[1]對這些方法比較分析,結果表明,每種方法都有自身的優勢和缺陷,適用于各種分類器以及數據集。一詞多義、多詞同義在本文中十分常見,特征選擇的前提是不同特征彼此互不影響,因此利用這種方法來降維,往往難以實現預期的效果。后者需要對原始特征進行分析,由此確定新特征,以便實現降維進程內,找出文本特征下的語義關系,避免了前一種方法的缺陷。文獻[2]指出,線性判別分析并不適用于高維小樣本,此時類間散布矩陣是奇異矩陣,變換矩陣無法直接求解。通常情況下,文本有幾萬個甚至更多的特征,但在樣本不足的狀況下,線性判別分析的降維效果并不好。主成分分析能夠提供彼此獨立的若干主成分,去除其中二階分析產生的冗余信息,保留高階冗余信息[3]。文獻[4]探討了獨立主成分分析(ICA算法)在降維方面的作用,利用該算法得到彼此互不影響的若干成分,解決了高階相關性的問題,相比主成分分析,其在分類方面具有顯著的優勢。
面對分離矩陣,應用ICA方法,由于需要迭代,往往會產生局部最優解。為此,筆者將粒子群算法引入進來,并對ICA算法進行改良[5-7],然后通過改良后的PSO-ICA方法來提取文本向量的特征,然后提供給支持向量機[8],完成文本的分類。結果顯示,改良后的方法更加適用于文本的分類。
基于峰度、互信息最大化和負熵值等進行判斷,從而確定不同分量彼此間的獨立性。筆者在本文中選擇負熵為估計準則,它是以非高斯性為依據來評判獨立性的,分量的獨立性和非高斯性之間為正相關關系。負熵指的是:
()=(y)-() (1)
這里面,()=-òp()logp(),代表密度為p()的隨機變量的熵:y和均為高斯隨機向量,二者之間存在相同相關矩陣,()近似的表達為:
()μ{[()]-[()]}2(2)
這里面,代表標準的高斯變量,(·)為非二次項函數,其值和高斯性類型有關,目前應用最廣泛的(·)包括三類,詳見下式(3):

這里面,為常數,其取值不超過[12]這一范圍。
設D×n作為文檔的向量矩陣,A×h為混合矩陣,S×n為獨立分量,我們將文檔矩陣能夠描述為:D×n=A×n·S×n,這里面,代表文檔特征向量之維數;代表文檔集合文檔數量;代表獨立分量數量,即需要降低的維度。
假定具有可逆矩陣,則根據S×n=w×m·D×n確定獨立分量,這里面,代表維空間到維空間的投影矩陣,且≤。在文本分類過程中利用獨立分量分析方法,從而通過計算確定獨立分量,并用其取代文檔矩陣,如此一來,我們就能夠得到潛在的特征,同時也達到了降維的目的。
Fast ICA算法計算簡單,能夠在短時間內收斂,不過它是利用梯度下降法進行計算的,若選擇不合適的初始值,很有可能產生局部最優解。PSO算法能夠找到全局最優解,不過它也有自身的缺陷,無法避免隨機性、模糊性的問題,迭代環節容易發生“震蕩”問題。為此,筆者將PSO和ICA融合在一起,提出了新的PSO-ICA算法。
ICA算法的思路是計算出分離矩陣,然后據此提取出特征,通過PSO算法對予以求解。PSO-ICA算法的執行流程為:
步驟1對文本矩陣予以去中心、白化處理,從而使后續的ICA計算變得更加簡單,消除不同特征彼此間的相關性。
步驟2 初始化解混矩陣,考慮道包含的各列是彼此正交的,將其列數表示成(=1,2,…,),在=1的情況下,隨機選取一列維的單位向量并以此為1的初始值,在2≤≤的情況下,w的初始值一定要符合這一條件:∥w∥=1,w^1,w^2,…,w^w-1。
步驟3 選擇個粒子,對其參數進行初始化處理,以w為粒子的位置向量X其位置向量X和初始速度分別是w和0.2X。
步驟4 通過計算確定適應度值,其中=wT iMz/∥Mw∥,因中的各列是彼此正交的,因此,在=1的情況下,1=;而在1<≤的情況下,有:


步驟5 計算更新所有粒子的實時位置和速度。
步驟6 若符合停止條件,終止搜索,返回全局最優位置w;否則需要回到步驟4。
步驟7 歸一化w,得到:w=Mw/∥Mw∥。
步驟8 令=+1,判斷的所有列向量是否完成了運算,如果≤,跳轉到步驟2;如果不然,則進入下一步。
步驟9 實現特征分離分離s=wT iz
立足以上理論進行實驗,以反映出新方法的效果。實驗條件為:Intel CoreTmi5-6500 CPU@3.20GHZ,使用64位操作系統,內存達到4 GB。
中文文本分類步驟過程為:
①根據某項比例,將文本分成兩個部分,即訓練集、測試集。對所有文本展開分詞、剔除停用詞等處理,其中分詞是借助中科院ICTCIAS系統達成的。
②通過VSM將全部文本轉化成特征向量,運用IF-IDF算法確定特征詞權值。
③運用PSO-ICA算法展開計算,獲得分離矩陣與獨立基子空間。
④將兩個集合之文本特征向量投影至獨立基空間中展開計算,便可得到所有文本之特征向量。
步驟5通過LIBSVM完成分類操作。
此次實驗涉及到了兩個數據集主要下載自CSDN平臺,其中酒店評論鏈接為https://download.csdn.net/download/xyz1584172808/10342201。某電商某商品評論鏈接為http://blog.csdn.net/lingerlanlan/article/details/38418277。二者均包含了好評和差評。
根據四項指標來評估本文方法的分類效果,具體為精確度、準確率、召回率、1測試值。
基于三組數據完成3組實驗,從而檢驗出PSO-ICA的文本分類效果,每組的數量和類型是確保存在差異的。
3.3.1 PSO-ICA在不同數目的數據集下的分類比較基于首個數據集完成本次實驗,首先利用隨機法把數據分成三組,具體分組詳見表1。

表1 實驗數據分組信息
通過PSO-ICA算法,獲得各組數據之相關特征,并予以LIBSVM分類,實驗結果詳見表2。

表2 3組不同數據基于PSO-ICA的分類效果
對表2進行分析可知,在數據集包含的文本數量不斷提高的過程中,分類四項指標的表現都有所增強,證明PSO-ICA更加適用于大樣本的處理,且即便樣本容量較小,也不會發生過擬合的問題。


圖2 酒店評論數據降維分類效果

圖3 某電商商品評論數據降維分類效果
對以上兩圖進行分析能夠確定,分類的正確率,和獨立分量的數量以及降維維度直接相關。在維度不斷上升的過程中,分類正確率先是不斷升高,達到一定的峰值后不斷降低。原因在于維度達到一定水平后會形成災難,使分類效果受到影響。因此,針對各種數量和類型的數據集,都有與之匹配的獨立特征數。
3.3.3 PSO-ICA與Fast ICA的分類效果對比 Fast ICA在提取小文本集的特征過程中,有可能會出現局部最優解,引發分類效果降
低。筆者對此對比與實驗2相同之數據集。對同一個數據集,通過Fast ICA和PSO-ICA予以降維處理,具體的分類效果詳見表3和4,無論是從準確率,還是從1測試值角度來看,PSO-ICA算法都具有更好的表現。

表3 不同方法下酒店評論數據的分類效果

表4 不同方法下某電商商品評論數據的分類效果
文本分類是一項流程性的工作,它包括了多個環節,文本向量空間特征降維即為其中之一。考慮到文本向量的特征是高維、稀疏的,筆者將和PSO與ICA結合起來,運用PSO算法探尋ICA算法內的目標函數之最優解,其與傳統梯度下降法相比,更易避免呈示出局部最優解。研究顯示,新算法能夠有效的縮短特征提取的耗時。經典PSO算法收斂耗時長、精度低,因此接下來的研究工作主要是進一步的改良PSO算法并將其和ICA結合,從而實現更為理想的分類效果。
[1] 代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學報,2004,18(1):26-32
[2] Wang S, Lu J, Gu X,. Semi- supervised linear discriminant analysis for dimension reduction and classification[J]. Pattern Recognition, 2016,57(C):179-189
[3] Chen XS. Accelerated k-nearest neighbors algorithm based on principal component analysis for text categorization[J]. Frontiers of Information Technology & Electronic Engineering, 2013,14(6):407-416
[4] 何海斌.文本分類中特征降維技術的研究[D].保定:河北大學,2010
[5] Han M, Jiang LW. Endpoint prediction model of basic oxygen furnace steelmaking based on PSO-ICA and RBF neural network[C]. Dalian, China: 2010 International Conference on Intelligent Control and Information Processing, 2010:388-393
[6] 劉廣威,葛海波,程浩,等.基于IPSO-ICA算法的盲多用戶檢測[J].電視技術,2016,40(2):23-26
[7] Jo T. String vector based KNN for text categorization[C]. Bongpyeong, South Korea: International Conference on Advanced Communication Technology, 2017:458-463
[8] Zhou XF, Guo L, Liu P,. Latent factor SVM for text categorization[C]. Shenzhen China: 2014 IEEE International Conference on Data Mining Workshop, 2014:105-110
The Reduction Dimension Classification Method of Blind Source Separation Text Feature on PSO Optimization
DING Xiao-yan
224005,
In order to effectively solve the problem of high-order correlation in text feature classification, particle swarm optimization (PSO) algorithm was introduced on the basis of Blind Source Separation (BSS) text feature dimension reduction classification method to effectively avoid the local optimal solution problem in the iteration process. fitness function was regarded as Negative entropy to effectively improve the discriminant performance of independent principal component analysis. Experiments showed that the optimized scheme had better performance in accuracy, accuracy, recall and test value.
Text features; blind source separation; PSO; classification
TP391
A
1000-2324(2019)05-0881-04
10.3969/j.issn.1000-2324.2019.05.032
2018-05-05
2018-06-23
丁小艷(1982-),女,碩士,講師,主要研究方向為大數據存儲與索引,醫療信息安全技術. E-mail:didadi886@126.com