張素智,魏萍萍,徐家興
(鄭州輕工業學院計算機與通信工程學院,鄭州 450002)
面向聚類的堆疊降噪自動編碼器的特征提取研究
張素智,魏萍萍,徐家興
(鄭州輕工業學院計算機與通信工程學院,鄭州 450002)
為解決短文本聚類時文本的高維稀疏性問題,提出一種基于堆疊降噪自動編碼器的短文本特征提取算法。該算法利用深度學習網絡形式,把多個降噪自動編碼器網絡逐層堆疊起來,將高維、稀疏的短文本空間向量變換到新的低維、本質特征空間。實驗結果表明,將提取的文本特征應用于短文本聚類,顯著提高聚類的效果。
自動編碼器;深度學習;特征提取;聚類
近年來,隨著互聯網技術的迅速發展和移動通信設備的廣泛普及,以微博、微信、BBS等形式的短文本數量以指數級增長。短文本信息涵蓋多個領域,如經濟、政治、文化等,為人們搜索數據提供了很大的數據來源,但由于短文本本身具有樣本數量多、詞頻單一、用詞不規范、特征稀疏等特點,人們的利用效率與短文本產生的速度不匹配,增大了用戶獲取有效信息的負荷,給廣大用戶帶來時間和資金上的巨大浪費,也嚴重削弱著政府部門、公司、企業等管理者的決策效率。如何選擇有效地聚類算法,從中獲取有價值的隱含知識,己經成為一項迫切的需求。
向量空間模型(Vector Space Model,VSM)是[1]最早被用用于文本聚類,但該模型聚類的精確性和擴展性都不高。TF-IDF模型[2]在向量空間模型的基礎上,用文本中詞的權重向量表示文本,并對特征詞進行加權處理,但這種方法存在向量維度過高,數據稀疏的問題。許多研究人員提出了好多特征提取方法用于文本聚類。最經典的有最大熵模型[3]。
還有許多研究人員把主題模型用于文本聚類。自Blei等[4]提出LDA主題模型以來,史劍虹等[5]對LDA模型講行了改進,通過結合K-Means和HAC的混合聚類方法,對短文進行聚類,但是該模型對低數據處理效果佳。
以上提出的傳統的聚類方法對特征的識別度不高,尤其是處理維度過高的短文本數據時,更容易出現誤差。因此,如何選取更好的特征提取算法,提高短文本的聚類效果,是一個亟待解決的問題。針對以上這些問題,本文提出一種基于堆疊降噪自動編碼器的文本聚類算法,該算法將深度學習引入文本聚類中,實現非線性降維,使得聚類效果更加明顯。
1.1 深度學習
深度學習[6]起源于人工神經網絡,由多隱層的多層感知器組成。它可以通過逐層學習算法從輸入的數據中獲取的主要驅動變量,屬于神經網絡模型,卻比簡單的神經模型更為復雜,所處理的問題也更為復雜多樣,如圖1所示。深度學習通常含有多層的隱層節點,它模仿人腦的機制來解釋數據,例如圖像、聲音和文本,進行從低級到高級的特征提取。
典型的深度學習模型有卷積神經網絡(Convolutional Neural Network)、DBN和堆棧自編碼網絡模型(Stacked Auto-Encoder Network)等,本文選取堆棧自編碼網絡模型進行研究。

圖1 深度學習網絡
1.2 短文本的預處理
本文的短文本預處理[7]首先需要對文本分詞,然后進行清洗,剔除無關詞組,把處理后的詞組當做詞袋,短文本特征向量的每一個度量均用詞袋中的每個詞組表示,使得每條短文本都可以用空間中的一個向量來表示。如下所示:

袋中詞的總數量用m表示詞;ti表示該短文本是否包含詞袋中的第i個詞,當t等于1時表示包含,當t等于0時表示不包含。
2.1 基本思路
本文將堆疊降噪自動編碼器(Stacked Denoise Auto-Encoders,SDAE)用于短文本聚類,將短文本的高維稀疏向量向低維向量轉化,并使用剔除過高緯度中的干擾部分的低維向量所包含的文本信息的本質進行聚類分析,以便提高最終的聚類效果。算法分為如下過程:
(1)文本預處理、獲取文本空間向量:通過對短文本進行語義分析,提取關鍵數據并以此構建向量模型,將每條短文本都轉化為向量。
(2)采用最優梯度下降法,訓練第一個DAE網絡,得到訓練樣本在隱藏層的輸出值。
(3)把多個DAE網絡用深度網絡結構的形式逐層堆疊起來,前一層的輸出作為后一層的純凈輸入,逐層進行訓練形成一個由DAE上下連接而成的模型結構,即為SDAE。這一過程中包括加噪處理和正則化,最終提取出最優的低維特征向量。
(4)對得到的基于SDAE模型處理過的低維特征向量進行聚類處理,并和其它的聚類算法做實驗對比,驗證該模型的有效性。算法流程如圖2所示。

圖2 算法基本流程圖
2.2 基本的自動編碼器
自動編碼器(Auto-Encoder,AE)[8]是由輸入層、隱藏層和輸出層三層神經網絡構成的神經網絡,由編碼器和解碼器兩部分組成。向量x被輸入到編碼器之后得到一種編碼形式,再通過解碼器解碼得到重構數據。根據重構誤差函數值衡量自身的學習效果。AE的結構如圖2所示。

圖3 AE結構示意圖
本文選擇sigmoid函數作為自動編碼器的激活函數,編碼器對接收到的短文本向量x進行線性變化,經過sigmoid函數作用后,得到一個編碼結果y,計算方式如(2)式。編碼結果y再通過解碼器進行重構,最終獲得向量Z,計算公式如式(3)所示。

θ={W,b}為編碼參數,θ'={W',b'}為解碼碼參數,其中W表示一個d'×d的權重陣矩,W'為矩陣W的轉置,即W'=WT,而b和b'都屬于偏倚向量。
Z在滿足一定分布的條件概率下,盡可能的接近X,所以通過對下面重構誤差函數進行優化可以替代目標函數:

我們要分為兩種情況考慮式(4)函數形式的選擇:
(1)X為實數,即X∈Rd:X|Z~N(Z,σ2I),這時誤差函數可選擇為:

其中,C(σ2)為由決定的常數,σ2在優化時可忽略。
(2)X表示二進制數時,即:

本文選用扁平狀的S型函數作為誤差函數,分別用B(X)和B(Z)表示二者的均值。如果遇到不嚴格的二進制數,也可以用此函數表示:如式(7)所示:

經過W'=WT得到進一步的約束。求取argθ,θ'minEq0(x)[L(X,Z(X))]的最優,需要經過自動編碼器不斷地訓練,結合式(3),最優函數可重寫為:

2.3 降噪自動編碼器
當樣本被輸入到傳統的AE中時,往其中加入某種類型的噪聲,就構成了降噪自動編碼器(Denoise Auto-Encoders,DAE)[9]。降噪自動編碼器的最終目的就是對原有數據進行降噪,獲得更加清晰的輸入文本。例如:設原有樣本與結果樣本映射函數為qD(|X),則經過DAE編碼后得到的輸出值如式(10)所示:

經過解碼器解碼后得到的重構結果為:

和基本的自動編碼器相比,DAE只有損失函數和AE不同:
線性解碼器:

或非線性自動解碼器:

降噪自動編碼器具有非常強大的非線性表達能力,因此它經常對個別對象特有的特征進行充分描述,避免不了對輸入的數據過度擬合。針對以上問題,本文使用絕對值函數作為懲罰項,絕對值較小的系數會被自動壓縮為0。使用L1范式正則化[10],把公式(12)和(13)調整為公式(14)和(15)來完成此計算。
線性解碼器:

或非線性解碼器:

λ作為L1范式的參數,要確保模型擬合能力和泛化能力的均衡,需要根據實際數據進行多次調試。
DAE的解碼器損失函數與傳統AE不同的是,重構信號Y是由受污染信號重構得到的,樣本X每經過DAE訓練一次,都會根據qD(|X)產生一個不同的。計算過程如圖4所示。

圖4 DAE流程圖
2.4 堆疊加噪自動編碼器
把多個DAE網絡用深度網絡結構的形式逐層堆疊起來,前一層的輸出作為后一層的純凈輸入,逐層進行訓練形成一個由DAE上下連接而成的模型結構,即為SDAE。其學習過程如圖5所示。
圖5(a)表示第一層降噪自動編碼器DAE網絡,其訓練過程如圖3所示。用fθ對輸入的向量X進行降噪編碼,其中,fθ是通過訓練得到的編碼函數。
第二層DAE輸入的樣本是通過第一層DAE輸出的結果得到的,經過訓練得到該層的編碼函數fθ(2),如圖5(b)所示。
按以上的訓練過程重復訓練多次,基于自動編碼器的深度網絡的模型就得到了。對網絡所有層的參數用梯度下降法進行微調,可以達到最優的聚類效果,如圖5(c)所示。

圖5 SDAE計算過程
2.5 短文本聚類
經過堆疊降噪自動編碼器SDAE的處理后,高維的短文本向量就得到了降維轉換。本文將經SDAE編碼器處理后的結果用于文本聚類,探討其對聚類效果的影響。
自組織映射神經網絡SOM算法(Self Organizing Maps)[11]是一種簡單高效、對噪聲不敏感的聚類算法,本文使用SOM算法進行短文本的聚類分析。
本文把處理后的n維短本文向量做為輸入,建立一個二維網格,輸出節點數用m表示,i和j分別表第i個輸入神經元節點與第j個輸出神經元節點,它們之間的連接權用wij表示。
首先,以一定概率初始化n維向量x的連接權值。其次,計算找出t時刻輸入向量到所有輸出節點的最小距離dj,確定獲勝神經元i(x)。最后,調整連接權值向量,重復選擇dj最小的節點,直到學習完所有樣本,就完成了SOM神經網絡的訓練,得到最終聚類結果。
3.1 評價指標
衡量聚類效果的指標有多種,本文選用Entropy和Precision[12]兩種指標。
Entropy稱為信息熵,其值越小,聚類的純度越高。信息熵的計算方法如式(16)和(17)所示:

分別用G和G'表示實際的聚類個數和實際的類別個數;Ai表示聚類中的某一個簇,其中label(di)表示每條微博,i=1,…,|A|的實際標注,Cj(j=1,…,G)等于其值標準的類標記。
聚類的質量隨著Precision值的增大而提高。它表示聚類結果的準確度,如式(18)所示:

用Precision的加權平均表示聚類結果:

3.2 實驗數據
本文選取比較有代表性的微博短文本數據作為分析對象,利用深度學習的思想對短文本進行特征降維,用SOM聚類方法處理后,與已有人工標注實驗數據進行對比,驗證該算法的有效性。數據來源于數據堂上的微博分類語料庫。該數據集經過人工標注,分為體育、娛樂、健康、教育、科技五大類。本文中每類各取1500條微博。
3.3 實驗過程
文本預處理:首先,去除與微博內容無關的內容,如短鏈接的字符串,只保留“http”關鍵詞;然后,對微博短文本數據進行清洗;最后,使用漢語中文分詞系統(參考NLPIR2016)對數據進行分詞、去停用詞等處理,得到微博數據詞袋。
為節省時間和效率,本文結合Glorot等[13]的研究結果可知,前8000個詞就能較全面地體現短文本的內容,因此從28261個分詞結果中取前8000個詞作為每條微博的特征集,按照前文敘述的方法,建立對應的空間向量。實驗共分成4個部分:直接采用SOM算法對短文本特征向量直接進行聚類;結合TF-IDF向量空間模型,在此模型的基礎上對特征詞加權處理,再使用SOM算法對短文本特征向量進行聚類;運用LDAGibbs模型[14]對語料集進行處理后,再使用SOM算法對短文本特征向量進行聚類;采用本文的方法即基于SDAE模型的SOM算法對短文本特征向量進行聚類。
3.4 實驗結果和分析
表1~4分別代表上述4種方法的聚類結果,圖4和圖5分別對應聚類結果的信息熵和準確度。其中SOM代表直接使用SOM算法對短文本向量進行聚類分析,TF-IDF+SOM代表在TF-IDF模型的基礎上使用SOM算法對短文本向量進行聚類分析,LDA-G+SOM代表在LDA-Gibbs模型的基礎上運用SOM算法對短文本向量進行聚類,DSAE+SOM代表經過堆疊降噪稀疏自動編碼器處理過再使用SOM算法對短文本向量進行聚類。

表1 SOM聚類結果

表2 TF-IDF+SOM聚類結果

表3 LDA-Gibbs+SOM聚類結果

表4 DSAE+SOM聚類結果
由綜合信息熵和準確度兩種衡量聚類效果的標準可知,直接使用SOM算法對高維的短文本進行聚類效果最差。LDA-G+SOM的方法僅比TF-IDF+SOM略好一些,DSAE+SOM在這幾種方法中取得最好的成績,聚類結果的純度和準確度都最高,綜合信息嫡為接近0.189,綜合準確度為接近88.9,說明該堆疊降噪自動編碼器SDAE能夠利用自己非線性的特性,對高維短文本實現非線性降維,顯著提高了聚類效果。

圖6 聚類的信息墑

圖7 聚類的準確度
通過運用降噪的方法,提高短文本向量的魯棒性和穩定性,再通過L1范式正則化,確保模型擬合能力和泛化能力的均衡。
與人工提取的傳統方法相比,深度學習網絡不但能保證提取數據的本質特征外,其結果還能對許多自然語言處理任務起到較好的擴展應用。如何提高特征提取和聚類結果的可解釋性,將是本方法今后研究的主要問題。
參考文獻:
[1]Salton G,Wong A,Yang C S.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(11):613-620.
[2]Kuang Q,Xu X.Improvement and Application of TFoIDF Method Based on Text Classification[C].International Conference on Internet Technology and Applications,2010:1-4.
[3]Lewis D D.Representation and Learning in Information Retrieval[D].University of Massachusetts,1992.
[4]李學相.改進的最大熵權值算法在文本分類中的應用[J].計算機科學,2012,39(6):210-212.
[5]David M.Blei,AndrewY.Ng,Michael I.Jordan,Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022
[6]史劍虹,陳興蜀,王文賢.基于隱主題分析的中文微博話題發現[J].計算機應用研究,2014,1(3):700-704.
[7]Chao C,Jiang W.Study on the Subjective and Objective Text Classification and Pretreatment of Chinese Network Text[C].International Conference on Intelligent Human-Machine Systems and Cybernetics.IEEE Computer Society,2012:25-29.
[8]Alain G,Bengio Y.What Regularized Auto-Encoders Learn from the Data-Generating Distribution[J].Journal of Machine Learning Research,2014,15(1):3563-3593.
[9]Xia R,Deng J,Schuller B,et al.Modeling Gender Information for Emotion Recognition using Denoising Autoencoder[J].2014:990-994.
[10]劉勘,袁蘊英.基于自動編碼器的短文本特征提取及聚類研究[J].北京大學學報(自然科學版),2015,51(2):282-288.
[11]鄭思平.一種改進的動態SOM算法及其在聚類中的應用[D].華南理工大學,2010.
[12]Tao L,Shengping L,Zheng C,et al.An Evaluation on Feature Selection for Text Clustering.Proceedings of the Twentieth International Conference on Machine Learning.Washington,2003:488-495.
[13]Glorot X,Bordes A,Bengio Y.Deep Sparse Rectifier Networks.Proceedings of the 14th International Conference on Artificial Intelligence and Statistics.Fort Lauderdale,2011:315-323.
[14]王鵬,高鋮,陳曉美.基于LDA模型的文本聚類研究[J].情報科學,2015(1):63-68.
Research on the Feature Extraction of Clustering Based on Denoising Autoencoders
ZHANG Su-zhi,WEI Ping-ping,XU Jia-xing
(School of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002)
The primary difficulty of text clustering lies in the multi-dimensional sparseness of texts.Proposes a short text clustering algorithm which based on the stack noise automatically reduction encoder.The proposed algorithm utilizes deep learning network form to stack up multinetwork of noise automatically reduction encoder step by step,and transforms the high dimensional and sparse short text space vector into a new low dimensional and essential feature s pace vector.The experimental results show that the extracted text characteristic is applied to short text clustering,which improves the clustering performance significantly.
Automatic Encoder;Deep Learning;Feature Extraction;Clustering
國家自然科學基金青年科學基金項目(No.61201447)
1007-1423(2016)33-0003-06
10.3969/j.issn.1007-1423.2016.33.001
張素智(1965-),男,博士,教授,研究方向為Web數據庫、分布式計算和異構系統集成
魏萍萍(1990-),女,碩士研究生,研究數據挖掘與集成
徐家興(1990-),男,碩士研究生,研究數據挖掘與集成
2016-09-22
2016-11-15