邢國正,江雨燕,吳 超,李常訓
(安徽工業大學管理科學與工程學院,安徽馬鞍山243002)
一種半監督重復軟最大化模型
邢國正,江雨燕,吳 超,李常訓
(安徽工業大學管理科學與工程學院,安徽馬鞍山243002)
概率主題模型由于其高效的數據降維和文檔主題特征挖掘能力被廣泛應用于各種文檔分析任務中,然而概率主題模型主要基于有向圖模型構建,使得模型的表示能力受到極大限制。為此,研究分布式主題特征表示和基于無向圖模型玻爾茲曼機的重復軟最大化模型(RSM),提出一種半監督的RSM(SSRSM)。將SSRSM、RSM模型提取的主題特征應用于多標記判別任務中,實驗結果表明,相比LDA和RSM模型,SSRSM模型具有更好的多標記判別能力。
主題模型;無向圖模型;重復軟最大化模型;半監督模型;特征學習
概率主題模型[1]被廣泛應用于大規模語料數據的分析和語義主題提取過程中[2]。大部分概率主題模型都假設每個文檔可以表示成若干個主題混合的形式,其中每一個主題都是由所有詞組成的多項分布。這些模型可以看成是包含隱含主題變量的有向概率圖模型,在隱含變量和觀測變量之間存在有向連接。這種結構使得對概率主題模型的精確求解變得非常困難,必須使用估計方法來計算模型主題的后驗概率[3]。有向圖結構的另一個缺點是無法對產生概率大于主題組合的單詞進行有效預測,同時也無法預測產生概率小于主題組合的單詞。這使得概率主題模型無法有效提取分布式表示的特征[4],模型擬合能力較差。
分布式特征表示是指語義特征并不是僅存在于一個主題之中,而是通過多個主題特征以相乘的方式組合而成的。在概率主題模型中,語義特征是由主題混合通過加權和的方式表達的,其語義表示能力要比分布式的表示方式弱。盡管分布式的表示方式提取的單個主題信息可能相對于概率主題模型的主題表示能力較弱,但是由于通過特征相乘的方式,分布式將具有更強的文檔表示能力。為此,本文提出一種可以有效利用文檔多標記信息的半監督重復軟最大化模型(Semi Supervised Replicated Softmax Model,SSRSM)。
2.1 受限玻爾茲曼機
由于基于有向圖模型的概率主題模型在模型優化和語義表示方面暴露出的缺點,如何將無向圖模型和分布式特征表示進行有效結合已經成為工業界和學術界研究的重點。近年來,已有一些學者通過使用玻爾茲曼機[5]來構建類似于概率主題模型的語義結構,并且取得了一定的進展。
玻爾茲曼機是一種兩層隨機單元組成的網絡結構。這些隨機單元可以分為2類,分別為可見單元ν∈{0,1}dν表示輸入數據,隱含單元h∈{0,1}dh,其中,ν和h均為向量,隱含單元與可見單元是互補先驗的關系。
通常不能直接求解玻爾茲曼機的參數,例如在計算hi的條件概率P(hi|ν)時,需要根據如下公式求解:

因此,需要對2dh-1個項求和,這使得P(hi|ν)的計算非常困難。
為了簡化玻爾茲曼機的求解,需要對其添加一定的條件約束,進而簡化參數估計的計算過程。受限波爾茲曼機(Restricted Boltzmann Machine,RBM)[6]可以看成是一類添加了條件約束的玻爾茲曼機,其定義方式與玻爾茲曼機相似,但添加了2個約束,即在隱含單元之間不存在無向圖連接,同時在可見單元之間也不存在無向圖連接。一個包含3個隱含單元和4個可見單元的受限玻爾茲曼機結構如圖1所示。在這個條件約束下RBM具有許多優良的性質,首先在給定可見單元的情況下,隱含單元的條件概率分布是可分解的,使得對其求解變得簡單、可行。目前已經有許多求解RBM模型參數的方法,包括投影尋蹤方法[7]、對比分歧[8]方法、隨機最大似然方法[9]等。

圖1 受限玻爾茲曼機
2.2 基于受限波爾茲曼機的概率主題模型結構
RBM作為一種隱含變量模型,已經被廣泛應用于圖像特征提取、數據降維等任務中[10]。近年來一些學者已開始將RBM應用于文檔主題提取中,并且取得了良好的效果。
文獻[11-12]使用泊松分布來模型化詞計數向量,并且采用RBM作為可見單元到隱含單元的映射模型來提取文檔主題特征。其提出的模型在文檔特征的分布式表示方面取得了良好的效果。然而,該模型無法處理不同長度的文檔數據,使得模型學習變得困難、不穩定,這也是該模型無法在真正的生產環境中被使用的重要原因。而有向圖模型在建模過程中通過直接將語料中未出現的詞對應的結點刪除的方式,可以簡潔地處理不同文檔長度導致的問題,這也是有向圖模型與無向圖模型建模的不同之處。
文獻[13]通過引入約束泊松模型的方式來模型化文檔數據,盡管其參數學習過程是穩定的,然而其關于詞計數的分布不是一個正規的概率分布形式,導致無法合理解釋提取的特征信息。文獻[14]提出了RSM模型,該模型可以通過CD方法快速訓練,同時可以更好地處理不同長度的文檔,在計算隱含主題變量的分布時更加簡單。
文獻[15]采用深層玻爾茲曼機(Deep Boltzmann Machine,DBM)的方式對RSM模型進行了改進,并且取得了較好的效果。然而該模型由于采用多層RBM的方式構建,其計算復雜度較高,無法用于大規模數據處理任務中。
同時,盡管RSM和DBM模型在文檔主題提取和分布式特征學習方面具有優良的性質,但是這類模型與標準LDA模型相似,都無法處理含有類別標記的文檔數據[16],即它們都是無監督特征提取模型。這導致提取的特征被應用于監督學習中時產生一定的問題[17]。因此,在RSM模型研究中如何將RBM的分布式特征提取和監督或半監督學習結合已經成為人們研究的重點內容。
3.1 模型定義
本文通過對文檔標記與主題之間的映射關系[18]的研究,提出一種半監督Replicated Softmax模型(Semi-supervised Replicated Softmax Model,SSRSM)。設整個語料庫中包含的不同標記數為L,語料庫中第d個文檔的長度為D。ν∈{1,2,…,K}D表示RBM對應的可見單元,其中,K為字典中包含詞的數量表示文檔中包含詞的數量。h∈{0,1}Fd表示二進制隨機隱含主題特征,其中,Fd的值由文檔d的多標記決定。設矩陣A為一個S×L維的矩陣,S表示語料庫中包含的文檔數量。矩陣A可以看成是一個文檔標記識別矩陣,若第d個文檔存在第l個文檔標記,則Adl=1,否則Adl=0。設文檔d對應的RBM包含2種隱含單元,分別為共享隱含單元和獨享隱含單元。其中,共享隱含單元與文檔無關,即語料庫中所有的文檔對應的RBM均含有相同的共享隱含單元。文檔對應的RBM除了含有共享隱含單元外,每個文檔標記還存在若干個獨享隱含單元。設文檔包含的共享隱含單元數為Fs,對于第d個文檔對應的獨享隱含單元數為sum(Ad)×Fl,其中,sum(Ad)表示矩陣A第d行元素的和,Fl表示每個標記對應的獨享隱含單元的數量。由此可以得到,文檔d對應的Fd的值為Fd= Fs+sum(Ad)×Fl。
設矩陣B為一個d×(Fs+L·Fl)的矩陣,定義其為文檔對應的隱含單元識別矩陣,其中,前Fs列元素全部為1,表示共享隱含單元,對于其余Fs+ 1~Fs+L·Fl列元素對應文檔的獨享隱含單元,若矩陣Aij=1,則矩陣B的第i行的Fs+(j-1)Fl~Fs+j·Fl元素全部為1,否則為0。
設語料庫中存在2篇文檔分別為d1和d2,2篇文檔包含不同的標記個數為3個,設每篇文檔對應的共享隱含單元數為2,每個標記對應的局部隱含單元數為2,設文檔d1包含標記1和標記3,則其對應的SSRSM模型如圖2(a)所示。設文檔d2包含標記1和標記2,則其對應的SSRSM模型如圖2(b)所示。

圖2 SSRSM模型結構
3.2 模型推理
對于文檔d,根據模型定義可以得到在{V,hd}狀態的能量函數為:

其中,{W,b,a}表示模型參數;V為一個K×D維的矩陣。如果第i可見單元對應的第K個詞在文檔中出現,則,否則由此可以得到矩陣V概率為:

可見,單元和隱含單元的條件概率為:

假設不考慮文檔中詞出現的順序,每個文檔對應的RBM與其他文檔的RBM具有相同的參數集合,可以得到在{V,hd}狀態的能量函數為:


其中,EPdata[·]表示數據分布Pdata(V)的期望;表示em pirical分布;EPModel[·]表示模型分布的期望。在該模型中,計算EPModel[·]的計算量與m in{D,F}呈指數關系,通常不能精確計算最大似然函數。為了有效計算EPModel[·]的值,采用CD方法實現估計其值。目標函數參數的調節量為:

其中,α表示學習率或步長;PT表示通過T步完整的Gibbs Sampling[19]采樣獲得的分布。
4.1 主題提取
為了充分驗證本文提出模型的主題提取能力,將該模型與標準LDA模型、Replicated Softmax模型進行了比較。對于無向圖模型,由于在計算全局正規化項時需要計算和遍歷指數個概率項,因此直接計算文檔的hold-out概率是不可行的。在實驗過程中采用文獻[20]提出的退火重要性采樣(Annealed important Sam pling,AIS)方法來估計RBM的劃分函數。

其中,χ(i)~PA。然而當PA(χ)和PB(χ)的值并不十分接近時,估計值將變得不精確。尤其是在較高維空間時,估計的誤差將會非常大,除非PA(χ)與PB(χ)非常接近,否則不能夠獲得有效的估計。
退火重要性采樣可以看成是簡單重要性采樣方法在高維空間的改進。AIS使用了大量的輔助變量使PA(χ)接近目標分布PB(χ)。AIS定義了一系列概率分布P0,P1,…,PS,其中,P0=PA且PS=PB。通常可以通過如下方法定義分布系列:
令:

其中,0=β0<β1<…<βK=1。同時對于每個PK(χ)定義一個馬爾科夫鏈狀態轉移操作TK(χ′;χ)。
對于包含D個詞的文檔可以推導出{V,h}的聯合概率分布為:

通過將h積分掉可以非正規化概率P*(V),這時可以定義分布序列:

當s=0時,可以得到βs=0,P0表示均勻分布,其劃分函數為Z0=2F,F表示隱含單元的數量。一輪A IS迭代過程如下:

AIS首先從均勻分布P0(V)中采樣,接著應用一系列的狀態轉移操作T1,T2,…,TS-1,使得樣本從P0(V)分布移動到Ps(V)分布。在運行完MAIS過程后,可以通過重要性權重獲得模型劃分函數的無偏估計:

實驗中為了充分驗證模型的主題特征提取能力,分別將本文提出的模型與標準LDA模型和RSM模型進行了比較,在多標記數據集enron和bibtex下,模型perp lexity的測試結果如圖3~圖6所示。

圖3 PerPlexity隨共享隱含單元數增加的變化情況1

圖4 PerPlexity隨共享隱含單元數增加的變化情況2

圖5 PerPlexity隨共享隱含單元數增加的變化情況3

圖6 PerPlexity隨共享隱含單元數增加的變化情況4
圖3 表示在enron數據集下每個標記對應1個獨享隱含單元時,perplexity隨著共享隱含單元數增加的變化情況。圖4表示在enron數據集下每個標記對應2個獨享隱含單元時,perplexity隨著共享隱含單元數增加的變化情況。圖5、圖6分別表示在bibtex數據下,每個標記對應的獨享隱含單元數為1,2時,perplexity隨共享隱含單元數增加的變化情況。在上述實驗中,LDA的主題數和RSM隱含單元數均設置為SSRSM模型獨享單元數與共享單元數的總數。在實驗過程中,分別取90%數據作為訓練集,10%的數據作為驗證集。可以看出,本文提出的模型在獨享隱含單元(或主題)數確定的情況下,隨著共享主題數的增加,模型的perplexity呈下降趨勢,并且當共享隱含單元數增加到一定量時,SSRSM的perp lexity的值要明顯小于RSM和LDA模型。因此,可以說明本文提出的SSRSM模型具有優于標準LDA模型和RSM模型的主題提取能力。
4.2 測試結果
模型特征提取能力判定的另一個標準是將學習到的特征應用于監督學習中。本文實驗過程中將SSRSM模型獲得的特征應用于MLKNN[21]模型多標記判別任務中,并與RSM模型進行了比較。實驗中使用10折交叉驗證,測試結果如表1、表2所示。

表1 RSM提取特征的測試結果

表2 SSRSM提取特征的測試結果
可以看出本文提出SSRSM模型提取的特征在分類任務中具有明顯優于RSM的性能,尤其是在模型召回率、模型準確率、平均精度、覆蓋率、錯誤率、排名丟失率、微平均F值判別標準下,文檔多標記判別的準確性要明顯高于RSM模型。而在其他判定標準下,雖然SSRSM模型的優點并不明顯,但仍然高于RSM模型。
本文通過對分布式主題特征提取和RSM模型的研究,結合概率主題模型監督學習實現方法,提出一種半監督的RSM模型,并且通過實驗驗證了該模型具有優于LDA模型和RSM模型的主題特征提取能力。近年來基于RBM的深度結構模型[22]被廣泛應用于圖像識別、自然語言處理等任務中,并取得了良好的效果。
本文提出的SSRSM模型也可以作為深結構的構件,從而實現一種新的深入學習模型,進一步提升模型性能。
[1] Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(3):993-1022.
[2] Wei Xing,CroftW B.LDA-based Docum ent Models for Ad-hoc Retrieval[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA:ACM Press,2006:178-185.
[3] Teh Y W,Newman D,Welling M.A Collapsed Variational Bayesian Inference Algorithm for Latent Dirichlet Allocation[M].Cambridge,USA:M IT Press,2006.
[4] Elman J L.Distributed Representations,Sim ple Recurrent Networks,and Grammatical Structure[J].Machine Learning,1991,7(2/3):195-225.
[5] Ackley D H,Hinton G E,Sejnowski T J.A Learning Algorithm for Boltzmann Machines[J].Cognitive Science,1985,9(1):147-169.
[6] Tielem an T.Training Restricted Boltzmann Machines Using Approximations to the Likelihood Gradient[C]// Proceedings of the 25th International Conference on Machine Learning.New York,USA:ACM Press,2008:1064-1071.
[7] Freund Y,Haussler D.Unsupervised Learning of Distributions on Binary Vectors Using Two Layer Networks[J]. Neural Computation,2002,14(8):1711-1800.
[8] Hinton G E.Products of Experts[C]//Proceedings of the 9th International Conference on Artificial Neural Networks. Washington D.C.,USA:IEEE Press,1999:1-6.
[9] Younes L.On the Convergence of Markovian Stochastic Algorithms with Rapidly Decreasing Ergodicity Rates[J]. International Journal of Probability and Stochastic Processes,1999,65(3/4):177-228.
[10] Boureau Y,Cun Y L.Sparse Feature Learning for Deep Belief Networks[D].New York,USA:New York University,2007.
[11] Gehler P V,Holub A D,Welling M.The Rate Adapting Poisson Model for Information Retrieval and Object Recognition[C]//Proceedings of the 23rd International Conference on Machine Learning.New York,USA:ACM Press,2006:337-344.
[12] Xing E P,Yan Rong,Hauptmann A G.M ining Associated Text and Images with Dual-w ing Harmoniums[C]// Proceedings of the 21st Conference on Uncertainty in Artificial Intelligence.Berlin,Germany:Springer,2005:633-641.
[13] Salakhutdinov R,Hinton G.Sem antic Hashing[C]// Proceedings of SIGIR Workshop on Information Retrieval and Applications of Graphical Model.Berlin,Germany:Springer,2007.
[14] Hinton G E,Salakhutdinov R.Replicated Softmax:An Undirected Topic Model[C]//Proceedings of Conference on Neural Information Processing Systems.Berlin,Germany:Springer,2009:1607-1614.
[15] Srivastava N,Salakhutdinov R R,Hinton G E.Modeling Documents with Deep Boltzmann Machines[Z].2013.
[16] Salakhutdinov R,Mnih A,Hinton G.Restricted Boltzmann Machines for Collaborative Filtering[C]//Proceedings of the 24th International Conference on Machine Learning. New York,USA:ACM Press,2007:791-798.
[17] 江雨燕,李 平,王 清.用于多標簽分類的改進Labeled LDA模型[J].南京大學學報:自然科學版,2013,49(4):425-432.
[18] 江雨燕,李 平,王 清.基于共享背景主題的Labeled LDA模型[J].電子學報,2013,41(9):1794-1799.
[19] Casella G,George E I.Explaining the Gibbs Sam-pler[J]. The American Statistician,1992,46(3):167-174.
[20] Neal R M.Annealed Importance Sampling[J].Statistics and Computing,2001,11(2):125-139.
[21] Zhang M inling,Zhou Zhihua.M L-KNN:A Lazy Learning Approach to Multi-label Learning[J].Pattern Recognition,2007,40(7):2038-2048.
[22] Bengio Y.Learning Deep Architectures for AI[J]. Foundations and Trends in Machine Learning,2009,2(1):1-127.
編輯顧逸斐
A Semi-suPervised RePlicated Softm ax Model
X ING Guozheng,JIANG Yuyan,WU Chao,LIChangxun
(School of Management Science and Engineering,Anhui University of Technology,Maanshan 243002,China)
Recently probabilistic topic models are widely used because of high performance of dimension reduction and topic features mining.However,topic models are built based on directed graph model which limits the performance of data representation.This paper based on the studies on distributed feature representation and Replicated Softmax Model(RSM)which is based on the Restricted Bolzmann Machine(RBM)proposes a Semi Supervised Replicated Softmax Model(SSRSM).Experimental results show that the SSRSM outperforms LDA and RSM in task of topics extraction.In addition,by using the features learned by SSRSM and RSM in task of multi-label classification,it is shown that SSRSM has a better performance of multi-label learning than RSM.
topic model;undirected graph model;Rep licated Softmax Model(RSM);sem i-supervised model;feature learning
邢國正,江雨燕,吳 超,等.一種半監督重復軟最大化模型[J].計算機工程,2015,41(9):209-214.
英文引用格式:Xing Guozheng,Jiang Yuyan,W u Chao,et al.A Sem i-supervised Replicated Softmax Model[J]. Computer Engineering,2015,41(9):209-214.
1000-3428(2015)09-0209-06
A
TP311
10.3969/j.issn.1000-3428.2015.09.039
國家自然科學基金資助項目(71172219);國家科技型中小企業創新基金資助項目(11C26213402013)。
邢國正(1977-),男,講師,主研方向:機器學習;江雨燕,教授;吳 超、李常訓,碩士研究生。
2015-01-15
2015-02-16 E-m ail:xgztt@ahut.edu.cn