韓肖赟 侯再恩 孫 綿
(陜西科技大學文理學院 陜西 西安 710021)
隨著互聯網技術的快速發展,短文本信息實現了爆炸式增長,如微博、新聞標題、電商評論和網頁片段等。如何把握和解讀其背后的潛在信息成為當前數據挖掘的重要任務。
主題模型作為最早用于文本分析工具,目前已經滲透到主題提取、文本聚類、文本分類、社交網絡關系分析以及情感分析等多個領域[1-2]。通常意義上的主題模型是指概率潛語義模型(probalistic Latent Semantic Analysis,pLSA)[3]、潛在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)[4]及其各種拓展。其中,LDA是最為完善的概率主題模型,它是在pLSA的基礎上引入共軛先驗Dirichlet分布解決了多項式參數與變量之間的聯系。而且以LDA為主的傳統主題模型主要依賴于長文檔中詞項的共現關系建立模型。
但是在不斷的實踐中發現,LDA模型存在較為敏感的文本選擇性問題,使其在短文本上性能容易受到限制。通過分析發現,短文本自身篇幅短小,且每一個詞在文檔中大多只出現一次的特點,造成了文本特征稀疏和詞袋容量偏大等問題[14,36]。Yin等[5]在2014年提出了DMM模型,該模型與LDA最大的不同在于假設每一篇短文本只有一個主題,而不是多個主題,且文檔內部的所有詞項之間主題共享,從而有效地緩解了主題模型在短文本上特征稀疏的問題。所以目前短文本上主題模型的研究主要是基于LDA的改進和DMM的拓展。
Salton等在1975年基于詞匯的上下文無關文法提出了向量空間模型(Vector Space Model,VSM)[6],其最大的優點是簡化和方便了文本特征描述和模型推導。基于特征項在整個類中的分布問題,衍生出不同的文本特征權重計算方法[7]。一般意義上的向量空間模型是指TF-IDF模型,其有效地權衡了特征項在文檔和語料庫中的比例關系,是傳統主題模型建模的基礎。
詞向量的出現,不僅能夠再現文檔中詞項的共現關系,還能捕捉到文本的語義和句法信息。它經歷了從獨熱編碼(One-hot)[8]向分布式表示(Distributed Representation,DR)[9]的轉變。One-hot編碼,又稱熱編碼,其主要是通過采用N位相互獨立的狀態寄存器對N個狀態進行編碼,且在任何時候,其中只有一個有效位。用0、1表示就是只有一個1,其他位置都是0。雖然用這個方法進行文本表示比較直觀,但是容易出現數據“維災”,且不能很好地刻畫詞與詞之間的關系。分布式表示將文檔中的每一個詞通過訓練,在語義空間映射成一個長度固定的向量,并且可以通過歐氏距離刻畫詞之間的語義相似性。如“英國-倫敦=法國-巴黎”、“女王-女=國王-男”。
深度學習算法利用詞向量將文本數據從高維稀疏矩陣變換為低維本質特征空間[41]。經典的詞向量訓練工作包括N-Grams模型、Bengio的三層神經網絡語言模型,以及C&W的SENNA、M&H的HLBL和Mikolov的RNNLM等模型[10]。2013年,Google開源了詞向量訓練工具Word2Vec[11],其中包括連續詞袋模型(Continuous Bag of Words, CBOW)和Skip-gram模型。前者用來根據上下文預測當前詞的概率,而后者是根據當前詞預測上下文。對于目標函數的構建常采用Hierarchical Softmax和隨機負采樣(Negative Sampling)兩種方式。詞向量對文本表示方法的改善具有重要的意義。文獻[12]依存于句法特征,通過將文本語義作為上下文特征加入基于神經網絡的短文本結構預測中,使用反向傳播迭代得到文本語義向量表示。文獻[13]針對傳統文本表示中詞項語義依存關系缺失的問題,提出了基于局部上下文和全局上下文的語義向量表示方法,并針對短文本上特征稀疏問題,提出了基于池化計算和層次遞歸自動編碼器的短文本表示方法。
現有的短文本處理方法主要有以下兩種:
1) 將短文本擴展成一個偽長文檔,然后利用傳統主題模型進行后續分析。一般可以直接對短文本進行聚類,然后同一類進行合并得到新的偽長文檔。但是具體的聚合數目確定較難。Quan等[14]在聚合的基礎上提出了SATM(Self-Aggregation based Topic Model)算法,可以自動確定出合適的聚合數,但是這樣的負面影響會使得主題抽樣和主題推斷比較耗時。Weng等[15]將同一用戶的話題標簽、時間戳等其他元素作為推特(tweet)文本信息的擴展。這種方法會增加文本形式的多樣性,但在有些領域上不適用。Zuo等[16]利用詞對共現關系,建立詞網絡,然后利用鄰結詞集合實現了原始短文檔的特征擴充。
2) 依靠外部大語料庫提供額外文本信息。這種方法最重要的是引入詞嵌入技術(詞向量),然后通過Wikipedia、WordNet和Hownet等外部語料信息訓練詞向量來豐富小語料庫上的短文本語義[17]。文獻[6]中通過維基百科語料集獲得單詞的詞向量集合,然后遍歷文本,將文本中與每一個詞相似性最大的20個單詞加入原文本,實現了對短文本的擴展。雖然這種處理方法目前效果較好,但是其對外部數據源的質量有著比較高的要求,且文本依賴性較強。

2.1.1模型生成過程
LDA和DMM都是基于三層貝葉斯網絡的生成式概率模型。LDA繼承了pLSA的假設,并引入了先驗分布狄利克雷(Dirichlet),認為每一篇文檔是由多個主題混合而成的,且每一個主題是單詞集合上的概率分布,文檔中每一個詞都是由一個固定主題生成。而DMM則將整個語料庫看作是多個主題的混合,并假設每一篇短文檔至多有一個主題,且主題在同一篇文檔中的所有詞之間共享。下面將詳細介紹LDA和DMM模型的生成過程。表1為文中出現的符號匯總說明。

表1 符號說明
1) 圖1為LDA模型的具體生成過程。

圖1 LDA圖模型
(1) 對任一主題z,根據狄利克雷分布得到該主題下的單詞多項式分布φk,即φk~Dirichlet(β)。
(2) 每一個文檔wm,其主題概率分布θm,θm~Dirichlet(α)。
(3) 對于訓練語料庫中的每一篇文檔wm和文檔中的所有詞匯wm,n,遍歷:
① 選擇主題zm,n,zm,n~Multinomial(θm);
② 選擇wm,n,wm,n~Multinomial(φk)。
2) 圖2為DMM模型的詳細生成過程。

圖2 DMM圖模型
(1) 整個語料庫上的主題混合比πz,πz~Dirichlet(α)。
(2) 對任一主題z,根據狄利克雷分布得到該主題下的單詞多項式分布φk,即φk~Dirichlet(β)。
(3) 對于每一篇文檔d,每一個單詞w,遍歷:
① 選擇主題分布zd,zd~Multinomial(θ);
② 文檔中所有詞w,w~Multinomial(φzd)。
2.1.2參數估計
對于給定的文檔集合,α和β是根據經驗給定的超參數,wm,n、d是可以觀察到的已知變量,而其他的變量φk、θm、zm,n、z、θ、Φ都是隱含變量,需要通過觀察到的變量和先驗參數來學習估計。LDA常用的參數估計算法有吉布斯采樣(Gibbs Sampling, GS)算法、變分貝葉斯算法(Variational Bays, VB)、消息傳遞(Belief Propagation, BP)[21],平均場變分期望最大化(mean-field variational expectation maximization)和基于貝葉斯近似推斷的期望傳播(Expectation Propagation, EP)。DMM最初是利用EM算法進行參數估計的,后來Yin等[22]利用Collapsed GS(CGS)實現了對DMM模型的參數估計,即GSDMM算法。

(1) LDA模型。
(1)
(2) DMM模型。
(2)
然后關于θm和φk的值是基于狄利克雷分布與多項式分布共軛,利用后驗分布的均值確定出相應的估計。其中,LDA的兩個參數估計為:
(3)
類似地可以得到DMM的θm,k和φk,t,且φk,t第一個分項為整個語料庫上的主題混合比πz。
(4)
(5)
(6)
2.1.3潛在主題個數的確定
無論是LDA還是DMM模型,在進行文本主題提取的時候都需要確定出具體的主題個數,對應于超參數α的維數K。目前針對LDA主題模型最優主題個數的確定方法比較多,DMM可以看作是LDA的一元混合模型。所以兩種模型之間可以相互借鑒。以下主要總結基于LDA的主題數確定方法。
(1) 基于優化指標參數的確定方法。Blei等采用最小困惑度(Perplexity)作為最優模型的標準。困惑度為模型的泛化能力刻畫提供了有力的依據,但是單純基于測試集的困惑度指標,確定的主題數目往往偏大。Zhao等[25]基于困惑度的變化提出了RPC(rate of perplexity change)指標,可以基于不同的數據集準確地確定出主題數目。關鵬等[26]綜合了主題的結構信息,在困惑度的基礎上提出了“困惑度-主題方差”指標,并在科技文獻數據集上得到了不錯的效果。但是一般網絡輿情數據集,文本特征比較稀疏,詞袋容量較大,造成主題詞之間的概率差異變小,使得主題結構的影響力弱化。Mimno等[27]認為依賴于測試集上的最小困惑度得到“最好”的主題數目,未必是最優的數目。所以提出了主題一致性(Topic Coherence, TP),且TP得分越高,主題的一致性就越好。在目前基于指標確定主題數目的方法體系中,該方法得到的精度和準確性較高。
(2) 通過問題轉化,借助其他算法的主題數尋優。Teh等[28]通過層次狄利克雷過程對主題數目進行了非參數化處理,得到了與Blei類似的結論。但是這種方法時間復雜度較高。Griffiths等[29]提出貝葉斯模型確定最優主題數目的方法。除此之外,Arun等[30]基于矩陣分解過程,利用KL(Kullback-Leibler)散度的最小值可以確定出目標主題的范圍。李菲菲等[31]發現文檔聚類簇與文檔集隱含的主題數相一致的特點,通過建立高頻詞網絡利用社區發現算法確定出LDA的最優主題個數。文獻[22]提出了MGP(movies group process)算法,類似于GSDMM算法,它模擬上電影討論課上根據學生的電影興趣分組的場景,這種算法可以自動確定出分組個數,即主題模型中的主題個數。
(3) 依據專家經驗或者其他先驗知識。Zhao等[32]通過自定義標簽來確定潛在主題。柏志安等[33]通過定義主題區分度,結合主題之間的重疊度和表達的完整度得到了比較合適的主題數。
2.1.4算法性能評價
主題模型的有效性評價,對于模型的改進和提高具有重要意義。目前主要有三類評估方法:
(1) 基于主題模型本身的評價。一般包括潛在主題個數確定和算法收斂性兩個方面。其中基于主題個數的模型評價較多,與最優主題的確定方法比較類似,常用的有困惑度、主題一致性(TP)和文本相似性等。算法收斂性主要是指收斂速度的比較。文獻[17]在詞分布的基礎上引入主題判別力參數,在一定程度上不僅增加了”主題-詞分布”的區分度,而且有效地加快了算法的收斂速度。
(2) 基于文本分類和聚類體系的評價。通過將主題模型與文本分類和聚類算法結合,間接地實現對主題模型的評價。主要采用F-測度值(包括查全率和查準率)、微平均、宏平均、類內緊密性和類間間隔性等指標[6,34,46]。
(3) 面向特定任務的效果評估。針對不同的問題,主題模型表現出不同的差異性。如通過驗證主題模型在文本特征選擇指標[7,35]上的有效性來實現對模型的評價。
在短文本上DMM的主題提取能力明顯好于LDA[36],但是LDA成熟的算法體系為之后的主題模型擴展研究奠定了堅實的基礎。通過匯總近幾年的拓展主題模型(如表2所示)發現,主題模型在短文本上的種類和性能實現了質的飛躍,尤其是BTM、WTM[44]和DMM的出現。與十年前[2,37]相比,現在的主題模型對文本上下文的信息引入考慮得更全面,而且詞向量和深度學習的引入對傳統文本表示方法起了重要的促進作用,也為短文本的擴展處理提供了新思路。當然詞向量的引入并非絕對的完美,基于外部信息訓練的詞向量存在訓練時間過長的問題。雖然已經存在訓練好的詞向量開放接口,但如何平衡外部語料庫的特征擴展與內部語義擴展的主題一致性是未來仍需要進一步解決的問題。鑒于深度學習算法在信息提取和利用上的高效性,未來詞向量的表示將更為全面,所以在某種程度上可以弱化短文本的影響,有利于主題模型在不同領域的拓展研究。

表2 近幾年主題模型的擴展研究

續表2
網絡輿情是指人們通過互聯網對某種社會現象或社會問題所發表的具有一定影響力和主觀性的言論。隨著時代的快速發展,社會熱點輿情的發酵呈現出新的特點和趨勢。所以把握和了解網絡輿情的話題演化,對于輿情的分析和監控有著重要的意義。學者單斌指出,話題演化反映在話題內容變化和話題強度(受關注度)變化兩個方面[45]。目前話題內容變化主要是基于輿情的主題提取,通過計算主題相似度和設定閾值確定。進一步基于當前輿情信息產生頻率高、數量大等特點,一些研究開始關注主題模型的快速推理算法、在線學習算法、文本流推理算法以及分布式學習等[18]。
文獻[49]給出了輿情主題強度的判定最簡單的方法,即通過觀察主題強度隨時間變化的趨勢判定主題演化和影響熱度。所以對輿情的時間相關性或時間標簽的把握,是主題強度判定的核心。文獻[48]總結了主題模型與時間序列結合的三種方式,分別是將時間作為變量引入、話題的后離散分析和先離散分析,如動態主題模型(Dynamic Topic Model,DTM)[50],TOT(Topic Over Time)模型、DIM(Document Influence Model)[51]和OLDA(online LDA)[48]等。其中,OLDA模型是一個在線主題模型,不僅可以實現話題內容和強度的演化,而且有利于新話題的識別與檢測。文獻[52-53]基于OLDA模型提出了具體的應用和改進。
深度學習模型通過提取文本句法和語義特征,有效地彌補了傳統意義上短文本特征稀疏的問題。文獻[54]基于深度學習和詞向量,進行了同義詞擴展方向的研究,提出了基于特征空間變換的詞向量空間優化算法。文獻[55]通過構建Doc2Vec模型進行深度訓練,并結合主題模型實現了學術期刊選題同質化的對比分析。文獻[56]針對卷積神經網絡在前向傳播過程中池化層特征選擇存在過多語義特征損失問題,將樹型的長短期記憶模型融入訓練網絡的輸入層中,通過添加句子結構加強深層語義學習,從而構造出了微博情感分析模型。文獻[57]利用深度循環學習方法,實現了更大范圍的用戶屬性特征泛化,改善了微博短文本特征稀疏且未考慮上下文語境的現狀。
近年來,信息冗余和信息負荷過載是比較常見的現象。主題模型在短文本上的研究雖然取得了一定的效果,但是自從進入Web 2.0時代以后,信息的快速甄別、篩選和監控已然成為常態,這將對主題模型在動態短文本上應用能力提出了更高的要求。深度學習算法的快速發展,將為主題模型的改進和提高創造極大的便利。輿情作為短文本的重要集中地,由此衍生一系列基于主題模型的重要課題,如輿情熱點識別、熱點追蹤(主題演化)以及輿情熱點推薦等。主題模型作為重要的信息提取手段,單純的主題提取不是最終目的,需要加深和拓寬主題模型與深度學習以及其他機器學習算法的混合研究。