肖 雷 王 旭 粟武林
1(河北大學電子信息工程學院 河北 保定 071000)2(河北大學數學與計算機學院 河北 保定 071000)
?
一種基于詞義降維的主題特征選擇算法
肖雷1王旭1粟武林2
1(河北大學電子信息工程學院河北 保定 071000)2(河北大學數學與計算機學院河北 保定 071000)
在文本特征選擇中,由于詞語概率空間和詞義概率空間的差異,完全基于詞語概率的主題特征往往不能很好地表達文章的思想,也不利于文本的分類。為達到主題特征更能反映文章思想這一目的,提取出一種基于詞義降維的主題特征選擇算法。該算法通過在詞林基礎上構建“同義詞表”,作為詞到詞義的映射矩陣,構造一個基于詞義之上的概率分布,通過LDA提取文本特征用于分類,分類準確率得到了明顯提高。實驗表明,基于此種方法所建立的主題模型將有更強的主題表示維度,通過該算法基本解決文本特征提取中詞語概率和詞義概率之間差異的問題。
LDA主題模型主題表示維度
隨著計算機對文本表示的不斷深入,人們力求更具表現力的方式表達文本本身的語義信息,從早期的潛在語義分析就開始了這方面的探索[1],后來經過實踐發現“主題模型”在文本特征表示上應用較為成功[2]。因為它存在堅實的數學基礎,與傳統的空間向量[3]模型比,通過考慮詞語在文檔中的共現概率而引入了“主題”維度,使文檔表示從概率空間到語意空間得到了延伸。雖然這種“語意”是通過詞語出現的概率來間接模擬的,但它容易被擴展,在文本挖掘和信息檢索等實際任務中廣泛應。而在實踐中,如何使這種概率的間接表示更加接近語意的真實表達,主題內部的一致性更強是研究的主要方向。
到目前為止,大批的學者對概率主題模型進行了各種拓展,實際運用效果大幅提升。以經典的概率主題模型LDA為列,學者們一方面是繼續基于無監督主題模型的思想,以縮小文檔訓練背景為手段而使訓練出的主題語意更加聚合。比如使用多粒度的主題建模方法[4],或者進一步簡化模型,在句子上使用標準LDA[5]等。而另一個方面是引入弱監督學習,尤其在對新聞網站,博客或者商品的評論中,引入結構化的信息,人為通過先驗知識設定標簽,使得學習到的主題更加貼近人們實際所關心的方面[6,7],比如一個產品的各個特征,一個新聞事件的各種立場等。但是,由于弱監督學習的擴展性能差,不能在多領域中使用,存在一定的局限性,而無監督訓練又存在主題語意聚合度低的缺點。通過認真總結無監督學習的訓練規律,以及弱監督學習訓練的約束方法,使主題在原有無監督學習的條件下,把底層詞語標號修正為詞義標號,使其達到弱監督學習中主題聚合度更強的效果。
基于此,本文提出了基于詞義之上的概率主題模型,成功將文本中詞語的概率相關性和語義相關性融合到一起。通過實驗證明,模型的拓展能力進一步增強。
2.1基本思想
概率主題模型是一種基于語料集合上高度抽象和降維的表示模型,是一種從文檔中詞語的概率空間基于詞語共現概率關系人為映射到語意空間的經典模型。模型本身并沒有引入任何語意信息和語法信息(不考慮詞語順序或者詞義信息),詞語在模型里是用一個編號代替,它的思想基礎是,某些編號之間共同出現的概率作為唯一的相關性。這種模型充分壓縮了原有統計語言模型的維度,且具有良好的統計基礎和靈活性。
2.2LDA模型
以經典的LDA[6]模型為例:假設主題在特定文檔的分布為P(z),那么特定的單詞ω在主題中的分布為P(w/z)。一個文檔包含T個主題z,由于每個主題中單詞的權重不一樣,則文檔中的i號單詞的可以表示如下:
(1)

布雷在2003年通過在兩個多項分布上引入狄利克雷先驗。即在文檔的主題分布θ(z)和主題的詞語分布φ(w)中分別引入Dirichlet先驗,Dirichlet先驗作為多項分布的共軛先驗是一個比較好的選擇,它簡化了問題的統計推斷,多項分布P=(P1,P2,P3,…,PT)之上的T維Dirichlet分布的概率密度可以定義為:
(2)
這樣可以在θ(z)分布上引入帶超參數α的Dirichlet先驗,用來估計他的分布。這種估計方便了模型處理文檔集之外的新文本,且便于了模型的參數推理,一個T維的Dirichlet隨機變量θ因為它歸一性,可以表示成T-1維,所以它有如下的概率密度:
(3)
同理也可以在Φ上引入Dirichet先驗,這樣整個過程可以簡單表示如下:

(4)
圖1中超參數α、β可以分別理解為在見到任何文檔之前,主題被抽樣的頻數以及在見到文檔集任何詞匯之前從主題抽樣獲得詞匯出現的頻數。其中文檔30給出了一些超參數α、β經驗性取值的方法,其中α=50/T,β=0.1。當然也可以通過在主題分布上引入非對稱先驗和在主題的詞分布上引入對稱先驗可以提高LDA模型對文本的建模能力[8],最后通過Gibbs Sampling[9]或者基于變分法的EM[10]可以求解該模型。

圖1 LDA模型圖形表示
主題的表示維度是指主題特征詞(高概率詞)的語意信息表示的廣度。直觀地說,文檔的每個主題詞所表達的意思能夠概括該主題的更多方面。例如:在關于教育方面這樣一個主題特征中:我們希望包含學校、老師、學生、家長、環境等多方面,而不是單純的一些具有相近意思的高概率詞,初中、小學、高中、大學、教師、老師、名師等。這其實只涉及到老師和學校兩個方向,這樣的主題特征維度較低不利于我們在下階段的文本表示和分類。
在LDA模型中,模型識別的是詞符號出現的權重,不同的詞用不同詞的序號表示,詞語序號之間沒有任何相關性,這樣純粹的數學表示有利于文檔建模,推理和運算,但也存在一定的問題,比如說在對文檔集訓練結束后,通過吉布斯采樣求解會得到一個詞在主題上的分布。假設文檔集共有T個主題和N個詞匯,那么對于每個主題會被分配成一個N維的歸一向量,第i維數代表著i號詞對應該主題的權重。如表1所示aij表示第i號詞在j號主題中的權重。其中:

表1 基于詞的主題表示
通常,在求解最后,將對每個主題對應的所有詞的權重按由大到小排序,權重靠前的詞匯為該主題最可能出現的詞,作為該主題的特征詞,而權重靠后的將被忽略(特征很不明顯)。正由于存在這種排序和取舍,主題特征的表現是由權重較高的詞匯所反映。在詞語空間中,存在一些意思極度相近或者類似的詞匯,由于詞語的流行程度及個人用詞習慣等因素的影響,會使意思極為相近的詞在文檔中出現的概率很不均等,或者有的語意會用很多相近的詞語表達,而有的語意可能只由一個或者很少的詞語表達。這種現象在訓練數據集規模較大的時候尤為明顯,這反映出在詞語的概率空間和詞義概率空間相比是存在很大差別的。在LDA訓練過程中,唯一考慮的是詞語出現的概率也即次數,所以這種表示會隨著訓練集的改變使得主題詞匯表示波動較大,主題空間的表示過于數字化和符號化,主題空間和語意空間存在較大的差距。例如:詞義X、Y分別有2個和1個詞語表示:
詞義X(詞語A,詞語B);
詞義Y(詞語C)。
假設C在某個主題中的權重為0.017,而A和B在該主題中的權重都為0.01。這樣在對詞的權重排序中,C是排序靠前的,A、B靠后可能會被舍去,不能作為該主題的特征。但是在詞的意思表達空間里,詞義1權重顯然高于詞義2,對主題而言詞義2比詞義1更加具有代表性。
在文檔基于主題的建模中,最理想的表示方式是主題中每個詞語所表示的權重能夠充分反映該詞的詞義在主題空間的權重,而不單純是單個詞匯本身的權重,也即是說主題空間中的元素是詞義而不單是詞語。
從理論上講,這樣的主題空間表示將更加貼近語言的生成規律,拓展性將會更強,因為它不是單純的詞匯概率模型,而是詞義的概率模型,在利用主題生成新文檔時將更加適合語言的形成規律。基于這種思想,我們在主題空間的概率表示中引入語意信息,把意思相近的詞語聚合為一個元素(詞義),由原來該意思詞語中權重較高的來表示,這樣在降低了主題空間維數的同時,更能直觀地表示文檔,如圖2所示。

圖2 基于詞義的主題建模
在前面的研究中,利用同義詞詞林直接過濾文本中同義詞的方法[13],雖然能有效地提高特征選擇的約簡率,但我們可以發現這種方法完全依賴于詞林的精度,在提取特征中缺乏機器學習的過程。
由于傳統主題空間的元素是詞匯,從詞匯空間映射到詞義空間我們需要構建一個詞義相似度較高的同義詞表,把意思相同或者相近的詞匯聚合成一個元素(詞義),這樣主題空間由原來的主題→詞匯,衍變為主題→詞義→詞匯,主題的空間維數將進一步降低,對文檔的表示也將更符合語法規律,解決這個問題的關鍵在于針對特定文檔生成一個恰當的同義詞表。但因為詞義在文檔中存在太多不確定性,或者上下文中存在一詞多義現象,簡單的機器學習或者概率統計都難以解決這個問題,目前最常用的同義詞識別方法有基于詞林的方法[11]、基于知網[16,17]、百科詞典的釋意以及直接在句子運行LDA[12]等。最精準的同義詞表構建方法還是通過人工觀測的方法構建不定維數的同義詞表,或者基于句法結構分析的同義詞識別方法[15],但都不適合于針對于本試驗中不斷變化和壯大的訓練集,這是以后有待研究的問題。為了驗證這種設想的可行性,本實驗基于哈工大信息檢索研究中心同義詞詞林擴展版的基礎之上,通過基于詞義相似度的計算方法[11,18],設定詞義相似度閾值,形成一個不定維數的同義詞表,最后轉換成如表2所示的多對一形式同義詞表。雖然這種詞典在精確度還有提高的余地,但足以證明在語義空間上主題建模的可行性。

表2 同義詞詞典列舉
在本實驗中,為了檢查主題——詞義模型的拓展能力,使用復旦大學中文文本分類語料庫,從十個大類中各抽取100篇文檔共1 000篇文檔進行訓練。文檔建模求解方法采用Gibbs LDA的方法。
第一步分別從語料庫的各個類別中抽取100篇文章作為原始文檔集合,通過分詞,去停用詞等先期處理工作后得到一91 012個詞組,18 461維的訓練集D。
第二步基于哈工大信息檢索研究中心同義詞詞林擴展版進行詞義相似度計算[11,18],分別用不同的閾值進行試探,觀察同義詞表生成的精確度,由于詞林本身是基于詞義編碼分類的,為盡量減小詞義的發散程度,本實驗閾值取1,生成一個如表2所示的多對一同義詞表,共74 653組。
第三步針對訓練集合D,利用生成的同義詞詞典,進行檢索替換后得到一個13 151維的詞義訓練集D′。其維度減少了5510維。
第四步在D上和D′上運行Gibbs LDA,為了便于評價該改進后提取特征好壞,其中主題數取10,α=0.5,β=0.1,迭代次數為1000次,從得到model-final文件中主題特征的分布。
第五步設計一種分類器,分別基于兩種主題特征分類進行比較,分析分類結果的好壞。具體過程圖3所示。

圖3 實驗流程圖
6.1主題特征提取
由于LDA本身是一種文本特征提取方法,本實驗主要為它添加了一個生成的同義詞詞典,因此我們可以通過基于高概率主題詞的方法來評價它的好壞。由于每個主題最終會表示成一個N維的一元語言模型,我們對每個主題中的詞語根據權重進行排序,權重較高的詞匯作為該主題的特征。如表3所示。

表3 基于詞義的主題特征
依照文獻[14]構造的語言模型采取人工評測的方法,主要考慮兩個方面,第一是主題內部的一致性,即聚合度。第二個方面是文檔內部主題分布的一致性。對于這兩個任務都是人工評估檢查出隨機添加詞或者主題的難易程度。通過仔細對比我們可以發現,改進后的主題特征聚合度要略高于改進前,改進后的方法主題語意將更加集中,且不存在意思的重復,更有利于提高用戶在特征提取和文本分類上的精確度。
6.2分類實驗
為了進一步檢驗基于詞義概率模型提取主題特征的效果,我們設計了如下的分類實驗:
在測試集相同的基礎之上,以SVM分類器作為參考,設計了改進的K近鄰分類算法,分別基于詞的LDA模型與基于詞義的LDA模型提取文本特征,通過計算待測文本和樣本集特征的歐氏距離作為文本的相似度,設定相似度閾值,取閾值范圍內的個數為K,通過對K個樣本集中各類標簽的個數排序,確定待測文本的類別。此實驗中SVM分類器使用LiSVM,核函數使用線性核,主題數量為10,我們通過不斷擴大訓練集來檢驗兩種模型分類的準確率,實驗結果如圖4、圖5所示。

圖4 基于詞和詞義的提取的特征運用SVM分類準確率對比

圖5 基于詞和詞義的提取的特征運用k近鄰分類準確率對比
從圖4、圖5中可以看出,和基于詞的LDA特征提取,無論運用哪一種分類器,基于詞義的特征提取使得文本的分類準確率有了提高。當訓練集的數量比較小時,基于詞的主題建模和基于詞義的主題模型,兩種模型的分類準確率相近,但當隨著訓練集的變大,基于詞義的主題模型優勢將越來越明顯。這是由于隨著訓練集的擴大,一義多詞的現象越來越嚴重,可替換的同義詞越來越多,每個詞和詞義在文章中出現的次數越來越不均等,而基于詞義的主題建模很好地平衡了這種差距,也更接近于語言的生成規律。
在分類算法上,通過改進K近鄰,運用確定的相似度閾值替代了K值,通過這種方法能夠進一步克服文本類別之間模糊性,在閾值之外的新類別不會強迫進入K的范圍而影響分類器判斷,這樣得到的文本類之間將具有更高的相似度。
總的來說,此種改進并沒有改變模型的整體架構,運算的復雜程度沒有增加,只是改變了最底層的元素。但是,從改進的算法可以看出,基于詞義建模的方法要遠比基于詞語更加貼近語言的形成規律,尤其在文本分類中,當語料庫規模較大候,通過基于詞義的降維進一步簡化了運算量。
本實驗力求證明在語義空間上運用概率建模的可行性,所以使用了基于同義詞詞林相似度計算形成的同義詞表。由于詞義的表示依賴于語言環境,用詞習慣等諸多因素,所以在實際應用中高精度同義詞表的生成是下階段研究的主要方向。
[1] Thomas K Landauer,Peter W Foltz,Darrell Laham.An Introduction to Latent Semantic Analysis[J].Discourse Processes,1998(25):259-284.
[2] Mark Steyvers.Probabilistic Topic Models[D].Uniwersity of California,2005.
[3] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Commun.ACM,November,1975,18(2):613-620.
[4] David M Blei,Jon D McAuliffe.Supervised topic models[C]//NIPS,2007.
[5] Samuel Brody,Noemie Elhadad.An unsupervised aspect-sentiment model for online reviews[C]//Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Stroudsburg,PA,USA,2010,HLT’10,2010:804-812.
[6] Ivan Titov,Ryan McDonald.A joint model of text and aspect ratings for sentiment summarization[C].Columbus,Ohio,June 2008,In Proceedings of ACL-08:HLT,2008:308-316.
[7] Branavan S R K,Chen H,Eisenstein J,et al.Learning document-level semantic properties from free-text annotations[J].Journal of Artificial Intelligence Research,2009,34(1):569-603.
[8]HannaWallach,DavidMimno,AndrewMcCallum.Rethinkinglda:Whypriorsmatter[J].AdvancesinNeuralInformationProcessingSystems22,2009:1973-1981.
[9]GriffithsTL,SteyversM.Findingscientifictopics[J].ProceedingsoftheNationalAcademyofSciences,April2004,101(Suppl.1):5228-5235.
[10]ThomasPMinka.Expectationpropagationforapproximatebayesianinference[C]//Proceedingsofthe17thConferenceinUncertaintyinArtificialIntelligence,SanFrancisco,2001,UAI’01,2001:362-369.
[11] 田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學學報:信息科學版,2010,28(6):602-608.
[12] 唐國瑜,夏云慶,張民,等.基于詞義類簇的文本聚類[J].中文信息學報,2013,27(3):113-119.
[13] 鄭艷紅,張東站.基于同義詞詞林的文本特征選擇方法[J].廈門大學學報:自然科學版,2012(2):200-203.
[14]JonathanChang,JordanBoyd-Graber,ChongWang,etal.Readingtealeaves:Howhumansinterprettopicmodels[C]//NIPS,2009.
[15] 于娟,尹積棟,費庶.基于句法結構分析的同義詞識別方法研究[J].現代圖書情報技術,2013,29(9):35-40.
[16] 肖志軍,馮廣麗.基于《知網》義原空間的文本相似度計算[J].科學技術與工程,2013,29(3):8651-8655.
[17] 馮新元,魏建國,路文煥,等.引入領域知識的基于《知網》詞語語義相似度計算[C]//第十二屆全國人機語音通訊學術會議,貴陽:[出版者不詳],2013.
[18] 呂立輝,梁維薇,冉蜀陽.基于詞林的詞語相似度的度量[J].現代計算機,2013(1):3-6.
ATHEMEFEATURESELECTIONALGORITHMBASEDONWORDSMEANINGDIMENSIONREDUCTION
XiaoLei1WangXu1SuWulin2
1(College of Industral and Commercial,Hebei University,Baoding 071000,Hebei,China)2(College of Mathematics and Computer,Hebei University,Baoding 071000,Hebei,China)
Intextfeatureselection,duetothedifferencebetweenwordsprobabilityspaceandwordsmeaningprobabilityspace,thethemefeaturesentirelybasedonwordsprobabilityusuallycannotwellexpresstheideaofthearticle,norbeconducivetotextclassification.Toachievethepurposethatthethemefeaturescanbetterreflectthearticlethoughts,weextractedathemefeatureselectionalgorithmwhichisbasedonwordsmeaningdimensionreduction.Byconstructinga"synonymtable"basedonwordsdictionaryasthemappingmatrixofwordstowordsmeaning,thealgorithmconstructsawordsmeaning-basedprobabilitydistribution,andextractstextfeaturesbyLDAforclassification,theaccuracyofclassificationissignificantlyimproved.Experimentsshowthatthethememodelbuiltbythismethodwillhaveastrongerthemerepresentationdimension,throughthealgorithmtheproblemofdifferencebetweenwordsprobabilityandwordsmeaningprobabilityintextfeatureextractionisbasicallysolved.
Lineardiscriminantanalysis(LDA)ThememodelThemerepresentationdimension
2014-05-21。國家自然科學基金項目(60903089);河北大學博士項目(Y2009157)。肖雷,碩士,主研領域:模式識別與文本分類。王旭,碩士。粟武林,碩士。
TP3
ADOI:10.3969/j.issn.1000-386x.2016.03.057