閆 蓉,高光來
(1. 內蒙古大學 計算機學院,內蒙古 呼和浩特 010021;2. 內蒙古自治區蒙古文信息處理技術重點實驗室,內蒙古 呼和浩特 010021)
概率主題模型,如LDA(latent dirichlet allocation)[1]和PLSA(probabilistic latent semantic analysis)[2]為用戶在海量信息中篩選和挖掘有效信息發揮了重要作用[3]。目前,已經有很多工作致力于構建新的主題模型和改進算法來捕獲主題結構[4-6]及實現主題模型的可視化[7-9]。該類文本主題分析技術多數為利用統計方法實現文本主題獲取,通??紤]詞頻較大的詞項對于文本內容的貢獻。核心假設是利用文本集中包含特定數目的潛在主題變量,來構建文本語義描述空間。這些數目的潛在主題變量在表達文本集固有抽象的同時,也利用多個不同主題變量抽象地表示文本的不同語義, 實現了文本
間的區別。但這種方法由于受到其概率主題建模機理的限制,文本主題分析結果并不理想。原因有三點: 第一,利用統計方法獲取這些潛在主題變量的同時,假設各潛在主題變量之間是相互獨立的。盡管各潛在主題變量之間有結構,但潛在主題變量內部描述卻無結構、無聯系。而實際情況是,各潛在主題變量在表達文本時,它們之間并不是孤立的。同一詞項會同時出現在多個不同潛在主題變量中,使得利用潛在主題變量實現文本內容表達效用降低。第二,文本主題建模所抽象表達的語義,是通過描述各潛在主題變量中排名靠前的那部分詞項的分布來實現,但這些詞項間并無明顯關聯關系,故人工界定主題解釋非常困難。第三,各文本語義由于被“強制”利用特定數目的潛在主題變 量表達, 因“強制主
題”問題(forced topic problem)[10],可能會造成對不同文本的主題表達結果一致,無法有效辨識文本語義。尤其是對短文本的主題分析,會影響到與之相關的諸多文本處理任務。如,文本檢索和文本分類等。
到目前為止,有諸多研究工作都致力于改善這種狀況。其中值得關注的是,在過去的幾十年間,大量的數據分析表明“無標度”特性廣泛存在于各種網絡中。近年來,學術界對語言的社會網絡分析有較多成果[11-13],使得我們可以實現文本的復雜網絡結構表達。并利用現有社會網絡分析技術對其進行分析和研究,重新審視和實現文本理解。
本文致力于結合主題內部語義耦合關系與網絡拓撲結構分析,識別和解釋文本主題語義,梳理和獲取更加細化的主題分析結果,提出一種基于主題網絡的偽主題分析方法(pseudo topic analysis, PTA)。通過構造文本主題網絡圖,旨在通過對各主題網絡的社區內部結構分析和解釋,獲取描述各主題詞項之間更加細化的語義關聯關系。調整主題網絡中各詞項重要度,凸顯描述主題語義的詞項,實現豐富和補充主題內容表達,有助于更好地解釋主題表達內涵。
復雜網絡顯著的動力學特征之一就是具有社區結構[14]。即社區內各節點連接緊密,但兩個社區之間節點連接稀疏。知曉復雜網絡社區結構,對更準確地理解并分析復雜系統的拓撲結構及動力學特性起著重要的作用。關于復雜網絡社區結構的研究主要包括兩種: 社區結構及關聯關系的研究和社區結構識別的研究。
關于文本網絡的社區結構研究,大體包括與文本處理相關具體任務實現和文本主題內容分析兩種。其中,相關任務實現包括詞義消歧[15]、文本分類[16]和信息推薦[17]等。文本的主題內容分析主要集中對文本主題識別研究[9,18-22]。Smith等[9]通過獲取主題內各詞項間關聯關系構建各主題內部詞項間的網絡關系圖和主題間的網絡關系圖。但該文所構建的詞項間的網絡關系圖僅考慮了主題內部各詞項間的局部關聯關系,并未充分考慮各詞項在文本數據集中的全局關聯關系。Zhou等[18]利用社會網絡社區發現方法,提出一種自動文本主題生成方法HLSM。Lancichinetti等[19]利用社區發現方法,優化概率主題建模結果。Arruda等[20]提出新的文本社會網絡表示方法,同時兼顧文本內容和主題結構,獲取詞項間的語義關聯關系。Akimushkin 等[21]研究了文本中不同部分的詞共現網絡的拓撲演化。Chen等[22]利用社區識別算法實現文本主題發現,其工作本質上構建的是一種基于知識源的主題網絡圖,通過模塊度計算劃分社區獲取主題分布,并利用各主題節點的緊度值評估其對于文本內容貢獻的重要程度。
但是,這些方法并沒有從主題內部各詞項間所具備的潛在語義耦合關系與網絡拓撲結構相結合,實現對文本各主題的理解。從某種角度而言,其分析結果仍是一種粒度較粗的文本語義分析。但事實是,出現在不同主題中的相同詞項對于主題內容貢獻程度不同。其不同的語義貢獻程度不僅僅體現在詞項-主題概率分布中的概率值大小的差異,還在于詞項間語義關聯關系的強度程度不同所體現的語義表達不一致。
近幾年,付京成等[23-24]的研究致力于通過研究社區內部結構,從而獲取更加合理的網絡中各節點在社區結構中的作用。即,在社區結果內部識別兩種不同的社區組織結構。分別為領導者社區和自組織社區。其中,在領導者社區內部存在一個或者多個具有較大度數的節點,其地位要高于自組織社區中各節點。各領導節點不僅連接了社區中其余節點,還保證了社區的稠密和維護社區之間的通信,體現的是網絡拓撲結構中的中心性原則。自組織社區內各節點度數基本一致,各節點在社區中的地位等同,體現的是網絡拓撲結構中的自組織性原則。
綜上,我們可在文本主題建模的復雜網絡結構中,通過社區劃分識別其內部的領導社區和自組織社區,實現從復雜網絡社區內部結構,來審視主題變量在抽象表達文本語義過程中的生成機制。從而,細化明確各主題變量所隱含的內部語義。這將有助于文本的主題語義分析,減少“強制主題”問題對文本分析影響,獲取更加精細的文本間語義相似度。
基于主題網絡偽主題的分析過程,本質上是在各主題的網絡拓撲結構中,分析和識別其隱含的社區結構。并將表達主題內涵的詞項通過社區內部結構分析,實現主題內部語義耦合關系與網絡拓撲結構相結合,獲取新的主題特征來描述原主題分析結果。即不斷地修正主題網絡中各詞項節點的重要程度及詞項節點對之間的關聯程度,將其作為新的主題分析結果。圖1為偽主題分析獲取構架圖。

圖1 偽主題分析獲取構架圖
本文采用標準的LDA對文本數據集進行主題建模。設文本數據集D有K個主題T={T1,T2,…,TK},即有K個主題網絡圖,表示為G={G1,G2,…,GK}。其中,每一個主題網絡可以表示為無向圖Gi=(Vi,Ei),i∈[1,K]。每個主題網絡的節點集,表示為V={v1,v2,…,vn},節點總數記為n=|V|,節點v的度記為kv;每個網絡的邊集E中每條邊ei,j對應V集中節點對(vi,vj)之間的連接關系,邊總數記為m=|E|。圖2為構建的主題網絡圖。

圖2 構建的主題網絡圖
其中,在每個主題網絡圖中,各節點是描述該主題的各詞項節點,各節點的權重體現的是該詞項節點描述主題內容的重要程度。節點對之間的連邊權重體現各詞項在描述主題語義時,所體現的語義關聯關系。具體的定義如下所述。
2.1.1 節點的權重定義
本文把數據集主題建模后,將描述各主題排名靠前的n個詞項作為各主題網絡圖的n個詞項節點。節點的權重即為該節點在主題網絡中的重要度。實質上,本文的偽主題分析就是從各主題網絡中,抽取出更能抽象表達各主題內容的節點描述特征,并利用這些新的描述特征來構造數據集的偽主題分析結果。這就要求這些新的描述特征,不僅能夠抽象各詞項節點在各個主題網絡中的重要程度,同時也要增加不同主題網絡之間的區別?;谝陨显瓌t,將主題網絡Gi中各節點的權重定義為式(1)。
其中,N(vj)表示節點vj鄰接節點的集合,φi,vj表示在主題i(即主題網絡Gi)中第j個詞項vj的概率值,kvj表示節點vj的度數。w(v,w)表示節點對(v,w)之間的邊權重。
2.1.2 邊及邊權重定義
判斷每個主題網絡中每個詞項節點對之間是否存在連邊,可以通過計算該節點對之間是否存在某種語義聯系來獲取。本文將利用工具Word2Vec[注]http://code.google.com/p/word2vec,將每個詞項節點用詞向量來抽象表示,通過計算兩個詞項節點向量之間的相似度值的大小,判斷該節點對之間是否存在連邊。若節點對相似度大于0,則該節點對存在連邊。反之,該節點對不存在連邊。
為了能夠更加準確地度量描述主題的各詞項節點對的關聯強度,需要對主題網絡中節點連邊的權重進行定義。通常,各種不同類型的復雜網絡中邊權重往往具有一定的實際意義,有助于社區的識別。因此,本文在定義主題網絡圖中節點連邊權重的時候,不僅要考慮網絡的拓撲結構,還要考慮節點之間連邊的實際意義。這里,我們的工作主要是想通過對主題的網絡結構描述,實現從網絡結構角度描述文本特征,彌補統計方法對文本語義結構刻畫的不足。因此,在主題網絡的邊權重定義時,要從整個數據集層面來考慮。本文的邊權重定義如式(2)所示。
其中,
其中,|E(G)|表示圖G的邊總數。sim_con和sim_word分別表示節點對之間的網絡拓撲結相似度和詞向量相似度。N(v)∩N(w)表示節點v和節點w的公共鄰接節點集合。
描述主題的各詞項,在共同抽象地表達主題語義時,對主題語義的貢獻程度是不一樣的。首先,體現在詞項—主題概率分布中的概率值大小的不同。通常,概率值較大的詞項認為貢獻程度較大。另外,還體現在這些詞項間語義關聯關系的強度不同所體現的語義表達的不一致。通常,主題所表達語義是由其中少數詞項通過協調和語義關聯其他詞項實現的,且其所表達語義描述較強。同時,其他詞項對這部分詞項所表達語義起補充作用,且彼此間關聯關系較弱。這些均為主題內部的耦合關系。
傳統基于統計的概率主題建模方法,由于受其建模機理限制,無法獲取主題內部耦合關系。值得注意的是,這種耦合關系與社區內部結構非常相似。我們可以利用社區內部結構分析方法應用到主題網絡內部耦合關系的獲取。其中,社區內部結構分為領導者社區和自組織社區[23-24]。在領導者社區內部存在少數幾個領導節點高度關聯其余節點。同時,其余節點必須通過這幾個少數節點的支配才能相互聯系。在自組織社區內部各點,不存在任意節點具有支配其他節點的功能,且社區內部各節點地位等同。
在付京成等2017年的工作中,通過計算社區內各節點度數的方差,與相同節點數的隨機零模型的節點度數的方差比值作為社區劃分依據[24]。但在實際的網絡中,節點屬性描述特征不僅包括節點度數,還包括具體網絡中節點的實際含義,即節點點強度。在本文所描述的主題網絡中,網絡中各節點點強度即為其描述主題內涵的強度大小。所以,我們對劃分依據進行了部分調整,如式(6)所示。
其中,VARreal和VARrand分別表示主題網絡中社區的節點度數及點強度的方差和對應隨機社區的節點度數及點強度的方差。隨機社區節點的點強度就是節點的點度數。這里,我們采用和文獻[24]相同的閾值標準,將1作為閾值。當ρ>1時,識別為領導者社區;當ρ<1時,識別為自組織社區;當ρ=1時,既不是領導者社區也不是自組織社區。
除此之外,在實際的主題建模過程中,一定會有一部分詞項同時出現在多個不同主題描述中的情況發生。即有部分詞項節點在社區識別過程中,會出現在多個不同社區中,存在重疊社區現象。通常,處于重疊社區的那些節點,對完成網絡間語義信息流動和不同網絡間意義的關聯起到關鍵作用。所以,在實際的主題網絡社區識別結果中,對于處理重疊社區的那部分詞項節點,本文將適當增加其節點屬性重要度。
在整個偽主題分析獲取構架中,最關鍵的部分就是識別主題網絡中最能體現主題語義內涵的詞項節點信息。直觀地講,重要程度大且能夠最大語義關聯其他節點的那些節點,是最有可能體現主題語義內涵的。這與社區內部結構中的領導者節點特點是一致的。本文將各主題網絡圖結構中,處于領導者社區且權重較大的節點,作為體現主題語義內容新的主題詞項特征集。
本文將對中、英兩種不同語料進行實驗。其中,中文采用NTCIR8[注]http://research.nii.ac.jp/ntcir/index-en.html提供的新華社簡體中文四年的
新聞語料XINHUA(2002~2005年),包括 308 845 個文檔,涉及多種主題新聞語料。英文采用MEDLINE[注]http://medline.cos.com提供的五年的醫療文檔語料OHSUMED(1987~1991年),包括 348 566 個文檔,涵蓋270種醫學雜志發表的醫療文獻。表1列出了中、英兩個不同數據集的基本情況。

表1 實驗數據集描述
本文采用基于模塊度最大化最好的社區劃分算法之一BGLL算法[25]作為主題網絡社區劃分方法。
由于本文所構建的主題網絡是無社區劃分標簽,所以評價標準采用模塊性EQ[26]來度量社區發現質量。
設社區劃分結果為C={C1,C2,…,CM},EQ值的計算如式(7)所示。

其中,M為社區劃分數,Ov表示在最終社區劃分結果中節點v屬于的社區數,A是原始網絡的鄰接矩陣,m是社區劃分前原始網絡的總邊數。
本文采用開源的JGibbLDA[注]http://sourceforge.net/progjects/jgibblda/工具實現對文本數據集的主題建模。設置初始主題數目K=10,超參數設定α=50/K、β=0.01;Gibbs采樣的估計迭代次數設定為100次,返回主題描述詞項個數word_number=20。主題數目依次取K=10、20,直至100,分別對數據集進行主題建模。為了降低少數低頻詞對文本建模結果的影響,實驗預先去除了數據集中詞頻低于5的部分詞項。其中包含XINHUA中130 363個詞項和OHSUMED中77 322個詞項。本文利用困惑度Perplexity[6]度量建立的主題模型的生成性能,取困惑度取值最低值對應的主題數目作為數據集的最佳主題數目K。
模型困惑度值采用式(8)計算:
其中,Rtest表示有J個文檔的測試集,Nj表示第j篇文檔dj包含的詞項數;P(dj)表示模型產生文檔dj的概率。由圖3所示中、 英數據集Perplexity值變化曲線,可知中、英文數據集最佳主題數目分別為60和70。
表2為中、 英兩種不同文本數據集原始的主題分析結果(top-20)和經過偽主題分析的樣例結果比較。圖4為相應樣例的偽主題圖結果描述。
從表2和圖4的結果可以看出,對各主題網絡的偽主題分析結果不僅可以更加體現主題表達內涵,還進一步體現了這些詞項間的關聯關系。
圖5為中英數據集各主題網絡圖模塊性結果。
從圖5結果來看,本文所提方法對各主題網絡模塊性整體表現良好。圖5中存在個別主題的模塊性值較低,分析其主要原因是由于該主題描述中組成詞項關聯關系缺乏影響社區劃分結果。

圖3 中英數據集Perplexity值變化曲線

XINHUA數據集OHSUMED數據集主題原始主題分析結果偽主題分析結果主題原始主題分析結果偽主題分析結果Topic 2增長,去年,今年,美元,經濟,出口,下降,增加,統計,同期,達到,消費,占,顯示,季度,上升,同比,達,報告,減少增長,經濟,美元,消費,同期,同比,出口,達到,上升,統計Topic 4expression, cells, class,sur-face, lines, complex,ex-pressed, T-cell, molecules, cells., major, bound, interfer-on, HLA-DR, murine, mole-cule, sites, interleukin, dis-tinct, transcripts sites, complex, dis-tinct, interferon, lines, HLA-DR, molecules, cellsTopic 4教育,大學,學生,學校,兒童,人才,培訓,婦女,專業,學習,就業,青年,培養,學院,青少年,工作,務,職業,高校,社會培養,兒童,職業,工作,婦女,服務,就業,青少年,青年,教育,培訓,人才Topic16observed, study, studies, dis-tribution, suggesting, rapid, investigated, epitopes, demon-strated, potential, determined, absorption, staining, possibili-ty, labeled, quantitative, re-spect, identical, preparations, investigated staining, deter-mined, potential, i-dentical, rapid, suggesting, possi-bilityTopic 6上海,國際,舉辦,世界,城市,中心,協會,來自,展覽,舉行,活動,主辦,上海市,成功,申辦,博覽會,今天,中國,世博會,浦東 世界,博覽會,展覽,城市,上海,舉辦,活動,中心,主辦,協會,舉行Topic18hospital, patient, support, study, time, program, costs, nursing, programs, status, ad-mitted, elderly, community, care, patients, survey, recom-mended, systems, improve, benefitsunderwent, dura-tion, radiation, preoperative, tumor, surgery

圖5 中英文本集各主題網絡圖EQ值結果
總體而言,本文所提方法在主題內容發現過程中,綜合考慮了網絡的拓撲特征和原始描述主題詞項的權重信息,能夠給出更符合主題所表達語義的偽表達結果。
本文提出了一種基于主題網絡的偽主題分析
方法。該方法綜合考慮網絡拓撲結構和主題網絡社區內部結構,從全局數據集角度考慮,評估主題網絡各社區節點重要度,實現從網絡結構角度抽象描述文本語義特征,彌補統計方法對文本語義結構刻畫的不足。對實際文本數據集的主題網絡的偽主題分析實驗中,模塊性表現良好。本文所提方法可以幫助用戶更好地分析和理解大規模數據,進一步應用于文本主題內容可視化分析應用中。