劉璐 蔡永明



摘 要 為提高引文網絡社區劃分的準確性,以文檔之間的語義關系以及引文之間的引用關系為基礎,結合詞匯在文檔中的位置關系等信息,構建基于詞匯語義加權的引文網絡。通過GloVe模型對詞匯向量化以充分利用詞匯語義信息,結合WMD模型度量文獻之間的相似度,把文檔相似度的計算轉變為在約束條件下求線性規劃最優解的問題,結合文本的內容及結構特征對網絡中的邊進行賦權,以Louvain社區發現算法對加權后的引文網絡進行社區劃分,并對劃分后的社區進行分析與檢驗,實驗證明GloVe-WMD模型可提高引文網絡社區劃分的準確度。
關鍵詞 引文網絡? 語義加權? 社區劃分 文本挖掘 自然語言處理 詞嵌入
Abstract To improve the accuracy of citation network community division, citation network with lexical semantic weighting was constructed based on the semantic relationship between documents and the reference relationship between citations and the location relationship of words in documents and other information. The GloVe model was used to vectorize the words in order to make full use of the semantic information of the words. The WMD model was used to measure the similarity between literatures, and the calculation of the similarity of documents was transformed into the problem of finding the optimal solution of linear programming under the constraint condition. The edges in the network were weighted according to the similarity, content and structural features of the text. The citation network was divided into communities by the Louvain community discovery algorithm. The divided community is analyzed and tested. The results show that GloVe-WMD model can improve the accuracy of community division of Citation Network.
Keywords Citation network. Semantic weighting. Community discovery. Text mining. Natural language processing. Word embedding.
0 引言
學術文獻是科研領域客觀存在的知識載體,而參考文獻作為學術文獻的重要組成部分,不僅反映了學術研究的背景和依據,而且在知識生產和傳播過程發揮著重要的作用。引文網絡是文獻間引用與被引用關系的集合[1],網絡中的節點表示一篇文章,連邊則表示文獻間的引用關系[2]。隨著知識的爆炸增長,引文網絡已經形成了一個超大規模的網絡系統,對指數級增長的文獻,僅憑人力已經無法精確提取出人們所需要的有效信息。如何快速準確地提取出人們所需要的信息是知識管理人員以及相關研究人員需要思考的問題。聚類分析法是信息檢索領域的一種重要應用[3],通過對引文網絡進行聚類分析可以發現網絡中的社區結構,從而揭示學術領域的傳承與發展,也能夠為學術研究評價提供不同的視角。為了提高引文網絡劃分的準確性,筆者在傳統的One-Hot-Representation模型上,綜合考慮文獻之間的語義關系以及引用關系,結合文檔的內容及結構特征,提出一種基于GloVe-WMD語義加權的引文網絡社區劃分方法,并以相關數據為例驗證了改進模型的效果。
1 引文網絡的社區劃分研究概述
引文網絡的社區劃分主要利用文獻的標題、摘要及關鍵詞作為主要信息源組成短文本對引文網絡進行處理,目前大都采用BOW→TF-IDF→VSM/LSA的體系來實現,也就是俗稱的One-Hot-Representation,又被稱為0-1編碼或者獨熱編碼,它把所有的文檔表示為向量形式,通過計算向量之間余弦值作為相似度對引文網絡的邊進行賦權。
BOW(Bag-Of-Words)[4],也稱為詞袋模型,是自然語言處理和信息檢索領域的重要模型之一,它省略了文本的語法、語序等要素,把文本當成若干個詞匯的集合,使用詞匯來表示文本;Gerard Salton等[5]提出的向量空間模型(Vector Space Model,VSM)是一種經典的機器學習模型,一篇文本被表示為一個向量,向量的維度表示文本特征詞的權重,所有的文本向量構成一個向量空間,文本內容即可轉換為易于數學處理的向量形式,文本內容的處理轉化為向量空間中的數學運算;TF-IDF(Term Frequency- Inverse Document Frequency)算法是自然語言處理領域中使用最廣泛的特征詞權重賦值方法之一,它利用TF和IDF可以剔除文本中高頻但區分度較低的詞。魏建香等[6]基于此利用關鍵詞和摘要提出加權引文網絡聚類的方法;謝翠香 、劉勘等[7-8]根據上述體系進行改進,對文本進行區域劃分,根據詞匯出現的不同位置分布分別賦予權重,給出了含有位置關系的新的權重計算方法;肖雪等[9]在前者的基礎上提出了一種基于樣本加權的引文網絡社區發現方法,結合了文本的內容及位置結構對引文網絡進行劃分。
上述加權引文網絡都旨在強調特征詞對文本的代表能力及提取方法,而忽略了詞匯本身包含的語義。由此,廖開際等[10] 考慮了特征項在文本中的重要程度以及特征項之間的語義關系,提出基于文本特征項的加權語義網模型計算文本之間的相似度。該方法雖然包含了文本的語義聯系,但對短文本分析時無法避免矩陣的稀疏性造成的信息丟失及維度災難[11],也沒有考慮到文獻之間的引用關系,并不適用于引文網絡。目前對引文網絡的加權研究著重改進特征詞權重的計算,強調更準確地提取特征詞或者改進特征詞對于文獻的表示能力,而對于詞匯本身的聯系關注甚少。而且,上述體系在對短文本分析時存在一個弊端,短文本的“文檔-詞匯”矩陣通常是高度稀疏的[12],如果文本特征詞選擇不當,隨后在使用余弦相似度計算文本相似性時,文獻經過向量化,兩個文獻沒有重復詞語,則會被認定為完全不相關。基于此,研究者們需要一種詞向量技術來處理詞匯語義關系,從而發現詞語之間的內在聯系。
詞向量表示技術是將自然語言中的每一個詞語通過編碼方式轉換為稠密向量形式,也稱作詞嵌入(Word Embedding)。1998年Hisao Tamaki[13]提出了LSA(Latent Semantic Analysis)模型,利用詞匯的潛在語義進行分析,可有效收集詞匯的全局統計信息,但LSA模型不能捕捉到詞的上下文信息,導致詞匯語義表達能力欠缺;Mikolov [14]等在2013年提出了 Word2Vec 模型, 精簡了神經網絡的隱藏層[15],使詞向量訓練效率比傳統的神經網絡模型得到了大幅的提升, 但此模型基于局部窗口信息訓練詞匯,并沒有考慮詞匯全局的統計信息;斯坦福NLP(Natural Language Processing)小組[16]在2014年提出一種新的詞匯表征方法——GloVe(Global Vectors for Word Representation)模型, 它結合了Word2Vec以及LSA模型的優點,訓練出的詞匯向量不僅可以有效捕捉到詞匯的語義特性,比如詞語間的相似性、類比性等,而且能兼顧詞匯在全局的統計信息,使得表達更加準確。
聚類是尋找社會網絡中社團結構的算法,它基于各個節點之間連接的相似性或者強度,把網絡自然地劃分為各個子群[2],目前聚類分析的主要方法可以概括為兩大類:一類是層次聚類算法和派系過濾算法,如Newman快速算法[17]和GN分裂算法[18],另一類是基于圖論的算法,如隨機游走算法、譜評分法等。在復雜網絡的社區劃分中,應用最為廣泛的是基于模塊度優化的社區發現算法,Newman快速算法和GN分裂算法為其中經典的代表,但這兩種算法在處理大規模社區網絡時,效率往往不高。Vincent D. Blondel等[19]在2008年基于Newman快速算法進行修改,提出了基于模塊度優化的啟發式Louvain算法,有效提高了社區劃分的效率和準確性,該算法也成為大多數知識圖譜網絡分析軟件的基礎算法。
2 基于GloVe-WMD語義加權的引文網絡社區劃分基本思想
引文網絡假設是一個多學科交叉的大型社區網絡,不同領域的文獻雖然存在著引用關系,但內容相似度較低,而同領域的文獻內容相似度較高。傳統的引文網絡把文獻之間的鏈接關系看作是等價的,利用文獻之間的相似度并結合它們之間的鏈接關系對網絡中的邊進行賦權,通過社區發現算法可以提煉出有價值的簇。
基本思路可以分為以下4個階段:①搜集原始數據,把文獻的標題、摘要及關鍵詞組成短文本并進行文本預處理。②利用Glove模型得出全局詞匯的n維詞向量(度量詞匯之間的相似性);由BOW(詞袋模型)匯總每一篇文檔詞匯的詞頻,利用TF-IDF以及文本的內容及結構特征對詞匯賦權(表示其重要性程度),構建VSM(向量空間模型)。③通過WMD計算出文獻的相似度作為權重代入引文網絡。④利用Louvain算法對加權后的網絡進行社區發現與評估。具體流程如圖1所示。
3 GloVe-WMD語義加權模型的實現
GloVe詞匯模型結合了全局“文檔-詞匯”矩陣分解方法(LSA算法為代表)以及局部文本框捕捉方法(word2vec為代表)二者的優點,利用全局詞匯共現矩陣作為訓練數據,將每個詞映射成 n維實數向量,通過設置文本信息框的寬度,可獲得詞匯數據更加深層次的特征表示[20]。其GloVe模型的核心思想是利用詞與詞之間共現的統計數據來構造詞向量。
3.1 GloVe全局詞匯向量模型
3.2 詞匯賦權方法
在構造向量空間(VSM)時需要對詞匯進行賦權,傳統的布爾值賦權法選擇用詞頻信息作為詞匯的權重,但會忽略詞匯的內在性質,無法區分出對文檔真正具有代表性的詞匯。本研究選擇時下流行的TF-IDF(Term Frequency–Inverse Document Frequency)加權方法,它可以有效衡量詞匯對文檔的區分能力。TF表示詞匯在文檔中出現的頻率,IDF表示詞匯對文檔的重要程度,其方法的基本思想為,詞匯的重要程度與它在文檔中出現的頻率呈正比,但同時與其在全局詞匯庫中出現的次數呈反比。TF-IDF權重法能夠有效過濾掉生活中的常用噪聲詞匯,而給真正對文檔具有代表能力的詞匯賦予更高的權重。TF-IDF權重值由兩部分乘積所得,目前常用的有效公式為:
在學術文獻中,詞匯的重要程度與其出現的位置關系十分緊密,文獻的標題、摘要及關鍵詞在某種程度上可以表達文獻的核心內容,為了簡化計算,提升模型效率,只考慮詞匯在這三種位置不同的重要程度。研究表明,標題是文獻內容的高度概括,重要程度一般為最高,關鍵詞是作者對整篇文獻核心的提煉,重要程度次之,摘要為文獻內容的簡練表達,重要程度放在最后,綜上所述,對三個位置出現的詞匯分別進行如下加權處理:
3.3 構建語義加權引文網絡
引文網絡是根據文獻之間的引用關系構建,而網絡中邊的關系權重是由文獻之間的相似度確定的。DOI(Digital Object Unique Identifier,DOI)為文獻的唯一標識符,在收集的原始數據集中,對每篇文獻的DOI及引用的參考文獻的DOI進行匹配,從而可以確定文獻之間的引用關系,而文獻之間的引用關系涉及到知識流動的方向,故本研究默認引文網絡為有向的加權網絡。
文獻間的相似度的主要計算方式為WMD模型,WMD(Word Movers Distance)是Matt J. Kusner[21]在2015年提出的一種文本相似度量方法,通過計算一篇文檔所有的詞匯“移動”到另一篇文檔所有詞匯的最小距離總和表示詞移距離,轉移示意圖如圖2所示。
利用上節中得到的詞匯向量計算詞匯之間的距離,記為distance,根據示意圖,文檔1到文檔2的距離為:distance(詞匯1->詞匯5)+distance(詞匯2->詞匯7)+…但實際情況中,詞匯往往不是一一對應的,為了解決這一問題,WMD采用文檔的每個詞匯以不同的權重轉移到另一篇文檔中的所有詞匯中的方式,由另一篇文檔中的所有詞負責分配該詞的權重,那么“詞匯1”轉移到文檔2的距離則變為:
4 社區劃分方法及評估
Louvain社區發現算法[19]是基于Newman快速算法改進而來,其核心是層次聚類,目標是最大化社區網絡的模塊度。社區網絡的模塊度是衡量社區劃分優劣的一個重要指標,其取值在[-1,1]區間內,在實際應用中模塊度的取值一般在0.3~0.7之間,其主要思想是測量社區內節點的鏈接密度與社區之間的鏈接密度。其公式定義為:
Lovain算法的基本流程如下:①所有的節點視為一個社區;②依次嘗試把節點i劃分到相鄰的社區,分別計算前后的模塊度值,用分配后的模塊度值與分配之前的模塊度做差得到? ? ? ,如果? ? ? ? ? ? ?,即差為正值時,則接受此次劃分,否則拒絕;③重復第二步直至所有的節點不再變化;④把第三步劃分的社區重新視為一個節點,繼續執行②-③,直至社區結構不再改變。
5 數據驗證及測評結果分析
5.1 獲取原始數據及文本預處理
為了驗證基于GloVe-WMD語義加權的引文網絡的社區劃分效果,本文選取WOS(Web Of Science)核心庫中收錄的期刊文獻作為原始數據,檢索以“5G”為關鍵詞的論文,以“領域中的高被引論文”及“領域中的熱點論文”為過濾條件,時間跨度為2011—2019年,共檢索出有相互引用關系的論文2095篇。保留文獻記錄文件的DI(DOI),TI(題目),DE(關鍵詞),AB(摘要),CR(參考文獻)五個字段,DI與CR中的DOI依次匹配可得到論文的引用關系,TI、DE和AB三個字段組成短文本,作為文獻的信息來源。剔除無摘要,無關鍵詞及無引用關系的孤立點,剩余文獻1591篇,共存在11 519條引用關系。
在進行文本分析之前,首先建立詞袋模型(Bag Of Words,BOW),然后對文本進行預處理,包括分詞、大寫轉小寫、去停用詞以及詞干提取。部分處理結果如表1所示。
5.2 訓練詞匯向量及文本相似度計算
通過詞袋模型建立“文檔-詞匯”矩陣和詞匯共現矩陣,然后利用GloVe模型訓練詞匯向量,研究表明,詞匯向量的維度在100~280維之間,可以高效準確的表達詞匯的語義,但隨著維度的增大,模型的效率會大幅下降,故在考慮準確性的同時,兼顧模型的計算效率,本文設定詞匯向量的維度為200維,經過50次迭代計算得出詞匯向量。
文本相似度的計算同樣是借助“文檔-詞匯”矩陣,根據矩陣構建VSM模型,結合“TFIDF-位置參數”對VSM模型加權,每個文檔組成一個向量空間,利用WMD模型計算文獻之間的相似度,并作為權重對引文網絡中的邊賦值。
5.3 社區劃分結果及分析
5.3.1 文本相似度分析
在相同的數據集上,分別采用傳統的基于TF-IDF加權的One-Hot-Representation模型(圖3a)以及基于GloVe-WMD語義加權模型(圖3b)計算文本之間的相似度。
由分布圖可以看出基于TF-IDF加權的One-Hot-Representation模型求出的文檔之間的相似度大部分集中在0~0.2之間,相似度為0的成對論文在1500對以上。經過分析,主要是由于短文本的“文檔-詞匯”矩陣的高度稀疏性,在利用該模型計算文本之間的相似度時,如果兩篇文檔之間詞匯重復度非常低或者沒有重復詞匯,即使表達的是相同的語義,也會被認為完全不相似。而基于GloVe-WMD語義加權模型求得的相似度分布大多集中在0.3~0.6之間,接近正態分布,由于原始文本數據通過檢索某一關鍵詞所得,所以后者的文獻相似度分布更接近實際情況。
5.3.2 社區劃分分析
Gephi是基于JVM開發的一款開源免費的社區網絡分析工具,基于Louvain算法,適用于各種網絡和復雜系統的社區劃分和可視化。為了進一步驗證模型的有效性,利用Gephi分別對無權重的引文網絡、基于TF-IDF的One-Hot-Representation的引文網絡以及基于GloVe-WMD語義加權引文網絡進行社區劃分,并比較三者的模塊度(Q函數值),對比結果如表2所示。
由表2可知,OneHotRepresentation-TFIDF模型社區劃分與其他兩個差別明顯,社區個數達到30個,主要是因為該模型在計算文本相似度的過程中,沒有重復詞匯的文檔之間相似度為0,而把相似度作為權重代入引文網絡,則會造成大量的權重為0的引用關系被忽略。對比發現,原始的無權網絡與基于GloVe-WMD的語義加權網絡在社區劃分的個數上沒有變化,但模塊度值由0.572上升到0.653,聚類效果提升明顯。
為了深入驗證模型具體效果,選取具有代表性的節點觀察前后變化。度,代表網絡中與節點直接相連的邊的數目,是衡量單個節點重要性的指標。為了便于觀察分析,本研究選取度為30以上的節點進行展現,OneHotRepresentation-TFIDF模型造成大量引用關系丟失,不具有參考價值,故只對無權引文網絡和基于GloVe-WMD語義加權引文網絡進行對比。加權前后的社區劃分如圖4所示。
圖4中每個節點代表一篇文獻,密集的節點組團代表一個社區,由圖4可以看出社團大致結構基本相似,但具體的節點在社區歸屬上產生了改變,由于截選了度大于30的節點展現網絡圖,所以圖4中每個點的變化都會引起全局網絡圖中大量與該點相連的節點社團歸屬發生相應的改變。為了驗證模型的可靠性,通過主題、關鍵詞共現得出每個社團的高頻詞分布,并隨機選取5個前后變化的節點進行分析,部分展示結果如表3、表4所示。
再進一步通過人工分析,發現節點n73、n183、n302、n480和n642在兩種不同的網絡模型所處社區發生改變。由表3得知,社區1主要涉及領域為5G通信、毫米波、信道以及移動網絡;社區2為物聯網和智能設備的應用和可靠性研究;社區3的主題為云計算、霧計算和邊緣計算等相關技術;社區4是對第五代通信技術NOMA(非正交多址接入)的技術研究;社區5主要集中了第五代通信技術的應用,包括NOMA、中繼網絡、中繼選擇和功率傳遞等技術的優化,社區6為5G編碼及相關算法優化的集合。對比表3和表4不難發現,文獻n73和n480的主題是移動邊緣計算的優化及應用,理應劃分到第3個社區;文獻n183和n642是關于邊緣計算、云計算等技術在物聯網及智慧家居方面的應用,應該劃分為社區2;n302是關于毫米波在非正交多址系統中的應用,側重于毫米波的研究,故應劃分為社區1。
綜上所述,基于GloVe-WMD語義加權模型在進行社區劃分時更加準確,模塊度也有所提高,而且不受文本長短的制約,適用范圍更廣泛,無論從定量分析和定性分析兩方面都比傳統的模型更有優勢。
6 結語
基于GloVe-WMD語義加權模型對比傳統的無權引文網絡以及基于OneHotRepresentation-TFIDF模型加入了詞匯語義這一重要信息,并綜合考慮了詞匯的位置信息,提高了模型在短文本分析中的適用性以及社區劃分的準確度。
引文網絡可以很好地反映學科的研究背景、熱門領域以及未來的學術發展方向,隨著社會的發展,技術及知識更新日新月異,引文網絡的應用將變得更加廣泛。當前涉及到引文網絡的社區劃分仍然存在很多值得探討的問題,比如,本文提出的GloVe-WMD語義加權模型僅僅局限于詞匯這一層面,但一篇文獻詞匯、句子與段落的語義關系都是相互關聯的,如何更好地處理三者之間的關系也是值得探討的研究方向;其次,文獻作者在知識圖譜中也包含豐富的信息,如果能對文獻作者進行準確的劃分并與引文網絡相結合,不僅可以提高準確度,而且有利于對學科發展進行更深層次的研究。
CHUNG F.Graph theory in the information age[J]. Noticesof the American Mathematical Society,2010,57(6):726-732.
BOWER D F.Six degrees:the science of a connected age[J]. Reflections,2005,61(1):93.
章成志,師慶輝,薛德軍. 基于樣本加權的文本聚類算法研究[J]. 情報學報,2008,27(1):42-48.HINRICH SCHüTZE. Automatic word sense discrimination[J]. Computational Linguistics,1998,24(1):97-123.SALALTON G . Automatic text analysis.[J]. Science,1970,168(3929):335-343.
魏建香,蘇新寧.基于關鍵詞和摘要相關度的文獻聚類研究[J]. 情報學報, 2009, 28(2):220-224.
謝翠香.基于改進向量空間模型的學術論文相似性辨別系統設計[J]. 電腦知識與技術,2009,5(19):5103-5105.
劉勘,周麗紅,陳譞.基于關鍵詞的科技文獻聚類研究[J]. 圖書情報工作,2012,56(4):6-11.
肖雪,王釗偉,陳云偉,等.基于樣本加權的引文網絡的社團劃分[J].圖書情報工作,2016,60(20):86-93.
廖開際,楊彬彬.基于加權語義網的文本相似度計算的研究[J].情報雜志,2012,31(7):182-186.
RUMELHERT D E , HINTON G E , WILLIAMS R J . Learning representations by back propagating errors[J]. Nature, 1986, 323(10):533-536.
蔡永明,長青.共詞網絡LDA模型的中文短文本主題分析[J].情報學報,2018,37(3):305-317.LANDAUER T K , FOLTZ? P W , LAHAM D.An introductionto latent semantic analysis[J]. Discourse Processes, 1998, 25(2):259-284.
MIKOLOV T,CHEN K,CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science,2013,65(9):78-94.
吉久明, 施陳煒,李楠,等. 基于GloVe詞向量的“技術:應用”發現研究[J]. 現代情報, 2019, 39(4):14-23.
PENNINGTON J, SOCHER R, MANNING C. Glove: global vectors for word representation[C]// Conference on Empirical Methods in Natural Language Processing,2014: 1532-1543.
NEWMAN M E J . Fast algorithm for detecting community structure in networks[J]. Phys Rev E Stat Nonlin Soft Matter Phys, 2003, 69(6 ):66-87.
GIVAN M, NEWMAN M E J. Community structure in social and biological networks[J]. Proc Natl Acad Sci USA,2002,99(1),21-26.
BLONDEL V D , GUILLAUME J L , LAMBIOTTE R , et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, 78(10):56-69.
林江豪,周詠梅,陽愛民,等.結合詞向量和聚類算法的新聞評論話題演進分析[J].計算機工程與科學,2016,38(11):2368-2374.
KUSNER M J, SUN Y, KOLKIN N I, et al. From word embeddings to document distances[C]// International Conference on International Conference on Machine Learning. 2015.