基于主題模型的中外期刊文獻挖掘對比研究

2019-07-31 02:07:02單國棟肖彥翠

長春大學學報 2019年6期

單國棟，肖彥翠，王皓

(1.長春大學理學院，長春 130022；2.東北財經大學統計學院，遼寧大連 116025)

學術期刊是科教事業發展過程中的關注焦點之一，對學術期刊文獻進行統計分析，有助于直觀地分析我國的科學創新和技術創新水平。如何從大量的期刊文本數據中發現有價值的信息，變得尤為重要。本文選取經濟類的國內期刊《經濟研究》和國外期刊《美國經濟評論》為代表，對其進行WEB文本挖掘，然后對內容作描述性分析和詞頻趨勢分析，以及文本挖掘模型的對比化分析。通過中外期刊對比，能夠發現國內和國外相應領域目前的研究現狀及關注熱點的發展趨勢，并且可以發現中文與英文分詞方法的不同，同時為經濟學者和讀者的研究提供參考。

1 文本建模相關理論

1.1 文本分詞處理和去停止詞及詞根還原

在進行文本挖掘之前，需要先對文本原始數據進行預處理。而在文本預處理過程中，分詞是最重要的一個環節。對于英文文本，通過空格和標點很容易將文章拆分成詞；但對于中文文本，文本分詞的過程比較復雜，比較常用的中文分詞方法包括：詞典法[1]，隱馬爾科夫過程[2]和CRF模型[3]。通常一篇文本中的冠詞、連詞和介詞等虛詞以及在整個文本集中出現頻率很高、但對區分類別作用不大的詞，被稱為停止詞[4]。去除停止詞是文本預處理中不可缺少的步驟，它們可以使分詞結果變得更準確，為后續的特征表示和統計建模提高精度。與中文相比，英文中同一個詞有詞形的變化，而因為詞義本身沒有變化，就不應該作為獨立的詞來存儲和參與分類計算。去除這些詞形不同但詞義相同的詞，僅保留一個副本的步驟就稱為“詞根還原”，經過“詞根還原”，英文文本預處理過程結束。

1.2 文本特征提取

文本挖掘的一個基本問題是文本的表示及其特征項的選取。如果直接將分詞結果作為特征項來表示文本，那么這個文本向量的維度將會非常大，因而，必須從文本中提取出特征詞來表示文本信息，即通過特征選擇來降低文本向量的維度。特征項必須具備如下的特性：(1)文本內容需要被特征項所標識；(2)將目標文本與其他文本需要被特征項相區分；(3)特征項的個數不能太多，否則起不到降維的效果；(4)特征項分離比較容易實現。

特征項選取的方式通常有4種：(1)通過映射或變換的方法把原始特征映射為較少的新特征；(2)從原始特征中挑選出一些最具代表性的特征；(3)根據專家的知識挑選最有影響的特征；(4)用數學的方法找出最具分類信息的特征。這里的第4種方法是一種比較精確的方法，人為干擾因素較少，比較適用于文本自動分類挖掘系統。

1.3 基于LDA主題模型和CTM主題模型的文本建模理論

在自然語言處理領域，主題模型越來越受到廣泛關注。主題模型是提取文檔中隱含主題的一種概率模型，是對文字隱含主題進行建模的一種方法[5]。它打破了傳統空間向量文檔-詞的思維定向，將文檔映射到主題空間上，表示為文檔-主題-詞。用主題描述文檔，有效地降低了維度，即主題模型克服了空間向量模型的缺點。

現階段主要應用的主題模型包括LDA主題模型和CTM主題模型。

LDA(Latent Dirichlet Allocation)模型是Blei等人在2003年提出的[6]，他們在pLSI方法[7]的基礎上加入先驗分布Dirichlet分布得到LDA模型。LDA主題模型生成文本的過程如下[8]：

(a)對于主題z，根據Dirichlet分布Dir(β)得到該主題上的一個單詞多項式分布向量φ；

(b)根據泊松分布P得到文本的單詞數目N；

(c)根據Dirichlet分布Dir(α)得到該文本的一個主題分布概率向量θ；

(d)對于該文本N個單詞中的每一個單詞Wn：

(d1)從θ的多項式分布Multinomial(θ)隨機選擇一個主題z；

(d2)從主題z的多項式條件概率分布Multinomial(θ)選擇一個單詞作為Wn。

其中，α和β是Dirichlet分布的參數，一般都是對稱并且是固定值，α反映了文檔集合中隱含主題間的相對強弱；β刻畫了所有隱含主題自身的概率分布。

CTM模型則利用Logistic正態分布中的協方差矩陣來代表主題之間的關系。CTM主題模型生成文本的過程如下[9]：

(a)給定K個主題，各個主題都是全部詞語的一個分布；

(b)從多維分布中，隨機選取一個主題；

(c)從多維分布中，隨機選取一個單詞；

(d)重復以上過程，直到所有文檔的所有詞被抽取。

2 中外期刊文獻挖掘對比研究

2.1 數據來源和文本數據預處理

《美國經濟評論》(The American Economic Review，AER)是享譽經濟學界的頂尖學術期刊，它涵蓋了經濟的各個領域，反映了人們關注的經濟焦點，是經濟學界的風向標。《經濟研究》是全國性綜合經濟理論期刊，是在中國影響最大的經濟理論期刊。本文通過爬蟲技術分別爬取了1990年到2015年間刊登在《美國經濟評論》和《經濟研究》的所有文章，分別共有5684和3971篇文章，爬取的信息包括：文章題目、作者、年、月、摘要、關鍵詞等。

獲取到《美國經濟評論》和《經濟研究》的Web文本數據后，需要對這些文本數據進行預處理，包括：文本分詞、停用詞過濾等，這是對文本進行初步的過濾。經過前述的文本預處理過程后，則可以對預處理后的數據進行對比分析。

2.2 文本的描述性分析

2.2.1 科研年產出分析

由圖1可以發現，《美國經濟評論》的文章年產量明顯高于《經濟研究》的文章年產量。

就整體來看，《美國經濟評論》文章年產量波動較大，而《經濟研究》波動較小。而就局部來看，《美國經濟評論》的年產量比較平穩，而《經濟研究》的年產量波動較大。

圖1 文章年產量

2.2.2 高產作者分析

圖2和圖3分別展示了《美國經濟評論》和《經濟研究》的高產作者數量。《美國經濟評論》期刊中，nmax=24，得m=3.6，即發表文章在4篇及以上的作者為高產作者，有532位作者。《經濟研究》期刊中，nmax=39，得m=4.7，即發表文章在5篇及以上的作者為高產作者，有240位作者。通過對比發現，《美國經濟評論》的高產作者人數多于《經濟研究》。就最高產作者發表文章數來看，《經濟研究》高于《美國經濟評論》。

圖2 《美國經濟評論》高產作者圖3 《經濟研究》高產作者

2.2.3 文章合著分析

《美國經濟評論》1990-2015年間共發表5095篇文章，合著文章共3326篇，占總發表文章的65%。由圖4的年合著率可以看出，合著率整體呈上升趨勢。1990年合著率最低，占43%；2012年合著率最高，占82%。《經濟研究》1990-2015年間共發表3971篇文章，其中合著文章共2014篇，占總發表文章的51%。年合著率整體呈上升趨勢，1996年合著率最低，有13%，2014年合著率最高，有88%。

圖4 文章合著率圖5 作者人數分布

通過對比合著率發現，隨著時間的推移，《美國經濟評論》與《經濟研究》合著率的差距越來越小。1990-2005年《美國經濟評論》的合著率均高于《經濟研究》。2006年，《經濟研究》的合著率超過了《美國經濟評論》。2006-2013年之間，《美國經濟評論》和《經濟研究》的合著率相當。2014年和2015年《經濟研究》的合著率明顯高于《美國經濟評論》。由以上數據可以得出結論：合著已經成為了一種比較普遍的現象。

針對《美國經濟評論》和《經濟研究》，我們統計了合作者人數及文章數，統計結果發現，《美國經濟評論》合著作者人數最多為12人。對比之下，《經濟研究》合著作者人數最多為16人。對比《美國經濟評論》和《經濟研究》的合作者人數(見圖5)，就一位作者來看，《經濟研究》的合著占比高于《美國經濟評論》。作者人數為2、3、4時，《美國經濟評論》的占比均高于《經濟研究》。綜上所述，《美國經濟評論》的作者傾向于合作，且以二人合作的形式居多；《經濟研究》的作者更傾向于獨著。

2.2.4 關鍵詞分析

將《美國經濟評論》的摘要分詞除去停止詞后，統計詞語的頻數。將詞語按出現的次數從高到低排序，取前100個高頻詞語作詞云圖(見圖6)。由圖6發現，模型、影響、市場、價格出現的次數最多，即是《美國經濟評論》的作者最關注的方面。取詞頻最高的前15個詞語作柱狀圖，結果如圖7所示。提取的高頻詞語能夠反映出《美國經濟評論》文獻關注的主要內容，主要包括經濟市場情況、影響、價格、政策、消費、變化等，其中最關注模型，說明《美國經濟評論》的作者更多地致力于模型的研究。

圖6 《美國經濟評論》高頻詞詞云圖圖7 《美國經濟評論》高頻詞柱狀圖

按照同樣的方式對《經濟研究》詞頻進行統計，繪制圖8、圖9。由圖8發現，中國、經濟、影響、企業出現的次數最多，即是《經濟研究》的作者最關注的方面。從提取的高頻詞語能夠反映出《經濟研究》文獻關注的主要內容，主要包括我國經濟情況、企業狀況、面臨問題、理論方面、改革等，其中最關注經濟，說明《經濟研究》的作者更關注于我國的經濟情況。

圖8 《經濟研究》高頻詞詞云圖圖9 《經濟研究》高頻詞柱狀圖

根據《美國經濟評論》和《經濟研究》高頻詞的詞云圖發現，《美國經濟評論》和《經濟研究》的作者均比較關注經濟、政策、模型、理論、影響、企業、勞動力、產品等。除此之內外，《美國經濟評論》的作者還比較關注工資、消費等，均是站在個人的角度和作者日常生活息息相關的。而《經濟研究》的作者還比較關注農業、農村、工業等。

2.3 文本的主題分析

近年來，主題模型主要同文本聚類和文本分類相結合，應用于文獻搜索和文獻推薦等方面，LDA模型和CTM模型為主要應用模型。本小節針對《經濟研究》和《美國經濟評論》的數據，對其進行LDA主題模型和CTM主題模型分析。

2.3.1 《經濟研究》的主題分析

根據《經濟研究》的自身特點并且通過觀察高頻率詞語不斷調試主題個數，觀察結果，最終確定《經濟研究》主題個數為6個。

(1)LDA主題模型：得到的6個主題如表1所示，除第5個主題是理論經濟學外，其他主題均是應用經濟學。

表1 《經濟研究》LDA主題模型結果

(2)CTM主題模型:6個主題如表2所示，除第5主題和第6主題是理論經濟學外，其他主題均是應用經濟學的內容。

2.3.2 《美國經濟評論》的主題分析

根據《美國經濟評論》的自身特點并且通過觀察高頻率詞語不斷調試主題個數，觀察結果，最終確定，將《美國經濟評論》分為8個主題。

(1)LDA主題模型：各個主題詞根據其在文本主題出現的概率按照降序排列，如表3所示。

表3 《美國經濟評論》LDA主題模型結果

(2)CTM主題模型：運用CTM主題模型得到的8個主題如表4所示，這同LDA模型的結果(表3)有所不同。

表4 《美國經濟評論》CTM主題模型結果

2.3.3 總結與對比

經過上述分析，我們得到以下發現：

(1)在《美國經濟評論》和《經濟研究》數據集上，LDA主題模型效果更好一些。

(2)《美國經濟評論》的LDA模型和CTM模型的結果都共同包括社會經濟學、財政學、國際貿易學，但主題的詞語有所差別。除此之外，LDA模型主題還包括投資學、教育經濟學、國際貿易學、金融學和生育率對經濟影響。CTM模型主題還包括政治經濟學、發展經濟學、保險學、貨幣銀行學和宏觀經濟學。

(3)《經濟研究》的LDA模型和CTM模型的結果都共同包含國民經濟學、國際貿易學、貨幣銀行學、產業經濟學和政治經濟學方面的內容，但主題的詞語有所差別。除此之外，LDA模型還包括投資學等內容。CTM模型還包括宏觀經濟學內容。

(4)《美國經濟評論》包括8個主題，《經濟研究》包括6個主題。對比它們的LDA模型結果，發現《美國經濟評論》和《經濟研究》的主題均包含國民經濟學、投資學和國際貿易學。除此之外，《美國經濟評論》主題還包括社會經濟學、財政學、教育經濟學、金融學和生育率對經濟的影響；《經濟研究》主題還包括政治經濟學、產業經濟學、貨幣銀行學。

3 結語

通過對《美國經濟評論》和《經濟研究》文獻的文本數據的提取，對結構性數據進行描述性分析，對摘要進行分詞、特征表示和特征提取，進而進行聚類分析和主題分析。

迄今為止，在針對期刊文本的研究中，所采用的分詞技術主要是單一的針對中文，很少將中英文分詞過程作對比。本文通過對外文期刊《美國經濟評論》和中文期刊《經濟研究》的摘要分詞，對比中英文分詞的相同與不同，從而為科研工作者提供便利。此外，本文深層次地挖掘中美兩國經濟研究領域權威期刊的內容，其結果對該領域學者的研究工作有一定的參考價值。