999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的中外期刊文獻挖掘對比研究

2019-07-31 02:07:02單國棟肖彥翠
長春大學學報 2019年6期
關鍵詞:文本經濟模型

單國棟,肖彥翠,王 皓

(1.長春大學 理學院,長春 130022;2.東北財經大學 統計學院,遼寧 大連 116025)

學術期刊是科教事業發展過程中的關注焦點之一,對學術期刊文獻進行統計分析,有助于直觀地分析我國的科學創新和技術創新水平。如何從大量的期刊文本數據中發現有價值的信息,變得尤為重要。本文選取經濟類的國內期刊《經濟研究》和國外期刊《美國經濟評論》為代表,對其進行WEB文本挖掘,然后對內容作描述性分析和詞頻趨勢分析,以及文本挖掘模型的對比化分析。通過中外期刊對比,能夠發現國內和國外相應領域目前的研究現狀及關注熱點的發展趨勢,并且可以發現中文與英文分詞方法的不同,同時為經濟學者和讀者的研究提供參考。

1 文本建模相關理論

1.1 文本分詞處理和去停止詞及詞根還原

在進行文本挖掘之前,需要先對文本原始數據進行預處理。而在文本預處理過程中,分詞是最重要的一個環節。對于英文文本,通過空格和標點很容易將文章拆分成詞;但對于中文文本,文本分詞的過程比較復雜,比較常用的中文分詞方法包括:詞典法[1],隱馬爾科夫過程[2]和CRF模型[3]。通常一篇文本中的冠詞、連詞和介詞等虛詞以及在整個文本集中出現頻率很高、但對區分類別作用不大的詞,被稱為停止詞[4]。去除停止詞是文本預處理中不可缺少的步驟,它們可以使分詞結果變得更準確,為后續的特征表示和統計建模提高精度。與中文相比,英文中同一個詞有詞形的變化,而因為詞義本身沒有變化,就不應該作為獨立的詞來存儲和參與分類計算。去除這些詞形不同但詞義相同的詞,僅保留一個副本的步驟就稱為“詞根還原”,經過“詞根還原”,英文文本預處理過程結束。

1.2 文本特征提取

文本挖掘的一個基本問題是文本的表示及其特征項的選取。如果直接將分詞結果作為特征項來表示文本,那么這個文本向量的維度將會非常大,因而,必須從文本中提取出特征詞來表示文本信息,即通過特征選擇來降低文本向量的維度。特征項必須具備如下的特性:(1)文本內容需要被特征項所標識;(2)將目標文本與其他文本需要被特征項相區分;(3)特征項的個數不能太多,否則起不到降維的效果;(4)特征項分離比較容易實現。

特征項選取的方式通常有4種:(1)通過映射或變換的方法把原始特征映射為較少的新特征;(2)從原始特征中挑選出一些最具代表性的特征;(3)根據專家的知識挑選最有影響的特征;(4)用數學的方法找出最具分類信息的特征。這里的第4種方法是一種比較精確的方法,人為干擾因素較少,比較適用于文本自動分類挖掘系統。

1.3 基于LDA主題模型和CTM主題模型的文本建模理論

在自然語言處理領域,主題模型越來越受到廣泛關注。主題模型是提取文檔中隱含主題的一種概率模型,是對文字隱含主題進行建模的一種方法[5]。它打破了傳統空間向量文檔-詞的思維定向,將文檔映射到主題空間上,表示為文檔-主題-詞。用主題描述文檔,有效地降低了維度,即主題模型克服了空間向量模型的缺點。

現階段主要應用的主題模型包括LDA主題模型和CTM主題模型。

LDA(Latent Dirichlet Allocation)模型是Blei等人在2003年提出的[6],他們在pLSI方法[7]的基礎上加入先驗分布Dirichlet分布得到LDA模型。LDA主題模型生成文本的過程如下[8]:

(a)對于主題z,根據Dirichlet分布Dir(β)得到該主題上的一個單詞多項式分布向量φ;

(b)根據泊松分布P得到文本的單詞數目N;

(c)根據Dirichlet分布Dir(α)得到該文本的一個主題分布概率向量θ;

(d)對于該文本N個單詞中的每一個單詞Wn:

(d1)從θ的多項式分布Multinomial(θ)隨機選擇一個主題z;

(d2)從主題z的多項式條件概率分布Multinomial(θ)選擇一個單詞作為Wn。

其中,α和β是Dirichlet分布的參數,一般都是對稱并且是固定值,α反映了文檔集合中隱含主題間的相對強弱;β刻畫了所有隱含主題自身的概率分布。

CTM模型則利用Logistic正態分布中的協方差矩陣來代表主題之間的關系。CTM主題模型生成文本的過程如下[9]:

(a)給定K個主題,各個主題都是全部詞語的一個分布;

(b)從多維分布中,隨機選取一個主題;

(c)從多維分布中,隨機選取一個單詞;

(d)重復以上過程,直到所有文檔的所有詞被抽取。

2 中外期刊文獻挖掘對比研究

2.1 數據來源和文本數據預處理

《美國經濟評論》(The American Economic Review,AER)是享譽經濟學界的頂尖學術期刊,它涵蓋了經濟的各個領域,反映了人們關注的經濟焦點,是經濟學界的風向標。《經濟研究》是全國性綜合經濟理論期刊,是在中國影響最大的經濟理論期刊。本文通過爬蟲技術分別爬取了1990年到2015年間刊登在《美國經濟評論》和《經濟研究》的所有文章,分別共有5684和3971篇文章,爬取的信息包括:文章題目、作者、年、月、摘要、關鍵詞等。

獲取到《美國經濟評論》和《經濟研究》的Web文本數據后,需要對這些文本數據進行預處理,包括:文本分詞、停用詞過濾等,這是對文本進行初步的過濾。經過前述的文本預處理過程后,則可以對預處理后的數據進行對比分析。

2.2 文本的描述性分析

2.2.1 科研年產出分析

由圖1可以發現,《美國經濟評論》的文章年產量明顯高于《經濟研究》的文章年產量。

就整體來看,《美國經濟評論》文章年產量波動較大,而《經濟研究》波動較小。而就局部來看,《美國經濟評論》的年產量比較平穩,而《經濟研究》的年產量波動較大。

圖1 文章年產量

2.2.2 高產作者分析

圖2和圖3分別展示了《美國經濟評論》和《經濟研究》的高產作者數量。《美國經濟評論》期刊中,nmax=24,得m=3.6,即發表文章在4篇及以上的作者為高產作者,有532位作者。《經濟研究》期刊中,nmax=39,得m=4.7,即發表文章在5篇及以上的作者為高產作者,有240位作者。通過對比發現,《美國經濟評論》的高產作者人數多于《經濟研究》。就最高產作者發表文章數來看,《經濟研究》高于《美國經濟評論》。

圖2 《美國經濟評論》高產作者 圖3 《經濟研究》高產作者

2.2.3 文章合著分析

《美國經濟評論》1990-2015年間共發表5095篇文章,合著文章共3326篇,占總發表文章的65%。由圖4的年合著率可以看出,合著率整體呈上升趨勢。1990年合著率最低,占43%;2012年合著率最高,占82%。《經濟研究》1990-2015年間共發表3971篇文章,其中合著文章共2014篇,占總發表文章的51%。年合著率整體呈上升趨勢,1996年合著率最低,有13%,2014年合著率最高,有88%。

圖4 文章合著率 圖5 作者人數分布

通過對比合著率發現,隨著時間的推移,《美國經濟評論》與《經濟研究》合著率的差距越來越小。1990-2005年《美國經濟評論》的合著率均高于《經濟研究》。2006年,《經濟研究》的合著率超過了《美國經濟評論》。2006-2013年之間,《美國經濟評論》和《經濟研究》的合著率相當。2014年和2015年《經濟研究》的合著率明顯高于《美國經濟評論》。由以上數據可以得出結論:合著已經成為了一種比較普遍的現象。

針對《美國經濟評論》和《經濟研究》,我們統計了合作者人數及文章數,統計結果發現,《美國經濟評論》合著作者人數最多為12人。對比之下,《經濟研究》合著作者人數最多為16人。對比《美國經濟評論》和《經濟研究》的合作者人數(見圖5),就一位作者來看,《經濟研究》的合著占比高于《美國經濟評論》。作者人數為2、3、4時,《美國經濟評論》的占比均高于《經濟研究》。綜上所述,《美國經濟評論》的作者傾向于合作,且以二人合作的形式居多;《經濟研究》的作者更傾向于獨著。

2.2.4 關鍵詞分析

將《美國經濟評論》的摘要分詞除去停止詞后,統計詞語的頻數。將詞語按出現的次數從高到低排序,取前100個高頻詞語作詞云圖(見圖6)。由圖6發現,模型、影響、市場、價格出現的次數最多,即是《美國經濟評論》的作者最關注的方面。取詞頻最高的前15個詞語作柱狀圖,結果如圖7所示。提取的高頻詞語能夠反映出《美國經濟評論》文獻關注的主要內容,主要包括經濟市場情況、影響、價格、政策、消費、變化等,其中最關注模型,說明《美國經濟評論》的作者更多地致力于模型的研究。

圖6 《美國經濟評論》高頻詞詞云圖 圖7 《美國經濟評論》高頻詞柱狀圖

按照同樣的方式對《經濟研究》詞頻進行統計,繪制圖8、圖9。由圖8發現,中國、經濟、影響、企業出現的次數最多,即是《經濟研究》的作者最關注的方面。從提取的高頻詞語能夠反映出《經濟研究》文獻關注的主要內容,主要包括我國經濟情況、企業狀況、面臨問題、理論方面、改革等,其中最關注經濟,說明《經濟研究》的作者更關注于我國的經濟情況。

圖8 《經濟研究》高頻詞詞云圖 圖9 《經濟研究》高頻詞柱狀圖

根據《美國經濟評論》和《經濟研究》高頻詞的詞云圖發現,《美國經濟評論》和《經濟研究》的作者均比較關注經濟、政策、模型、理論、影響、企業、勞動力、產品等。除此之內外,《美國經濟評論》的作者還比較關注工資、消費等,均是站在個人的角度和作者日常生活息息相關的。而《經濟研究》的作者還比較關注農業、農村、工業等。

2.3 文本的主題分析

近年來,主題模型主要同文本聚類和文本分類相結合,應用于文獻搜索和文獻推薦等方面,LDA模型和CTM模型為主要應用模型。本小節針對《經濟研究》和《美國經濟評論》的數據,對其進行LDA主題模型和CTM主題模型分析。

2.3.1 《經濟研究》的主題分析

根據《經濟研究》的自身特點并且通過觀察高頻率詞語不斷調試主題個數,觀察結果,最終確定《經濟研究》主題個數為6個。

(1)LDA主題模型:得到的6個主題如表1所示,除第5個主題是理論經濟學外,其他主題均是應用經濟學。

表1 《經濟研究》LDA主題模型結果

(2)CTM主題模型:6個主題如表2所示,除第5主題和第6主題是理論經濟學外,其他主題均是應用經濟學的內容。

2.3.2 《美國經濟評論》的主題分析

根據《美國經濟評論》的自身特點并且通過觀察高頻率詞語不斷調試主題個數,觀察結果,最終確定,將《美國經濟評論》分為8個主題。

(1)LDA主題模型:各個主題詞根據其在文本主題出現的概率按照降序排列,如表3所示。

表3 《美國經濟評論》LDA主題模型結果

(2)CTM主題模型:運用CTM主題模型得到的8個主題如表4所示,這同LDA模型的結果(表3)有所不同。

表4 《美國經濟評論》CTM主題模型結果

2.3.3 總結與對比

經過上述分析,我們得到以下發現:

(1)在《美國經濟評論》和《經濟研究》數據集上,LDA主題模型效果更好一些。

(2)《美國經濟評論》的LDA模型和CTM模型的結果都共同包括社會經濟學、財政學、國際貿易學,但主題的詞語有所差別。除此之外,LDA模型主題還包括投資學、教育經濟學、國際貿易學、金融學和生育率對經濟影響。CTM模型主題還包括政治經濟學、發展經濟學、保險學、貨幣銀行學和宏觀經濟學。

(3)《經濟研究》的LDA模型和CTM模型的結果都共同包含國民經濟學、國際貿易學、貨幣銀行學、產業經濟學和政治經濟學方面的內容,但主題的詞語有所差別。除此之外,LDA模型還包括投資學等內容。CTM模型還包括宏觀經濟學內容。

(4)《美國經濟評論》包括8個主題,《經濟研究》包括6個主題。對比它們的LDA模型結果,發現《美國經濟評論》和《經濟研究》的主題均包含國民經濟學、投資學和國際貿易學。除此之外,《美國經濟評論》主題還包括社會經濟學、財政學、教育經濟學、金融學和生育率對經濟的影響;《經濟研究》主題還包括政治經濟學、產業經濟學、貨幣銀行學。

3 結語

通過對《美國經濟評論》和《經濟研究》文獻的文本數據的提取,對結構性數據進行描述性分析,對摘要進行分詞、特征表示和特征提取,進而進行聚類分析和主題分析。

迄今為止,在針對期刊文本的研究中,所采用的分詞技術主要是單一的針對中文,很少將中英文分詞過程作對比。本文通過對外文期刊《美國經濟評論》和中文期刊《經濟研究》的摘要分詞,對比中英文分詞的相同與不同,從而為科研工作者提供便利。此外,本文深層次地挖掘中美兩國經濟研究領域權威期刊的內容,其結果對該領域學者的研究工作有一定的參考價值。

猜你喜歡
文本經濟模型
一半模型
“林下經濟”助農增收
今日農業(2022年14期)2022-09-15 01:44:56
重要模型『一線三等角』
增加就業, 這些“經濟”要關注
民生周刊(2020年13期)2020-07-04 02:49:22
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
民營經濟大有可為
華人時刊(2018年23期)2018-03-21 06:26:00
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 欧美福利在线| 欧美日韩国产在线人| 国产h视频在线观看视频| 亚洲欧洲综合| 成人免费网站久久久| 国产不卡在线看| 国产成人综合欧美精品久久| 国产一区二区影院| 无码精油按摩潮喷在线播放| 国产精品无码一二三视频| 性激烈欧美三级在线播放| 精品国产成人三级在线观看| 久久久久亚洲av成人网人人软件 | 国产制服丝袜91在线| 亚洲精品欧美重口| 蜜桃视频一区二区三区| 国产人成网线在线播放va| 午夜小视频在线| 国产毛片久久国产| 亚洲无码视频图片| 国产成人1024精品| 永久毛片在线播| 小说区 亚洲 自拍 另类| 一区二区三区成人| 国产精品亚洲一区二区在线观看| 免费又爽又刺激高潮网址| 亚洲资源站av无码网址| 亚洲三级色| 亚洲AV无码不卡无码| 激情午夜婷婷| 91精品国产自产91精品资源| 亚洲看片网| a欧美在线| 亚洲无码精品在线播放| 亚洲精品在线影院| 日韩欧美国产区| 国产亚洲欧美在线中文bt天堂| 免费一极毛片| 国产激爽大片在线播放| 欧美乱妇高清无乱码免费| 爱色欧美亚洲综合图区| 四虎亚洲精品| 国产微拍一区| 国产免费久久精品99re丫丫一| 欧美综合区自拍亚洲综合绿色| 亚洲国产理论片在线播放| 色综合婷婷| 国产性生大片免费观看性欧美| 97免费在线观看视频| 99精品这里只有精品高清视频| 日韩视频福利| 国产美女精品一区二区| 色天天综合| 亚洲精品第五页| 亚洲专区一区二区在线观看| 中文毛片无遮挡播放免费| 国产精品久线在线观看| 亚洲二三区| 91青青在线视频| 国产视频 第一页| 欧美黄网站免费观看| 欧美在线免费| 伊人久久大香线蕉综合影视| 免费不卡视频| 幺女国产一级毛片| 久久99精品久久久久纯品| 无码中文字幕加勒比高清| 国产成人免费视频精品一区二区| 天堂在线视频精品| 国产精品区视频中文字幕| 熟妇丰满人妻| 全免费a级毛片免费看不卡| 国产18在线播放| 日本影院一区| 欧美在线天堂| 干中文字幕| 欧美第一页在线| 成人在线亚洲| 在线亚洲精品福利网址导航| 伊人成人在线视频| 国产激情无码一区二区APP| 亚洲性视频网站|