基于ID3決策樹改進算法的稿刊推薦研究

2017-11-02 11:34:50賈笛笛陳智勇

軟件導刊 2017年10期

賈笛笛++陳智勇

摘要：在科研工作者的科研活動中，發(fā)表論文是其中非常重要的部分。論文承載著科研工作者的研究成果，只有發(fā)表在出版物上，才能得到世人的認可。現(xiàn)有稿刊推薦研究的推薦結果少，而且推薦結果的準確度不高，投稿人很難從推薦結果中發(fā)現(xiàn)適合投稿的期刊。鑒于此，提出利用改進的ID3決策樹算法對期刊與稿件相關度進行分類建模，利用得到的分類規(guī)則為投稿人推薦合適期刊的方法。實驗結果表明，基于ID3決策樹改進算法的稿刊推薦方法推薦準確率較高。

關鍵詞：稿刊推薦；數(shù)據(jù)挖掘；ID3算法；多值邏輯；KMeans聚類

DOIDOI：10.11907/rjdk.171695

中圖分類號：TP312文獻標識碼：A文章編號：16727800（2017）010004205

0引言

稿刊推薦是向有投稿需求的科研工作者推薦適合其投稿的期刊。國外關于出版物與稿件的研究主要有兩個方面：推薦與科研工作者研究領域相符的文獻[12]；推薦與科研工作者稿件研究領域相符的出版物[38]。Luong Hiep、Klamma R、Luong H等[34]通過社交網(wǎng)絡的方法，探索網(wǎng)絡中與稿件作者在同一個研究領域內(nèi)的其他稿件作者所出版過的刊物；2015年，Medvet Eric、Bartoli Alberto[5]建立期刊查詢系統(tǒng)，通過稿件標題和摘要進行期刊推薦；2015年，Anas Alzoghbi[6]提出將研究者簡介作為多元線性回歸問題的模型，利用元數(shù)據(jù)實現(xiàn)有效的出版物推薦；2016年，Tran Hung Nghiep、Huynh Tin[7]使用研究人員引用的出版物構建數(shù)據(jù)樣本，進行出版物推薦。國內(nèi)關于稿刊推薦的研究方法，主要是建立稿件與期刊研究方向的關系。2014年，徐鎮(zhèn)[9]提出基于垂直搜索引擎的論文投稿推薦系統(tǒng)研究；2014年，秦臻等[10]提出基于合著作者網(wǎng)絡的期刊推薦方法；2015年，王亮等[11]提出基于主題模型文本挖掘的期刊推薦方法，大大提升了期刊推薦的準確度。

上述出版物推薦方法為有投稿需求的用戶提供了方便，但也存在不足之處，總結如下：

（1）現(xiàn)有出版物推薦方法數(shù)據(jù)樣本有限。已有的推薦方法是建立與稿件作者具有合著關系的稿件作者關系網(wǎng)，這樣導致推薦結果的數(shù)量少，有可能科研工作者真正需要的出版物并不包含在其中。

（2）現(xiàn)有出版物推薦方法沒有考慮出版物與稿件的關聯(lián)度?，F(xiàn)有推薦方法沒有量化推薦的出版物與稿件的研究方向是否一致，沒有考慮出版物與稿件的質(zhì)量是否相符。如果推薦的出版物質(zhì)量與稿件質(zhì)量不符合，稿件很難成功出版。

（3）現(xiàn)有出版物推薦方法不適合沒有投稿經(jīng)驗的科研工作者?；谏缃痪W(wǎng)絡的出版物推薦方法是建立與稿件作者具有合著關系的作者關系網(wǎng)。沒有投稿經(jīng)歷的科研工作者無法得到合著關系網(wǎng)，也就無法得到推薦結果。

1材料與方法

分析整理JCR（Journal Citation Reports）中所有的SCI（Science Citation Index）期刊數(shù)據(jù)，建立期刊數(shù)據(jù)庫。利用多值邏輯理論改進傳統(tǒng)ID3算法，并利用改進后的ID3決策樹算法，對期刊數(shù)據(jù)樣本分類，提取分類規(guī)則，然后按照提取的分類規(guī)則進行稿刊推薦。

1.1ID3算法分析

1966年，Hunt E B在概念學習系統(tǒng)CLS（Care Life of Science）[12]中首次應用了決策樹方法，是決策樹發(fā)展的基礎；1975年，J.Ross Quinlan提出了一個決策樹算法，稱作ID3算法[13]，后來的決策樹算法都是在ID3算法基礎上得到的。ID3算法利用信息增益[14]的度量標準選擇結點屬性，算法學習能力較強，適合處理大規(guī)模數(shù)據(jù)。ID3算法原理簡單易懂，可以生成易于理解的分類規(guī)則，而且算法的分類速度快[15]。但ID3算法也有自身缺陷：對連續(xù)型數(shù)據(jù)無法處理，對屬性值缺失的數(shù)據(jù)也難以解決；在選擇信息增益時，一般選擇取值較多的屬性。

針對ID3算法的不足及本研究需要，現(xiàn)從以下兩個方面加以改進：

（1）連續(xù)屬性離散化。因為ID3算法無法處理連續(xù)型變量，但期刊與論文相關度的數(shù)據(jù)樣本中，數(shù)據(jù)屬性是連續(xù)型數(shù)據(jù)，如期刊刊登范圍與論文研究方向相關度、5年影響因子和載文量。

（2）確定屬性取值。一般決策樹算法處理數(shù)據(jù)集的類別屬性是布爾類型的數(shù)據(jù)，只有是與否的對立情況，但在現(xiàn)實生活中兩個對立的取值并不能解決問題。由于原有的ID3算法中決策屬性的取值個數(shù)不一，造成分類后的決策樹分類不均，會產(chǎn)生異常點或孤立點。

1.2多值邏輯對ID3算法的改進

多值邏輯是一種非經(jīng)典的邏輯系統(tǒng)。在經(jīng)典邏輯中，每個命題取值為真或假。在客觀世界中，有些事物無法由二值邏輯描述，于是產(chǎn)生了多值邏輯[16]。多值邏輯指一切邏輯值的取值數(shù)大于2的邏輯，它由二值邏輯擴展而來。

ID3算法依據(jù)多組決策屬性的值判斷一個實例屬于某個類別，若此時屬性的取值用集合表示，記成V={v1，v2，v3，…，vm}。假設m=2，屬性取值為2，屬于二值邏輯，只有一個為真，另一個為假。在稿刊推薦中，若用“1或0”兩個值表征屬性的取值，分類結果將生成只有兩個分枝的決策樹，造成樹的深度過大、分枝過少。若m=N，N為一個足夠大的值，導致生成的決策樹分枝過多。由生成的決策樹得到大量的分類規(guī)則使得ID3算法的使用變得復雜。

屬性取值個數(shù)決定著ID3決策樹算法生成的決策樹模型分枝，因此要控制屬性取值的個數(shù)。本文利用多值邏輯理論改進ID3算法，以限定屬性取值的個數(shù)。

以期刊與稿件關聯(lián)度分類問題為例，利用多值邏輯改進ID3算法的步驟如下：

（1）計算類別屬性的信息熵。若期刊信息樣本集合S中有n個樣本。利用多值邏輯理論將期刊與稿件的相關度信息的類別屬性分為0，1之間的m個取值：v1，v2，v3，…，vm。此時類別屬性C有m個不同的取值即Ci（i=1，2，…，m）。設si為Ci中的樣本數(shù)，可得樣本集S對應類別屬性C的信息熵為：endprint

I（s1，s2，…，sm）=-∑mi=1pilog2（pi）（1）

其中，Pi表示任意樣本屬于分類Ci的概率。

（2）計算決策屬性的信息熵。選擇樣本集S中一個決策屬性A，若A有k個不同的取值，決策屬性A將樣本集合S劃分為k類別。由此，屬性A劃分樣本集S的信息熵為：

E（A）=-∑kj=1A1j+A2j+…+AmjnI（sj）（2）

其中，Aij（i=1，2，…，m；j=1，2，…，k）表示子集Sj中類Ci的樣本數(shù)量。因為決策屬性的取值是連續(xù)變量，本文利用多值邏輯理論離散化決策屬性的值。首先利用KMeans聚類算法將決策屬性的值分組，按照多值邏輯的m個值：v1，v2，v3，…，vm，對每個分組分別賦值。

（3）計算信息增益。這樣可以根據(jù)以上信息計算屬性A的信息增益，公式如下：

Gain（A）=I（S）-E（A）（3）

最后選擇信息增益最大的決策屬性作為樹的根結點，由此結點產(chǎn)生多個分枝，形成子樹。每個子樹根結點的選擇也如此，以遞歸的方式最終生成一棵完整的樹。

1.3稿刊推薦數(shù)據(jù)準備

本文數(shù)據(jù)來源于ISI（Institute for Scientific Information）2015年出版的JCR。JCR對收錄的全部SCI期刊數(shù)據(jù)進行統(tǒng)計、運算，并對每種期刊定義了影響因子、5年影響因子、即引指數(shù)、載文量、引半衰期等指數(shù)。為了方便科研工作者的投稿需要，利用網(wǎng)絡獲取期刊網(wǎng)址和審稿周期。本文花費大量的時間對期刊引證報告中期刊的研究方向進行劃分，由于時間和個人能力有限只完成了計算機方向相關工作。計算機領域的期刊劃分是依據(jù)中國計算機學會（CCF，China Computer Federation）中研究方向分類要求進行分類。分類后建立期刊研究領域與論文研究方向之間的關系，作為數(shù)據(jù)樣本的一個數(shù)據(jù)屬性（期刊與論文研究方向關聯(lián)度屬性，J_Category）。

期刊引證報告是世界權威性的綜合數(shù)據(jù)庫，涵蓋了世界上大部分影響力較大的科技期刊，集合了各學科的重要研究成果。因此，利用JCR建立期刊庫，滿足用戶需求。5年影響因子和載文量是期刊影響力和發(fā)展程度的重要指標[17]。為了建立期刊與稿件之間的關系，選取期刊引證報告中期刊的5年影響因子和載文量作為樣本數(shù)據(jù)的屬性。在數(shù)據(jù)樣本中，5年影響因子的屬性名為J_IF，載文量的屬性名為J_Articles。整理好的期刊數(shù)據(jù)如表1所示。

2實驗與結果

本文利用改進后的ID3算法進行稿刊推薦實驗。以《計算機學報》上刊載的論文《樸素貝葉斯分類中的隱私保護方法研究》為例，影響因子范圍定為0.6～2.6，論文關鍵詞：數(shù)據(jù)挖掘、隱私保護、樸素貝葉斯分類、隨機處理、特征重構。

2.1數(shù)據(jù)預處理

通過計算期刊的刊登范圍標簽與稿件關鍵詞標簽的相似度，近似計算期刊與稿件之間的研究方向相關度J_Category的值。{A1，A2，A3，…，Am}表示期刊A的標簽集合，{B1，B2，B3，…，Bn}表示稿件B的關鍵詞標簽集合，{a1，a2，a3，…，am}表示期刊A向量，{b1，b2，b3，…，bn}表示稿件B向量，k=min（m，n）。由于期刊的標簽數(shù)量大，期刊標簽與稿件關鍵字匹配完成后，按照大小降序排列，截取前n個值定為向量B，然后計算它們之間的標簽相似度。假如稿件B的關鍵詞標簽為{數(shù)據(jù)挖掘，隱私保護，樸素貝葉斯分類，隨機處理，特征重構}，期刊A的標簽為{數(shù)據(jù)挖掘，分類，估計，熵，樸素貝葉斯分類，相關性分組，關聯(lián)規(guī)則，聚類，特征重構，決策樹}。A與B匹配之后用向量形式表示為：A（1，1，1，1，1），B（1，0，0，0，1，0，0，0，1，0）。將B向量倒序排列，截取和A一樣的長度，得B（1，1，1，0，0）。利用式（4）計算A與B的相似度結果為0.77，然后按照此方式獲得J_Category的其它值。

Sim（A，B）=∑nk=0ak×bk∑nk=0a2k∑nk=0b2k（4）

利用KMeans算法對研究方向相關度（J_Category）、5年影響因子（J_IF）、載文量（J_Articles）進行聚類，聚類結果如圖1、圖2、圖3所示。其中J_Category聚為5類，每個類別按照多值邏輯的5個值即1、0.75、0.5、0.25、0

圖1研究方向聚類結果（J_Category）

圖2載文量聚類結果（J_Articles）

圖3影響因子聚類結果（J_IF）

依次賦值。J_Articles屬性一部分取值聚為4類，每個類別按照多值邏輯的4個值0.75，0.5，0.25，0依次賦值，J_Articles屬性剩余的數(shù)據(jù)賦值為1。選取J_IF在0.6～2.6范圍內(nèi)的所有值聚為4類，范圍外的所有值賦值為0，聚類后的每個類別按照多值邏輯的值即1、0.75、0.5、0.25進行賦值。利用多值邏輯處理后的數(shù)據(jù)樣本如表2所示。

2.2數(shù)據(jù)建模

利用Java語言在Eclipse平臺實現(xiàn)改進后的ID3算法，并生成決策樹模型，如圖4所示。本文分類結果的準確度由Weka[18]工具分析，如圖5所示。由圖4可得決策模型分類規(guī)則，按照分類規(guī)則獲取數(shù)據(jù)集中類別屬性值大于0.25的所有期刊數(shù)據(jù)，輸出結果如圖6所示。投稿人可以將圖6的輸出結果作為參考選擇適合自己的期刊進行投稿。

3結果分析

本文運用多值邏輯理論改進了ID3算法，使原本雜亂無序的屬性值變得有規(guī)律可循，使得生成的決策樹模型層數(shù)減少，而且分類更加均勻合理。本文從3個方面對改進ID3算法的分類結果進行分析：

（1）改進前后ID3算法對比。改進前的ID3算法對連續(xù)型數(shù)據(jù)的數(shù)據(jù)樣本無法處理。從圖4可以看出，利用多值邏輯改進ID3算法生成的決策樹，分布均勻，樹的分枝減少，從眾多的分枝減少到有限的幾個分枝，屬性取值也從無序變?yōu)橛行?。endprint

（2）期刊與稿件相關度。改進ID3算法生成的決策樹以研究方向相關度（J_Category）作為樹的根節(jié)點，將該屬性作為更重要的屬性，符合稿刊推薦首先要求期刊與稿件研究方向一致的條件。

（3）準確度。如圖5所示，由Weka平臺輸出結果可知，對333個實例進行分析，有321個正確的分類結果，5個錯誤結果，分類準確率為96.39%。分類準確率較高，因此改進后的ID3算法適合稿刊推薦的分類工作。

4結語

針對現(xiàn)有期刊推薦方法推薦結果準確率不高的問題，將多值邏輯理論改進的ID3決策樹算法應用到稿刊推薦研究中，節(jié)約了投稿人大量的科研時間。本文利用改進的ID3決策樹算法處理海量數(shù)據(jù)，符合投稿人的推薦結果更多，推薦結果準確率也高。但由于時間有限，本文僅開展了計算機領域相關工作。在后續(xù)工作中，將在期刊數(shù)據(jù)庫中增加更多核心期刊，擴大數(shù)據(jù)樣本，為投稿人提供更多選擇；同時增加每個期刊對應的標簽庫，提高推薦的準確率。

參考文獻參考文獻：

[1]PERA MARIA SOLEDAD，NG YIU KAI.A personalized recommendation system on scholarly publications[C].Proceedings of the 2011 ACM International Conference on Information and Knowledge Management， CIKM'11，Glasgow，2011：21332136.

[2]LE ANH VU，HOANG HAI VO，TRAN HUNG NGHIEP，et al.SciRecSys： a recommendation system for scientific publication by discovering keyword relationships[J].Lecture Notes in Computer Science，2014， 8733：7282.

[3]KLAMMA R，CUONG P M，CAO Y.You never walk alone： recommending academic events based on social network analysis [M].Complex Sciences. Springer Berlin Heidelberg，2009：657670.

[4]LUONG HIEP，HUYNH TIN，GAUCH SUSAN，et al.Exploiting social networks for publication venue recommendations[C].Proceedings of the International Conference on Knowledge Discovery and Information Retrieval，KDIR， Barcelona，2012：239245.

[5]MEDVET ERIC，BARTOLI ALBERTO，PICCININ GIULIO.Publication venue recommendation based on paper abstract[C].Proceedings of International Conference on Tools with Artificial Intelligence，ICTAI，Limassol Cyprus，2014：10041010.

[6]ANAS ALZOGHBI，VICTOR ANTHONY ARRASCUE AYALA，PETER MFISCHER，et al.PubRec：recommending publications based on publicly available metadata[C].Proceedings of the LWA 2015 Workshops： KDML， FGWM， IR， and FGDB，Trier，Germany，2015：1118.

[7]TRAN HUNG NGHIEP，HUYNH TIN，HOANG KIEM.A potential approach to overcome in scientific publication recommendation[C].Proceedings of 2015 IEEE International Conference on Knowledge and Systems Engineering， Ho Chi Minh City，2015：310313.

[8]HUYNH TIN，NGUYENTRACTHUC，TRAN HUNGNGHIEP.Exploiting social relations to recommend scientific publications[J].Lecture Notes in Computer Science，2016，9795：182192.

[9]徐鎮(zhèn).基于垂直搜索引擎的論文投稿推薦系統(tǒng)研究[D].蘭州：蘭州大學，2010.

[10]秦臻.學術社會網(wǎng)絡建模和學術資源推薦方法研究[D].北京：北京郵電大學，2015.

[11]王亮，張紹武.基于主題模型的文本挖掘的研究[D].大連：大連理工大學，2015.

[12]PORTER BW，BARESS E R，HOLTE R.Concept learning and heuristic classification in weak theory domains[J].Artificial Intelligence，1989，45：229263.

[13]QUINLAN J R.Induction of decision trees[J].Machine learning，1986（1）：81106.

[14]王小巍，蔣玉明.決策樹ID3算法的分析與改進[J].計算機工程與設計，2011，32（9）：30693076.

[15]黃愛輝，陳湘濤.決策樹ID3算法的改進[J].計算機工程與科學，2009，31（6）：109111.

[16]劉任任，歐陽建權.多值邏輯函數(shù)結構理論研究[M].北京：科學出版社，2010：220.

[17]陶維麗.科技期刊的綜合評價比較研究[D].武漢：華中師范大學.2012：130.

[18]孟曉明，陳慧萍，張濤.基于WEKA平臺的Web事務聚類算法的研究[J].計算機工程與設計，2009，30（6）：13321334.

責任編輯（責任編輯：孫娟）endprint