賈笛笛++陳智勇
摘要:在科研工作者的科研活動中,發表論文是其中非常重要的部分。論文承載著科研工作者的研究成果,只有發表在出版物上,才能得到世人的認可。現有稿刊推薦研究的推薦結果少,而且推薦結果的準確度不高,投稿人很難從推薦結果中發現適合投稿的期刊。鑒于此,提出利用改進的ID3決策樹算法對期刊與稿件相關度進行分類建模,利用得到的分類規則為投稿人推薦合適期刊的方法。實驗結果表明,基于ID3決策樹改進算法的稿刊推薦方法推薦準確率較高。
關鍵詞:稿刊推薦;數據挖掘;ID3算法;多值邏輯;KMeans聚類
DOIDOI:10.11907/rjdk.171695
中圖分類號:TP312文獻標識碼:A文章編號:16727800(2017)010004205
0引言
稿刊推薦是向有投稿需求的科研工作者推薦適合其投稿的期刊。國外關于出版物與稿件的研究主要有兩個方面:推薦與科研工作者研究領域相符的文獻[12];推薦與科研工作者稿件研究領域相符的出版物[38]。Luong Hiep、Klamma R、Luong H等[34]通過社交網絡的方法,探索網絡中與稿件作者在同一個研究領域內的其他稿件作者所出版過的刊物;2015年,Medvet Eric、Bartoli Alberto[5]建立期刊查詢系統,通過稿件標題和摘要進行期刊推薦;2015年,Anas Alzoghbi[6]提出將研究者簡介作為多元線性回歸問題的模型,利用元數據實現有效的出版物推薦;2016年,Tran Hung Nghiep、Huynh Tin[7]使用研究人員引用的出版物構建數據樣本,進行出版物推薦。國內關于稿刊推薦的研究方法,主要是建立稿件與期刊研究方向的關系。2014年,徐鎮[9]提出基于垂直搜索引擎的論文投稿推薦系統研究;2014年,秦臻等[10]提出基于合著作者網絡的期刊推薦方法;2015年,王亮等[11]提出基于主題模型文本挖掘的期刊推薦方法,大大提升了期刊推薦的準確度。
上述出版物推薦方法為有投稿需求的用戶提供了方便,但也存在不足之處,總結如下:
(1)現有出版物推薦方法數據樣本有限。已有的推薦方法是建立與稿件作者具有合著關系的稿件作者關系網,這樣導致推薦結果的數量少,有可能科研工作者真正需要的出版物并不包含在其中。
(2)現有出版物推薦方法沒有考慮出版物與稿件的關聯度。現有推薦方法沒有量化推薦的出版物與稿件的研究方向是否一致,沒有考慮出版物與稿件的質量是否相符。如果推薦的出版物質量與稿件質量不符合,稿件很難成功出版。
(3)現有出版物推薦方法不適合沒有投稿經驗的科研工作者。基于社交網絡的出版物推薦方法是建立與稿件作者具有合著關系的作者關系網。沒有投稿經歷的科研工作者無法得到合著關系網,也就無法得到推薦結果。
1材料與方法
分析整理JCR(Journal Citation Reports)中所有的SCI(Science Citation Index)期刊數據,建立期刊數據庫。利用多值邏輯理論改進傳統ID3算法,并利用改進后的ID3決策樹算法,對期刊數據樣本分類,提取分類規則,然后按照提取的分類規則進行稿刊推薦。
1.1ID3算法分析
1966年,Hunt E B在概念學習系統CLS(Care Life of Science)[12]中首次應用了決策樹方法,是決策樹發展的基礎;1975年,J.Ross Quinlan提出了一個決策樹算法,稱作ID3算法[13],后來的決策樹算法都是在ID3算法基礎上得到的。ID3算法利用信息增益[14]的度量標準選擇結點屬性,算法學習能力較強,適合處理大規模數據。ID3算法原理簡單易懂,可以生成易于理解的分類規則,而且算法的分類速度快[15]。但ID3算法也有自身缺陷:對連續型數據無法處理,對屬性值缺失的數據也難以解決;在選擇信息增益時,一般選擇取值較多的屬性。
針對ID3算法的不足及本研究需要,現從以下兩個方面加以改進:
(1)連續屬性離散化。因為ID3算法無法處理連續型變量,但期刊與論文相關度的數據樣本中,數據屬性是連續型數據,如期刊刊登范圍與論文研究方向相關度、5年影響因子和載文量。
(2)確定屬性取值。一般決策樹算法處理數據集的類別屬性是布爾類型的數據,只有是與否的對立情況,但在現實生活中兩個對立的取值并不能解決問題。由于原有的ID3算法中決策屬性的取值個數不一,造成分類后的決策樹分類不均,會產生異常點或孤立點。
1.2多值邏輯對ID3算法的改進
多值邏輯是一種非經典的邏輯系統。在經典邏輯中,每個命題取值為真或假。在客觀世界中,有些事物無法由二值邏輯描述,于是產生了多值邏輯[16]。多值邏輯指一切邏輯值的取值數大于2的邏輯,它由二值邏輯擴展而來。
ID3算法依據多組決策屬性的值判斷一個實例屬于某個類別,若此時屬性的取值用集合表示,記成V={v1,v2,v3,…,vm}。假設m=2,屬性取值為2,屬于二值邏輯,只有一個為真,另一個為假。在稿刊推薦中,若用“1或0”兩個值表征屬性的取值,分類結果將生成只有兩個分枝的決策樹,造成樹的深度過大、分枝過少。若m=N,N為一個足夠大的值,導致生成的決策樹分枝過多。由生成的決策樹得到大量的分類規則使得ID3算法的使用變得復雜。
屬性取值個數決定著ID3決策樹算法生成的決策樹模型分枝,因此要控制屬性取值的個數。本文利用多值邏輯理論改進ID3算法,以限定屬性取值的個數。
以期刊與稿件關聯度分類問題為例,利用多值邏輯改進ID3算法的步驟如下:
(1)計算類別屬性的信息熵。若期刊信息樣本集合S中有n個樣本。利用多值邏輯理論將期刊與稿件的相關度信息的類別屬性分為0,1之間的m個取值:v1,v2,v3,…,vm。此時類別屬性C有m個不同的取值即Ci(i=1,2,…,m)。設si為Ci中的樣本數,可得樣本集S對應類別屬性C的信息熵為:endprint
I(s1,s2,…,sm)=-∑mi=1pilog2(pi)(1)
其中,Pi表示任意樣本屬于分類Ci的概率。
(2)計算決策屬性的信息熵。選擇樣本集S中一個決策屬性A,若A有k個不同的取值,決策屬性A將樣本集合S劃分為k類別。由此,屬性A劃分樣本集S的信息熵為:
E(A)=-∑kj=1A1j+A2j+…+AmjnI(sj)(2)
其中,Aij(i=1,2,…,m;j=1,2,…,k)表示子集Sj中類Ci的樣本數量。因為決策屬性的取值是連續變量,本文利用多值邏輯理論離散化決策屬性的值。首先利用KMeans聚類算法將決策屬性的值分組,按照多值邏輯的m個值:v1,v2,v3,…,vm,對每個分組分別賦值。
(3)計算信息增益。這樣可以根據以上信息計算屬性A的信息增益,公式如下:
Gain(A)=I(S)-E(A)(3)
最后選擇信息增益最大的決策屬性作為樹的根結點,由此結點產生多個分枝,形成子樹。每個子樹根結點的選擇也如此,以遞歸的方式最終生成一棵完整的樹。
1.3稿刊推薦數據準備
本文數據來源于ISI(Institute for Scientific Information)2015年出版的JCR。JCR對收錄的全部SCI期刊數據進行統計、運算,并對每種期刊定義了影響因子、5年影響因子、即引指數、載文量、引半衰期等指數。為了方便科研工作者的投稿需要,利用網絡獲取期刊網址和審稿周期。本文花費大量的時間對期刊引證報告中期刊的研究方向進行劃分,由于時間和個人能力有限只完成了計算機方向相關工作。計算機領域的期刊劃分是依據中國計算機學會(CCF,China Computer Federation)中研究方向分類要求進行分類。分類后建立期刊研究領域與論文研究方向之間的關系,作為數據樣本的一個數據屬性(期刊與論文研究方向關聯度屬性,J_Category)。
期刊引證報告是世界權威性的綜合數據庫,涵蓋了世界上大部分影響力較大的科技期刊,集合了各學科的重要研究成果。因此,利用JCR建立期刊庫,滿足用戶需求。5年影響因子和載文量是期刊影響力和發展程度的重要指標[17]。為了建立期刊與稿件之間的關系,選取期刊引證報告中期刊的5年影響因子和載文量作為樣本數據的屬性。在數據樣本中,5年影響因子的屬性名為J_IF,載文量的屬性名為J_Articles。整理好的期刊數據如表1所示。
2實驗與結果
本文利用改進后的ID3算法進行稿刊推薦實驗。以《計算機學報》上刊載的論文《樸素貝葉斯分類中的隱私保護方法研究》為例,影響因子范圍定為0.6~2.6,論文關鍵詞:數據挖掘、隱私保護、樸素貝葉斯分類、隨機處理、特征重構。
2.1數據預處理
通過計算期刊的刊登范圍標簽與稿件關鍵詞標簽的相似度,近似計算期刊與稿件之間的研究方向相關度J_Category的值。{A1,A2,A3,…,Am}表示期刊A的標簽集合,{B1,B2,B3,…,Bn}表示稿件B的關鍵詞標簽集合,{a1,a2,a3,…,am}表示期刊A向量,{b1,b2,b3,…,bn}表示稿件B向量,k=min(m,n)。由于期刊的標簽數量大,期刊標簽與稿件關鍵字匹配完成后,按照大小降序排列,截取前n個值定為向量B,然后計算它們之間的標簽相似度。假如稿件B的關鍵詞標簽為{數據挖掘,隱私保護,樸素貝葉斯分類,隨機處理,特征重構},期刊A的標簽為{數據挖掘,分類,估計,熵,樸素貝葉斯分類,相關性分組,關聯規則,聚類,特征重構,決策樹}。A與B匹配之后用向量形式表示為:A(1,1,1,1,1),B(1,0,0,0,1,0,0,0,1,0)。將B向量倒序排列,截取和A一樣的長度,得B(1,1,1,0,0)。利用式(4)計算A與B的相似度結果為0.77,然后按照此方式獲得J_Category的其它值。
Sim(A,B)=∑nk=0ak×bk∑nk=0a2k∑nk=0b2k(4)
利用KMeans算法對研究方向相關度(J_Category)、5年影響因子(J_IF)、載文量(J_Articles)進行聚類,聚類結果如圖1、圖2、圖3所示。其中J_Category聚為5類,每個類別按照多值邏輯的5個值即1、0.75、0.5、0.25、0
圖1研究方向聚類結果(J_Category)
圖2載文量聚類結果(J_Articles)
圖3影響因子聚類結果(J_IF)
依次賦值。J_Articles屬性一部分取值聚為4類,每個類別按照多值邏輯的4個值0.75,0.5,0.25,0依次賦值,J_Articles屬性剩余的數據賦值為1。選取J_IF在0.6~2.6范圍內的所有值聚為4類,范圍外的所有值賦值為0,聚類后的每個類別按照多值邏輯的值即1、0.75、0.5、0.25進行賦值。利用多值邏輯處理后的數據樣本如表2所示。
2.2數據建模
利用Java語言在Eclipse平臺實現改進后的ID3算法,并生成決策樹模型,如圖4所示。本文分類結果的準確度由Weka[18]工具分析,如圖5所示。由圖4可得決策模型分類規則,按照分類規則獲取數據集中類別屬性值大于0.25的所有期刊數據,輸出結果如圖6所示。投稿人可以將圖6的輸出結果作為參考選擇適合自己的期刊進行投稿。
3結果分析
本文運用多值邏輯理論改進了ID3算法,使原本雜亂無序的屬性值變得有規律可循,使得生成的決策樹模型層數減少,而且分類更加均勻合理。本文從3個方面對改進ID3算法的分類結果進行分析:
(1)改進前后ID3算法對比。改進前的ID3算法對連續型數據的數據樣本無法處理。從圖4可以看出,利用多值邏輯改進ID3算法生成的決策樹,分布均勻,樹的分枝減少,從眾多的分枝減少到有限的幾個分枝,屬性取值也從無序變為有序。endprint
(2)期刊與稿件相關度。改進ID3算法生成的決策樹以研究方向相關度(J_Category)作為樹的根節點,將該屬性作為更重要的屬性,符合稿刊推薦首先要求期刊與稿件研究方向一致的條件。
(3)準確度。如圖5所示,由Weka平臺輸出結果可知,對333個實例進行分析,有321個正確的分類結果,5個錯誤結果,分類準確率為96.39%。分類準確率較高,因此改進后的ID3算法適合稿刊推薦的分類工作。
4結語
針對現有期刊推薦方法推薦結果準確率不高的問題,將多值邏輯理論改進的ID3決策樹算法應用到稿刊推薦研究中,節約了投稿人大量的科研時間。本文利用改進的ID3決策樹算法處理海量數據,符合投稿人的推薦結果更多,推薦結果準確率也高。但由于時間有限,本文僅開展了計算機領域相關工作。在后續工作中,將在期刊數據庫中增加更多核心期刊,擴大數據樣本,為投稿人提供更多選擇;同時增加每個期刊對應的標簽庫,提高推薦的準確率。
參考文獻參考文獻:
[1]PERA MARIA SOLEDAD,NG YIU KAI.A personalized recommendation system on scholarly publications[C].Proceedings of the 2011 ACM International Conference on Information and Knowledge Management, CIKM'11,Glasgow,2011:21332136.
[2]LE ANH VU,HOANG HAI VO,TRAN HUNG NGHIEP,et al.SciRecSys: a recommendation system for scientific publication by discovering keyword relationships[J].Lecture Notes in Computer Science,2014, 8733:7282.
[3]KLAMMA R,CUONG P M,CAO Y.You never walk alone: recommending academic events based on social network analysis [M].Complex Sciences. Springer Berlin Heidelberg,2009:657670.
[4]LUONG HIEP,HUYNH TIN,GAUCH SUSAN,et al.Exploiting social networks for publication venue recommendations[C].Proceedings of the International Conference on Knowledge Discovery and Information Retrieval,KDIR, Barcelona,2012:239245.
[5]MEDVET ERIC,BARTOLI ALBERTO,PICCININ GIULIO.Publication venue recommendation based on paper abstract[C].Proceedings of International Conference on Tools with Artificial Intelligence,ICTAI,Limassol Cyprus,2014:10041010.
[6]ANAS ALZOGHBI,VICTOR ANTHONY ARRASCUE AYALA,PETER MFISCHER,et al.PubRec:recommending publications based on publicly available metadata[C].Proceedings of the LWA 2015 Workshops: KDML, FGWM, IR, and FGDB,Trier,Germany,2015:1118.
[7]TRAN HUNG NGHIEP,HUYNH TIN,HOANG KIEM.A potential approach to overcome in scientific publication recommendation[C].Proceedings of 2015 IEEE International Conference on Knowledge and Systems Engineering, Ho Chi Minh City,2015:310313.
[8]HUYNH TIN,NGUYENTRACTHUC,TRAN HUNGNGHIEP.Exploiting social relations to recommend scientific publications[J].Lecture Notes in Computer Science,2016,9795:182192.
[9]徐鎮.基于垂直搜索引擎的論文投稿推薦系統研究[D].蘭州:蘭州大學,2010.
[10]秦臻.學術社會網絡建模和學術資源推薦方法研究[D].北京:北京郵電大學,2015.
[11]王亮,張紹武.基于主題模型的文本挖掘的研究[D].大連:大連理工大學,2015.
[12]PORTER BW,BARESS E R,HOLTE R.Concept learning and heuristic classification in weak theory domains[J].Artificial Intelligence,1989,45:229263.
[13]QUINLAN J R.Induction of decision trees[J].Machine learning,1986(1):81106.
[14]王小巍,蔣玉明.決策樹ID3算法的分析與改進[J].計算機工程與設計,2011,32(9):30693076.
[15]黃愛輝,陳湘濤.決策樹ID3算法的改進[J].計算機工程與科學,2009,31(6):109111.
[16]劉任任,歐陽建權.多值邏輯函數結構理論研究[M].北京:科學出版社,2010:220.
[17]陶維麗.科技期刊的綜合評價比較研究[D].武漢:華中師范大學.2012:130.
[18]孟曉明,陳慧萍,張濤.基于WEKA平臺的Web事務聚類算法的研究[J].計算機工程與設計,2009,30(6):13321334.
責任編輯(責任編輯:孫娟)endprint