999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于鏈路分析的作者合著關系預測研究

2018-01-07 09:41:14王衛李曉娜閆帥
現代情報 2018年11期

王衛 李曉娜 閆帥

〔摘要〕作者合著關系的預測對于提高科研合作效率和有效的科研管理具有重要的意義。本文以中國知網中圖書情報領域核心期刊作為信息來源,獲取15年(2001-2015)的文獻信息。通過計算指標方差和指標性質確定對合著關系預測的指標體系,同時對比基于單指標的無監督方法和基于分類算法的監督式機器學習方法(邏輯回歸、支持向量機和隨機森林)的預測效果,本文最終確定基于隨機森林和指標體系所構造的合著關系預測模型。通過實例應用證明該模型具有較好的準確性和穩定性。

〔關鍵詞〕合著關系;鏈路分析;隨機森林

DOI:10.3969/j.issn.1008-0821.2018.11.019

〔中圖分類號〕G250252〔文獻標識碼〕A〔文章編號〕1008-0821(2018)11-0109-07

Study on Co-authorship Prediction Based on Link Analysis

——Taking LIS Field as ExampleWang Wei1Li Xiaona1Yan Shuai2

(1.School of Government,Beijing Normal University,Beijing 100875,China;

2.Department of Public Security of Henan Province,Zhengzhou 450003,China)

〔Abstract〕The prediction of co-authorship is of great significance to improve scientific research cooperation efficiency and manage scientific research more effectively. Using CNKI as the data resource,this paper selected co-authorship in the core journals between 2001 and 2015.The co-authorship prediction index system was determined by index properties and index variance.By comparing the prediction effect of the unsupervised method based on single index and supervised machine learning method based on classification algorithm which contained logistic regression,support vector machines and random forests,this paper finally confirmed the prediction model of the relationship based on the index system and random forests.

〔Key words〕co-authorship;link analysis;random forests

隨著科學技術的發展和科學研究的深入,科研活動中的知識交流與共享行為日趨頻繁,作者合著行為呈明顯上升趨勢,合作機制也愈發有律可循。通過對作者合著關系產生和發展機理進行研究,理解科研合著網絡的關系行為模式,發現并模擬科研合著網絡的動態演化過程,對于提高合作效率和有效的科研管理具有重要的意義。已有研究發現影響作者合著行為的因素主要有:自身的合作傾向、合作能力、研究興趣等個體因素,地理位置等情境因素以及學科性質。但前人研究缺乏對作者合著行為模式系統化、定量化的描述與揭示。本文假設合著行為的產生與所在合著網絡中網絡結構特征以及作者個體屬性特征有關,從合著網絡的適用性和預測方法的可解釋性等角度出發,選取了基于分類模型的機器學習方法,通過構建指標體系,對多種預測方法進行對比,分析合著網絡的形成機制,并進一步預測合著網絡。

1相關理論基礎

鏈路預測是通過已知的網絡節點以及一些網絡結構信息,預測網絡中尚未產生連邊的兩個節點之間產生連接的可能性。它是網絡研究的重要方法之一,尤其對鏈接關系預測與推薦等方面具有較高的應用價值[1-2]。

目前鏈路預測主要采用基于相似性的方法和基于學習的方法,其中基于相似性的方法是通過基于鄰居信息、路徑或隨機游走的相似性指標等,根據已知網絡中的節點結構和節點屬性,通過某項指標計算每一對未連接節點的相似程度,相似程度越高,其存在鏈接的概率越大[3];而基于學習的方法是將鏈路問題看作一分為二的問題,即兩個節點存在連接或不存在連接,該方法也是根據已知網絡中的節點結構和節點屬性,通過無監督或有監督的機器學習算法或概率模型等來預測未知節點對的連接屬于正類或負類的概率[4]。

在機器學習算法上,根據不同的鏈路預測問題,可分為非監督式方法和監督式方法。基于非監督方法,可通過K近鄰算法判斷節點對連接與否。K近鄰算法[5]是通過給定的訓練數據集,判斷新入樣本在該訓練數據集中最臨近的K個實例,并將該樣本歸入K個實例中多數實例所屬的類中。基于監督式方法,主要是選擇合適的分類算法。目前該領域有較多的分類算法[5],如邏輯回歸利用邏輯函數計算節點對之間產生連接的概率值;支持向量機是尋找特征空間上最大間隔面的線性分類器,通過間隔最大化,最終轉化為一個凸二次規劃問題的求解;隨機森林算法通過反復二分數據進行分類或回歸,隨機使用變量和數據,按照純度最小原則分裂,對生成的多棵獨立決策樹選擇出最優的分類結果,每一棵決策樹最大限度地生長,不做任何修剪,將生成的多棵決策樹組成隨機森林,用分類器對決策樹的分類結果投票,以票數多少確定分類結果。

針對鏈路預測效果進行評價,可對應預測方法選擇不同的評價方法。基于相似性方法的鏈路預測問題,可以選擇Accuracy的評價方法,它指相似度排序靠前的k個預測邊的預測準確率,預測正確的邊的數量越多,準確率越高;基于學習方法的鏈路預測問題,可以使用經典分類算法的評價標準,即Precision、Recall、F1、AUC值。其中Precision度量其精確性,表示被劃分為正類樣本的數量中實際為正類樣本數量的比例。Recall度量其覆蓋面,表示被劃分為正類樣本的數量在所有正類樣本集合中的比例。F1是正確率與召回率的調和平均值,數值越大,效果越好,其計算公式為F1=Precision*Recall*2Precision+Recall;如果采用AUC值進行鏈路預測評價,需要建立一個縱坐標為召回率橫坐標為偽正率的二維坐標系,即實際為負類集合中被劃分為正類的樣本數比例,形成一條ROC曲線,AUC則為曲線下的面積,AUC值越大,預測效果越好,如果值大于05說明模型的分類效果好于隨機預測效果。

2018年11月第38卷第11期現代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于鏈路分析的作者合著關系預測研究Nov.,2018Vol38No112合著關系預測指標體系

21研究假設

本文指標構建的相關研究假設如下:

1)合著網絡中網絡結構相似的節點(作者)對更易產生合著;

2)合著網絡中介中心度差異大的節點(作者)對更易產生合著;

3)合著網絡中聚類系數差異大的節點(作者)對更易產生合著;

4)合著網絡中節點(作者)傾向于和合作度大的節點(作者)合著;

5)合著網絡中合作率差異大的節點(作者)對更易產生合著;

6)合著網絡中節點(作者)傾向于和論文數多的節點(作者)合著;

7)同一機構的作者更易產生合著;

8)研究興趣點相似或相近的作者更易產生合著;

9)兩個有較多共同合作過機構的作者更易產生合著。

22網絡結構特征指標

在作者合著網絡中,既往研究使用的指標如表1所示。表1既往研究作者合著網絡使用指標

既往研究使用的指標Yan E等[6]CN、Jaccard、AA、PA、SimRank、PageRank等AI Hasan M等[7]CN、Shortest Path、Sum of Neighbors、

Sum of keyword Count等Guns R等[8]CN、Jaccard、AA、weighted Katz等Pavlov M等[9]Shortest Path、CN、Jaccard、AA、PA、

Weighted Katz、Link Value等Zhang J等[10]CN、Common Keyword、Common Journal等

在作者合著關系的網絡結構特征指標中,本文主要用到了CN(Common Neighbors)指標、Jaccard指標、AA(Adamic Adar)指標、PA(Preferential Attachment)指標、中介中心度之差、聚類系數之差。以下分別對其進行說明:

CN指標是指節點對的共同合作作者數,認為共同作者數越多,這兩個節點產生鏈接的概率越大。

Jaccard指標是在節點對中,兩者的共同合作者數量占兩者合作者總數量的比重。

AA指標[3]是根據節點對共同鄰居的度信息,度小的共同鄰居節點的貢獻大于度大的共同鄰居節點,因此根據共同鄰居節點的度,為每一個節點賦予該節點的度的對數分之一的權重值,即1/lg k。

PA指標[11]針對無標度的網絡結構特性,認為網絡中節點中心度數小的節點更傾向于與網絡中度數大的節點產生連接,因此在合作網絡中該值等于節點對度數的乘積。

中介中心度在作者合作網絡中表示網絡中某位作者出現在其他作者對最短路徑上的程度,中介中心度越大,表明該作者促進其他作者對形成合作關系的能力越強。中介中心度之差,則是指兩個作者的中介中心度的差異程度。

聚類系數之差是考察節點之間存在的密集連接程度的差異,即作者對之間聚類系數的差異程度。

23個體屬性指標

本文多考慮了個體屬性指標和作者的合作計量指標,其中個體屬性指標包括論文數之積、是否同一機構、研究興趣匹配度和合作機構相似度。以下分別對其進行說明:

論文數之積,由于論文數量在一定程度上可反映作者的科研水平,在基于網絡結構的指標中我們考慮了作者合作者數量的優先連接,這里通過計算合著網絡中任意作者對歷史發文數量的乘積,來考察該值是否會影響作者合著關系的形成。此處統計的作者發文數是指每位作者在5年內的全部發文數量,包含獨立發文數與合作發文數,使用Nx表示作者x5年內的發文篇數,該值計算如下式所示:

Preferpaper=N(x)×N(y)

是否同一機構,從學術交流的便捷性和工作情感角度,同一機構的科研工作者更容易形成合作關系。

研究興趣匹配度,研究興趣相似是促成合作關系的常見原因,我們提取每位作者歷史發文中的關鍵詞信息,用于表示每位作者的研究興趣,隨機組配作者對,以作者對歷史發文的關鍵詞集合的交集的數量作為匹配度。

合作機構相似度,我們通過考察每位作者既往合作過的機構作為合作機構集合,通過計算作者對之間合作機構集合的交集的數量,作為作者對合作機構相似度。

24合作計量指標

合作計量指標是對作者歷史合作行為的刻畫,融入該指標有助于更好地理解合著行為。它是由合作率之差和合作度之積構成,以下分別對其進行說明:

合作度之積,其中合作度是指作者所發表論文的篇均作者數,合作度越高論文篇均合作者越多,沒有合作行為的獨立研究人員的合作度最小,取值為1,我們通過計算兩個作者的合作度的乘積,進而判斷作者對是否存在合作度的優先連接。這里用Nx表示作者x的發文總數,fxj表示作者x的所有論文中作者數為j的論文數量,q表示單篇文獻的最大作者數量。具體公式如下:

PreferDC=∑qj=1jfxjNx*∑qj=1jfyjNy

合作率之差,其中合作率反映作者科研合作的深度,指作者合作論文數占全部產出論文的比率,通過考察兩個作者在合作率上的差異是否會對作者之間的合著產生影響。這里用Nx表示作者x的發文總數,fx表示作者x的合作發文數,并提出了合作率差異指標如下式所示:

difCI=fxNx-fyNy

25指標體系

通過上述研究可發現,指標體系中主要以網絡結構特征為主,因此在初步形成的鏈路預測指標集合的基礎上,我們對各指標做二次篩選,一方面通過指標的方差大小進行篩選,因為方差較小的指標所具有的區分度較小,所以去除方差較小的指標;另一方面通過指標性質,去除一些不適用于合著網絡的指標以及已經被相關研究證明效果較差的指標。

在綜合考慮作者合著網絡結構特征和主流的鏈路預測指標基礎上,最終確定如下的指標體系,見圖1。

3預測模型分析

31數據獲取與處理

本文以2014-2015年中文核心期刊目錄(CSSCI)圖情領域17種刊物作為文獻信息來源,并選擇CNKI作為研究數據采集平臺,從該平臺獲取上述期刊15年(2001-2015)的文獻信息,共79 715條記錄,通過Python編程對數據預處理,去除期刊簡訊、會議信息、通告、活動報道等無關記錄4 813條,保留有效記錄74 902條。

以5年為一個階段,將上述15年的數據分為2001-2005年、2006-2010年、2011-2015年3個階段。

32預測實驗設計

作者合著關系預測,即未來連邊預測,是指在合著網絡的演化過程中,判斷在前一階段合著網絡中不存在合著關系的作者在后一階段是產生合著關系還是仍然不存在合著關系。

為了便于分析,本文引入一些記號和概念。用Eold表示前一階段(old)合著網絡中邊(合著關系)的集合;用Enew表示后一階段(new)合著網絡中邊(合著關系)的集合。在前一階段如果作者對(u,v)不存在合著關系,即(u,v)Eold,則稱(u,v)是潛在連邊。合著關系預測是針對潛在連邊(u,v)預測其未來連邊情況,實際上只有兩種情況:(u,v)∈Enew(產生合著關系)和(u,v)Enew(仍不存在合著關系),分別稱之為新連邊和缺失連邊。這樣,合著關系預測就轉化為一個二分類問題:負類類標為0(缺失連邊)或正類類標為1(新連邊)。

本文將2001-2005年作為前一階段,2006-2010年作為后一階段。由于在潛在連邊中缺失連邊的數量遠大于新連邊的數量,導致分類中正負樣本比例嚴重失調,其中在2006-2010年合著網絡中存在合著關系的新連邊數量為731,缺失連邊數量為5 364 112,所以我們對缺失連邊進行隨機抽樣,與新連邊形成1∶1的正負樣本比例,構成實驗數據集。通過統計2001-2005年合著網絡上各個指標值,預測在2006-2010年合著網絡中的未來連邊。

33預測方法選擇

根據相關研究[4,12],在鏈路預測的預測方法上,本文可選擇基于單指標的無監督方法和基于分類算法的監督式機器學習方法進行實驗。

根據上述實驗設計內容,將2001-2005年合著網絡和2006-2010年合著網絡作為數據集1,通過2006-2010年的合著網絡來判斷各方法對2001-2005年合著網絡的潛在連邊的預測效果;同樣,將2006-2010年合著網絡和2011-2015年合著網絡作為數據集2,通過2011-2015年的合著網絡判斷各方法對2006-2010年合著網絡的潛在連邊的預測效果。同時在一定程度上了解預測方法的穩定性。

331基于單指標的預測

通過計算指標體系中每一個指標在數據集中的得分,采用Accuracy評價方法,獲得指標預測正確率。需要說明的是,由于同一機構指標為類別變量,所以未參與預測。預測結果如圖2所示:

由圖2可知,多數指標在數據集1和數據集2上的準確率都較為接近,表明所選指標具有較好的穩定性和可靠性。從各指標在指標體系中所屬的3個大類來看,整體預測效果最好的是基于作者個體屬性指標,其次為合作計量指標,最差的為基于網絡結構特征的指標。單個指標預測準確率最高的指標是合作機構的相似度,其次為網絡結構特征的PA指標、中介中心之差、研究興趣匹配度和論文數之積以及聚類系數之差。由于多數作者對的共同鄰居作者較少且Jaccard、AA兩個指標都是基于CN所構造,使得CN、Jaccard、AA指標的預測準確率均較低且比較接近。

332基于分類算法的預測

結合各種分類算法自身的優缺點及適用條件,同時根據分類算法對比的相關研究[13],支持向量機和隨機森林在多數分類實驗中均能取得較好的預測效果,在預測性能的穩定性方面優于多數算法;而邏輯回歸算法因模型簡單易理解、運算速度快、預測效果相對較好而被廣泛使用。本文選擇這3種分類算法構建合著關系預測模型。

對數據集1和數據集2分別采用十階交叉驗證,使用3種分類算法在訓練集上進行預測,在測試集上驗證,通過選用準確率、精度、召回率、F1值和AUC面積評價3類分類算法的預測效果。3種分類算法均通過Python中的機器學習包Sklearn實現。算法參數設置上,邏輯回歸采用L2型正則化(解決指標多重共線性問題);支持向量機采用線性核函數,懲罰系數10;隨機森林種樹50棵,其他參數值為默認值。具體預測效果見表2所示。

從縱向來看,數據集1三個指標的預測效果普遍要略好于數據集2,由于數據集1演化時期要早于數據集2,因此我們認為早期的合著關系的形成更有規律性,使得其預測性也更好。

34預測模型中指標體系的選擇

通過上述分析,本文使用隨機森林分類算法分別得到了指標體系中3種類型指標集的預測效果,同時我們還實驗了Mohammad[7]、Raf Guns[8]的合著關系預測模型,用于和本文所構建的預測模型進行比較,如表3所示。

從表3可以看出,3種類型的指標集合在合著關系預測上的準確率幾乎都好于單個指標。另外,在3種類型指標集之間,預測效果最好的是個體屬性指標(與單個指標預測的結論相同),其次是網絡結構指標,最差的為合作計量指標。而融合3種指標集的指標體系的預測效果則明顯好于任意一種指標集,表明考慮多種情況的指標體系更適用合著關系預測。同時,通過比較發現,基于本文構建的指標體系以及隨機森林算法所形成的合著關系預測模型要好于Mohammad、Raf Guns的合著關系預測模型,進一步驗證了本文指標體系的可靠性和合著模型的有效性。

通過上述比較本文認為基于隨機森林和指標體系所構造的合著關系預測模型能有效地預測合著網絡中合著關系的未來連邊情況。因此利用該預測模型與數據集1形成合著關系預測模型M1,與數據集2形成合著關系預測模型M2,分別通過上一階段合著網絡預測下一階段合著情況。以下分別對兩個預測模型的預測效果進行分析。

圖3為M1模型對2001-2005年和2006-2010年兩個階段潛在連邊的預測效果,從圖中可知,在各項評價指標上M1模型對2001-2005年潛在連邊的預測均好于對2006-2010年潛在連邊的預測。引起上述結果的主要原因為,該模型是基于第一階段的合著關系數據預測其潛在連邊哪些會在第二階段的合著網絡中產生合著,因而該模型對2001-2005年合著網絡的數據擬合效果自然要好于對新的、未擬合過的2006-2010年的合著關系數據,而且在合著網絡的演化過程中難免會新增或丟失一些信息或特征,進而影響預測效果。但從圖中可以看到M1模型對2006-2010年合著關系的預測效果好于很多331節提到的指標。究其原因,我們認為是模型所使用的指標體系中的指標確實在一定程度上刻畫了合著關系形成的機理,從而能在下一時期的合著關系數據集提供關于合著關系存在有否的信息。

隨機森林算法能確定每個指標的gini系數分布,gini系數表示節點的純度,gini系數越大純度越低,因此gini系數可度量變量的重要程度。我們基于預測模型中的隨機森林算法,得到了模型中各指標重要性的大小及排序,如圖4所示。

另外對M1模型中2006-2010年合著網絡關系預測結果進行探討。按模型預測概率值的大小降序排序,并選取了排在前10位的作者對,如表4所示。表中第2列類標表示作者對在2011-2015年實際合著網絡中是否合著,1代表合著,0代表沒合著;而第3列預測概率表示M1模型預測作者對是否合著的概率值,該值大于05代表合著,小于05表示沒合著。從表4可見前10位的作者對預測均準確。而概率值排名前50的作者對中,模型預測準確率仍為100%,在概率值前100的作者對中,模型預測的準確率為94%。上述結果表明M1模型具備較強的可靠性,當模型預測作者對產生合著的預測概率值高時,意味著作者對實際存在的合著關系的可能性越大。表4按模型預測概率排序的前10位預測結果

作者對類標預測概率(王英,王政)11(吳鋼,彭敏惠)11(王菲菲,趙蓉英)11(劉佳,王馨)11(趙楊,張李義)11(余以勝,趙蓉英)11(易明,毛進)11(王靜,郭太敏)11(李春明,薩蕾)11(張志強,張智雄)11

綜上分析,我們認為基于前一階段合著網絡和當前網絡產生的合著關系預測模型,可用于預測當前合著網絡中潛在連邊在下一階段的連邊情況,如果模型給出的預測概率值越高,其預測正確的可能性也越大。我們根據數據集2得到合著關系預測模型M2,用于預測2011-2015年的潛在連邊中有哪些將在未來產生合著關系。通過對M2預測概率值進行排序,類標為1、預測概率為1的作者對數量共1 149對,以下列出部分可靠性較高的預測結果,如表5所示。

圖5是M2模型中各指標重要性大小及其排序。對比圖4可知,模型M1和M2在指標重要性方面既有相同之處,又有不同。首先,兩個模型中最顯著的指標都是合作度之積,說明該指標具有較強的重要性,由于合作度表示作者篇均合著者數,意味著合著網絡中的作者傾向于和合作度高的作者合著。而合作機構的相似性、中介中心性之差兩個指標分別是對作者合著對象來源范圍和合著網絡中心結構的刻畫,也分別是模型前后兩組預測的第二重要指標,從整體上來看它們在合著關系預測模型中的重要性高于大多數指標,意味著合著網絡中的作者傾向于與自己有相似合作單位的作者或資源占據多的作者合作。另外,論文數之積和合作率之差在合著關系預測模型中的重要性非常穩定,表示這兩種指標能預測合著關系的可靠性強。在模型前后兩組預測中,研究興趣匹配度的重要性都很低,表明作者并不把研究興趣的相似度看作選擇合著者的重要的優先條件。合著網絡中的作者更多是與網絡中心度高或合作度高的作者合著,這一方面能提高作者的科研合著產出或降低時間等成本;另一方面通過與他們的合著能借助他們的人脈等資源更好地拓展自身學術圈。其他指標在重要程度上也存在一定的變化,但它們整體重要性并不高,對合著關系預測整體的影響力也一般。

5問題與討論

前面我們從合著關系預測實驗、預測效果分析等角度探討了基于鏈路預測方法的合著關系預測的主要問題。但是除上述問題外,我們對模型的改進需進一步探討,以及在合著關系預測上還需要注意實驗數據集的選擇、網絡新增節點等問題。

51基于時間序列的預測

在上述討論中,我們構建的預測模型是利用前一階段

合著網絡中合著關系的數據來預測下一階段的合著關系的未來連邊情況。但是合著網絡是一個動態變化的過程,缺乏穩定性,應該對模型不斷地改進。通過對模型進行修正可以讓預測模型最大程度捕捉到合著關系形成的一般規律,使模型具有更好的泛化能力。因此我們借鑒時間序列預測的思想對上述預測模型進行擴展。

如圖6所示,假設已知過去5個階段合著網絡中合著關系的連接情況,預測第6個階段合著網絡中的合著關系。首先,在相鄰的兩個階段上,從前一階段數據集上得到合著關系數據,通過后一階段的數據集獲取合著關系連接與否的類標,并生成一個預測模型,基于前4個已知階段產生3個預測模型。其次,我們可以對相鄰模型(如模型1和模型2)的預測效果和各指標的GINI系數等進行比較,通過調整指標權重或新增修正因子指標等方式得到修正模圖6基于時間序列的預測模型

型(如修正模型2),而對修正模型可行性或效果的驗證則需根據更后兩階段的數據集(如數據集3和數據集4,這里我們是使用修正模型2預測數據集3上的潛在連邊,并通過數據集4的合著關系連接情況進行效果驗證,以考察修正模型對新數據預測的有效性和可行性)。依次類推,直到得到最終的修正模型,并基于該修正模型對未來的合著關系情況進行預測。

52數據集的選擇

在32節合著關系預測實驗設計中,我們提到合著網絡的潛在連邊中存在較為明顯的正負樣本失衡現象,即較少的新連邊和較多的缺失連邊,但我們人為的將數據集中新連邊和缺失連邊的比重設為1∶1,本節通過增大缺失連邊的比重探究抽取數據樣本對合著關系預測模型的影響。

首先將新連邊和缺失連邊的比例設為1∶1、1∶10、1∶20、1∶30、1∶40、1∶50共6檔,通過增大上述實驗數據集1、數據集2中缺失連邊的數量,使用隨機森林方法,對6檔比重分別進行預測,并觀察其預測效果。具體結果見圖7所示。圖7不同比重數據集的預測效果比較

由圖7可知,兩個數據集中隨著缺失連邊比重的增加,F1值和AUC值不斷下降,說明提高缺失連邊的比重,合著關系預測模型的預測呈下降趨勢。但是隨著缺失連邊比重的不斷增加,準確率呈上升趨勢,預測精度出現上下波動,而召回比重呈逐步下降趨勢。準確率的上升是由于隨著缺失邊的不斷增加,合著關系預測模型預測對的缺失連邊的數量也隨之增加,從而降低對新連邊預測錯誤的比重,但這里準確率增加的意義不大,因為研究目的是預測哪些邊會是新邊,而非預測缺失邊。由于精度考察的是預測模型判定為合著關系的作者對中真正存在合著的比例,該值的上下波動變化反映出數據正負樣本比例的不平衡,降低了預測模型的穩定性。召回則考察預測模型對實際存在合著關系的作者對預測正確的比例,該值在數據負樣本比例逐步增加的情況下呈現不斷下降的現象,說明數據正負樣本的不平衡將導致預測模型對實際存在合著關系作者對的發現能力變弱。

通過對圖7的分析可知,用于生成合著關系預測模型的數據集中正負樣本比例的不平衡將降低模型的整體預測效果。因此,如何合理的抽取數據樣本對構建合著關系預測模型就顯得尤為重要。

53合著網絡新進作者的處理

在合著網絡演化過程中存在著一類特殊作者,這類作者在當前合著網絡中不存在,但在下一階段合著網絡中新加入的作者,統稱為新進作者。

由于這類作者不存在于前一階段的合著網絡中,因此沒有網絡結構信息,個體屬性信息也不甚完備,我們無法基于指標體系獲取該節點的相關指標度量值,所以我們不能直接使用本文所構建的模型對這類新進作者的合著關系進行預測。針對這一問題,我們首先對指標體系中涉及到的相關基礎指標,根據需要為其賦值基礎指標在數據集上的平均數)。然后,計算出指標體系中的指標值,從而使用合著關系預測模型進行預測。

6結論

本文綜合作者網絡結構特性、作者屬性特征和合作計量指標構建指標體系,抽取圖情領域核心作者的合作網絡數據建立數據集,通過實例驗證了預測模型的可行性,并基于預測模型所得到的指標重要性系數發現,基于作者合作計量的指標對于預測哪些合著網絡未來會產生連邊有較強的重要程度,而論文數之積、合作過機構的相似度、是否同一機構3個個體屬性指標對預測的重要性也較高,研究興趣相似度的重要性則偏低。另外,在網絡結構指標中,只有中介中心性之差和PA指標的重要性較高,而基于共同鄰居思想而產生的CN指標、Jaccard指標、AA指標的重要性都比較低。

合著關系受到多種因素的影響,在未來的研究中,應盡可能的收集更多的信息,構造更有價值的指標,比如在作者屬性上可增添年齡、性別等屬性;在研究興趣的相似性上,可通過算法對全文進行自動摘要,進而再通過對比文獻摘要實現更好的研究興趣匹配度測量;在合著網絡構建時可選擇更粗的細粒度篩選作者等。期望本文的研究有助于科研人員更好的理解科研合著網絡的關系行為模式,也為相關作者或論文推薦系統提供借鑒。

參考文獻

[1]張斌,馬費成.科學知識網絡中的鏈路預測研究述評[J].中國圖書館學報.2015,41(217):99-113.

[2]Lü L,Zhou T.Link Prediction in Complex Networks:A Survey[J].Physica A:Statistical Mechanics and its Applications,2011,390(6):1150-1170.

[3]呂琳媛.復雜網絡鏈路預測[J].電子科學大學學報,2010,39(5):651-661.

[4]Wang P,Xu B W,Wu Y R,et al.Link Prediction in Social Networks:The State-of-the-art[J].Sciece China Information Sciences,2014,58(1):1-38.

[5]哈林頓,李銳,等.機器學習實戰[M].北京:人民郵電出版社,2013.

[6]Yan E,Guns R.Predicting and Recommending Collaborations:An Author-institution and Country-level analysis[J].Journal of Infometrics,2014,8(2):295-309.

[7]Al Hasan M,Chaoji V,Salem S,et al.Link Prediction Using Supervised Learning[C]//SDM06:Workshop on Link Analysis,Counter-terrorism and Security,2006.

[8]Guns R,Rousseau R.Recommending Research Collaborations Using Link Prediction and Random Forest Classifiers[J].Scientometrics,2014,101(2):1461-1473.

[9]Pavlov M,Ichise R.Finding Experts by Link Prediction in Co-authorship Networks[C]// International Conference on Finding Experts on the Web with Semantics.CEUR-WS.org,2007:42-55.

[10]Zhang J.Uncovering Mechanisms of Co-authorship Evolution by Multirelations-based Link Prediction[J].Information Processing & Management,2016.

[11]Uddin S,Hossain L,Rasmussen K.Network Effects on Scientific Collaborations[J].PLoS ONE,2013,8(2):1-12.

[12]Liben-Norwell D Kleinberg J.The Link-prediction Problem for Social Networks[J].Journal of the American Society for Information Science and Technology,2007,58(7):1019-1031.

[13]Ndez-Delgado M,Cernadas E,Barro S,et al.Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?[J].Journal of Machine Learning Research,2014,15(1):3133-3181.

(責任編輯:陳媛)2018年11月第38卷第11期現代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期交互記憶系統及其在信息系統研究中的應用與展望Nov.,2018Vol38No11

收稿日期:2018-08-11

主站蜘蛛池模板: 亚洲五月激情网| 国内熟女少妇一线天| 国产va在线观看免费| 毛片免费在线视频| 日韩午夜片| 青青草原国产免费av观看| 中文字幕无码制服中字| 欧美性天天| 国产成a人片在线播放| 无码有码中文字幕| 国产凹凸视频在线观看| 亚洲IV视频免费在线光看| 亚洲91精品视频| 9啪在线视频| 天天视频在线91频| 香蕉久久国产精品免| 久久精品国产一区二区小说| 不卡午夜视频| 免费一看一级毛片| 激情乱人伦| 五月天综合婷婷| 亚洲国产精品国自产拍A| 国产伦精品一区二区三区视频优播| 少妇精品网站| 欧美一区福利| 国产精品成人久久| 精品国产毛片| 福利小视频在线播放| 在线a视频免费观看| 国产成人综合日韩精品无码首页| 天天躁狠狠躁| 精品第一国产综合精品Aⅴ| 91av成人日本不卡三区| 亚洲无码91视频| www.99精品视频在线播放| www.av男人.com| 亚洲成人黄色在线| 欧美成人aⅴ| 精品少妇人妻av无码久久| 国产精品国产三级国产专业不| 久久人人妻人人爽人人卡片av| 亚洲AV永久无码精品古装片| 中国毛片网| 国产精品分类视频分类一区| 亚洲大学生视频在线播放| 日本在线视频免费| 欧美a级完整在线观看| 国产十八禁在线观看免费| 91热爆在线| 亚洲国产日韩视频观看| 久久国产高清视频| 熟妇丰满人妻| 国产精品福利导航| 国产探花在线视频| 国产 在线视频无码| www.狠狠| 国产经典免费播放视频| 日韩A∨精品日韩精品无码| 婷婷亚洲综合五月天在线| 中文字幕亚洲综久久2021| 好紧太爽了视频免费无码| 国内精品小视频福利网址| 色婷婷色丁香| 欧美日韩亚洲国产主播第一区| 午夜福利在线观看入口| 996免费视频国产在线播放| 99爱在线| 国产精品福利尤物youwu| 国产午夜不卡| 日韩中文无码av超清| 尤物精品视频一区二区三区| 日韩不卡高清视频| 亚洲视频二| 国产波多野结衣中文在线播放 | 国产又黄又硬又粗| AV无码国产在线看岛国岛| 999福利激情视频| 亚洲无码精品在线播放| 成人午夜视频网站| 中日韩欧亚无码视频| 国产一区二区影院| 在线国产综合一区二区三区|