999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于馬氏鏈的文獻評價修正模型

2010-05-22 08:06:04張景肖
統計與決策 2010年3期

劉 圣,張景肖

(中國人民大學 統計學院,北京 100872)

0 引言

在國內,現在應用最廣泛的科研評價指標的數據源是科學引文索引數據庫(SCI),SCI是由美國科學情報所(ISI)建立的國際性數據庫,它收錄了國際上高質量的學術期刊,建立了較為科學的文獻計量指標,并且被越來越多地用于評價各國的科研績效。盡管SCI在國際范圍內得到了廣泛的應用,其本身仍存在很多局限性,不能很好地反映文獻的學術水平。

基于馬氏鏈的文獻評價方法是對傳統文獻計量指標(期刊影響因子)的修正和完善,主要包括迭代影響因子(Pinski和 Narin,1976)和 Page Rank算法(Page et al,1998),該方法能夠解決傳統文獻計量指標對不同的引用關系不進行區分的問題,可以更好地描述文獻的影響力,因而也越來越受到研究人員的關注。因為計算過程相對復雜,這類方法在實際中的應用遠沒有傳統計量指標廣泛,但該方法對著名的搜索引擎算法的產生起到了重要影響,Larry Page和Sergey Brin提出的Page Rank算法是迭代影響因子在Web結構上的應用(Cole,2007)。

根據文章間的引用與網頁間鏈接的相似性,將發展相對更加成熟的網頁排序方法 (如Page Rank算法和HITS算法等)應用到文獻的引文分析中是一項重大創新,具有很強的實用價值(Langville和Meyer 2006)。但是基于馬氏鏈的文獻評價模型在理論模型、實際應用中仍有許多需要改進和完善的地方,如馬氏鏈轉移矩陣中的等權重問題:不同的參考文獻對文章的影響是不同的,顯然不應同等對待;模型參數敏感性問題:不同的參數選擇會導致不同的評價結果,如何選擇最優的參數值仍有待研究。本文將針對這些問題提出修正模型,使得修正后的模型結果更能反映實際情況。

1 基于馬氏鏈的文獻評價模型

基于馬氏鏈的文獻評價方法的思路可描述如下:該方法模擬一名研究人員查閱文獻的過程,將所有待評價的文獻看作馬氏鏈的狀態空間,其中每一篇待評價文獻作為一個狀態,狀態轉移矩陣則是根據文獻間是否有引用關系、引用關系的類型強弱決定的。文獻的影響力則用研究人員在每篇文獻上的平均停留次數或到達每篇文獻的概率來度量,即需要求解該馬氏鏈的平穩分布,記為 R=(PR(p1),PR(p2),…,PR(pN))T。該模型可表示如下:

其中:p1,p2,…,pN為待評文獻;

d為阻尼因子(damping factor),通常取為0.85;

B(pi)為文獻pi的引用文獻,即引用的文獻;

|O(pj)|為文獻pj的參考文獻數目。

2 基于馬氏鏈的文獻評價修正模型

雖然上述基于引文結構的文獻評價較之傳統的評價指標有了某種程度的改進,并且隨著信息技術的發展,該方法在實際中也有越來越多的應用。但是,從已經發表的相關研究中可以看出,現有的研究主要是從網頁鏈接和引文網絡的共同之處出發,借用網頁評價中的算法,并沒有考慮文獻引文網絡的獨有特點和專有信息。引文結構只代表了文獻信息的一部分,所以基于馬氏鏈的文獻評價方法仍存在進一步完善的空間。本文將從這個角度出發,研究更加合理的文獻評價模型。

2.1 文獻相似度指標的引入及轉移矩陣的修正

在構造馬氏鏈轉移矩陣時,我們最初都是假定等權重的,即被同一篇文章所引用的文章是同等重要的。但很多情況是:一篇文章所引用的文章中有一部分起著非常重要的作用,而另一些只是補充性材料。因此,為了提高文獻排序的準確性,有必要對文獻的不同引用關系進行區分。

在修正模型中,我們創新性地在文獻評價模型中提出了文獻引用動機的概念,利用文獻引用動機來反映文獻間的引文關系,并根據不同的引用動機分配馬氏鏈中的轉移概率。對引文動機的研究,除了從引文網絡的結結構出發,文獻的標題、關鍵詞和摘要等同樣包含文獻的重要信息,我們試圖通過這些信息對文獻引用的動機、引文的貢獻進行度量。我們將綜合考慮引文結構和文獻的標題、摘要和關鍵詞等文獻信息,對文獻進行評價。

引文分析的所有結果都是基于一個基本假定:引用文獻對被引文獻的引用是對被引文獻的影響力的肯定。但是文獻的引用情況十分復雜,并不是所有的引用都是對被引文獻影響力的肯定。Eugene Garfield,Brooks,Oppenheim等諸多學者都對于引用情況問題有相關研究,對引用情況進行了不同類型的分類總結。

Brooks(1986)根據前人的研究,將引文的動機分為七類:

(1)新穎性:只引用最新的資料,以彰顯自己搜集資料的新穎程度;

(2)負面證據:引用反面的證據批評、否定、反駁他人的作品;

(3)操作型資訊:沿用其他研究者的研究方法、結果、參考工具等;

(4)說服:引用文獻說服他人;

(5)正面評價:對于同領域的論文或相近的研究成果給予正面評價;

(6)提醒:提醒讀者注意背景資料、原始資料和最新資料;

(7)社會認同:為了得到他人在學術上的認同而引用文獻。

我們可將上述七類動機分成下列三組:

第一組:說服、正面評價、提醒和操作型資訊;

第二組:負面證據;

第三組:新穎性和社會認同。

其中第一、二組分別為被引文獻的正面和負面的影響,但不管是正面的影響還是負面的影響,被引文獻對引用文獻均產生了相對重要的作用,對知識的進步起到了推動的效果。而第三組的引用只是為了使引用文獻得到認同而列出被引文獻,對引用文獻的結果并未起到實質性的促進作用。另外,第三組出現的次數相對較少。Zhao,Zhang和Tang(2005),Teufel et al(2006)等對引用文獻的內容進行分析,根據被引文獻在文中被引的信息進行文本分析,根據特征詞將被引文獻和引用文獻間的引用關系分到相應的類別中。因為鑒于涉及所有文獻的全文,但在實際分析中通常只能獲得文獻的引文信息,全文不易獲得,所以不能利用全文對不同的引用關系進行區分。退而求其次,我們將試圖建立相關的指標來對不同的引用關系進行區分,對第一、二類賦以較大的權重,并對第三類引用賦以較小的權重。

在修正模型中,我們選擇文獻間的相似度作為區分第三組文獻引用動機的指標:若被引文獻對引用文獻起到正面、負面的影響,文獻間的相似程度相對較高;若被引文獻只是起到社會認同的作用,則文獻間的相似程度相對較低。即相似度越高則貢獻越大,反之亦然,這與實際情況是相吻合的。因為在研究過程中,研究人員總是精讀與自己研究內容最相關的文獻,使得這些文章在研究過程中產生的影響也相對其他文章更加重要。在網頁排序中,已經有利用網頁的相似性進行排序的研究:Lin et al(2007)提出了PageSim算法,PageSim算法在PageRank算法的基礎上根據網頁間的相似性對網頁進行重要性排序。Wang et al(2006)在PageRank算法和TFIDF算法的基礎上,提出了NewPR算法,該算法綜合利用網頁內容和網頁鏈接信息對網頁重要進行評價。

下面介紹本文中使用的文獻相似度指標—基于文獻文本信息的文獻相似度,此文獻相似度與空間向量模型(Vector Space Model,VSM)中的相似度的概念十分相近。文獻相似度是我們構造馬氏鏈轉移矩陣的重要概念。

假設文獻j是文獻i的被引文獻,記文獻i和文獻j之間的相似度為sij,每篇文檔都可表示為一個向量v,向量的每一維度對應文獻或文獻的一個關鍵詞,總的維數為兩篇文獻中所有相異的關鍵詞的個數,向量中元素的取值為相應的關鍵詞在該文獻的標題、關鍵詞和摘要中出現的頻數。這個模型假設,文獻間的相關程度,可以經由比較兩篇文獻(向量)間的夾角偏差程度而得知。

若文獻不是文獻的被引文獻,則令sij=0。

與網頁鏈接相似,引文網絡中有相當數量的節點沒有出度,即論文后沒有相應的參考文獻,這種類型的論文基本表現為引文網絡的根節點。產生該現象的原因有:

(1)該論文本身沒有參考文獻。或者是因為論文完全由作者獨創,沒有相關的參考文獻;或者是論文不符合學術規范,沒有如實列出相應的參考文獻。

(2)該論文本身具有參考文獻,但由于引文數據庫收錄范圍的限制、統計分析年限的限制,使得其參考文獻沒能進入統計分析的范圍。

我們將上述沒有參考文獻的文獻(節點)稱為懸空點,為了消除懸空點對算法穩定性的影響,我們對相似矩陣進行相應的修正:用一個n×1列向量a來標識懸空點,如果端點i是懸空點,則ai=1;否則令ai=0。令一個1×n行向量w表示訪問所有端點的某個概率分布(∑wi=1),應用最多的是均勻分布,即w=(1/n,1/n,…,1/n)。于是修正后的相似矩陣可表示為

S'=S+aw

當然,這種修正會改變原引文網絡的結構,勢必會影響文獻影響力排序,但這種改變的影響的性質、程度還有待進一步研究。在不引起混淆的情況下,我們仍然用S表示文獻的相似矩陣。

下面定義馬氏鏈的轉移矩陣,記為P,P中的元素記為pij被定義為

即將相似性矩陣根據行和進行歸一化。

2.2 參考文獻重要程度度量的引入及阻尼因子(Damping factor)的修正

阻尼因子是評價模型中的重要參數,它能夠確保文獻PageRank值的存在唯一性,并且它的取值會直接影響最終的評價結果。Bressan和Peserico(2009)研究表明:對于某些網絡結構,隨著阻尼因子的微小變化,前k個節點的排序可能出現所有種不同的排序結果。在這種情況下,我們根據固定的阻尼因子(d=0.85)得出的評價結果就不再具有重要的參考價值。

為了解決上述問題,Fu et al(2006)在阻尼因子的理解上另辟蹊徑,對PageRank算法進行了改進。改進的PageRank算法把阻尼因子當作是一種權重,重要的文獻應得到較大的權重,不重要的文獻應得到較小的權重,并利用入度與相關出度的比值作為這種重要性的度量,從而避免了阻尼因子最優值的選取。但改進后的模型不再是馬氏鏈模型,使得模型缺乏相關的理論基礎,不利于進一步分析模型收斂和模型敏感度等性質。

在這一部分,我們借鑒Fu et.al(2006)對阻尼因子的理解,構造相應的轉移矩陣,建立基于馬氏鏈的文獻評價修正模型。修正模型不僅避免了原有PageRank算法中選取最優阻尼因子的問題,而且能夠為進一步分析提供了理論基礎。

我們將阻尼因子定義為如下向量:

其中,di為第i篇文獻所對應的阻尼因子,其含義為:在第i篇文獻所影響的文獻中,第i篇文獻所影響的比重。影響的比重越大,則阻尼因子越大;反之,比重越小,則阻尼因子越小。

在上述阻尼因子定義的基礎上,我們提出改進算法,即:利用上述阻尼因子作為權重,將相似矩陣和均勻矩陣做線性插值得隨機矩陣:

其中,U是所有元素取值為1/N的N×N矩陣。

從上式可以看出,當參考文獻與文章越相似,同類參考文獻數越少,該參考文獻被閱讀的概率也越大。這一特性是與真實的文獻瀏覽過程相一致的。

在給定轉移矩陣的基礎上,對應的馬氏鏈也相應地確定,文獻的PageRank值即為該馬氏鏈的平穩分布,則文獻的PageRank值可通過解下列方程得到:

其中,R是待評文獻的PageRank值,τ是到任意文獻的跳轉概率的加權平均:

至此,基于馬氏鏈的文獻評價修正模型已成功建立,模型的求解仍然可以利用計算PageRank算法的冪法。因為同為計算矩陣的特征向量,修正模型具有與PageRank算法相同的計算復雜度。

3 總結和進一步討論的問題

本文主要是針對基于馬氏鏈的文獻評價模型中所存在的問題,提出了基于馬氏鏈的文獻評價修正模型,是在理論模型方面所做的有益嘗試。首先,修正模型創新性地在評價模型中引入了引用動機的概念,在原有引文網絡的基礎上考慮了文獻的文本信息,根據文獻間的引用關系計算馬氏鏈的轉移概率矩陣;其次,阻尼因子是根據文獻的相對重要程度進行選擇,不同的文獻具有不同的阻尼因子,進而給出基于馬氏鏈的文獻評價修正模型。

本文只是一些初步的工作,仍有很多的問題有待解決。首先是對文獻評價方法效果的檢驗,現有的實際應用中并沒有行之有效的檢驗方法,也正是因為缺乏行之有效的評價方法,才使得許多優秀的評價方法引不起重視、得不到應用。在接下來的研究中我們將結合已有的研究成果(Lehmann et al,2006),對文獻評價方法的效果進行討論,進而檢驗我們提出的修正模型的評價效果。

另外,隨著Internet的發展,電子期刊、Working paper等形式的出現,引文結構也正在逐漸發生變化,文獻間的相互引用成為可能,對傳統的文獻評價方法提出挑戰,結合新的引文結構進行文獻評價是未來文獻評價的重要方向。

[1]Bressan,M.,Peserico,E.Choose the Damping,Choose the Ranking?[A].Algorithms and Models for the Web-Graph[M].Heidelberg:Springer Berlin,2009.

[2]Brooks,T.A.Evidence of Complex Citer Motivations[J].Journal of the American Society for Information Science,1986,37(1).

[3]Fu,H.H.,Lin,D.K.J.,Tsai,H.T.Damping Factor in Google Page Ranking[J].Appl.Stochastic Models Bus.Ind,2006,22.

[4]Langville,A.N.,Meyer,C.D.Google’s Page Rank and Beyond:The Science of Search Engine Rankings[M].New Jersey:Princeton University Press,2006.

[5]Lehmann,S.,Jackson,A.D.,Lautrup,B.E.Measures for Measures[J].Nature,2006,444(7122).

[6]Lin,Z.,King,I.,Lyu,M.R.Page Sim:A Novel Link-based Similarity Measure for the World Wide Web[C].Paper Presented at the Proceedings-2006 IEEE/WIC/ACM,2007.

[7]Page,L.,Brin,S.,Motwani,R.,Winograd,T.The Page Rank Citation Ranking:Bringing Order to the Web[Z].Technical Report,Stanford Digital Library Technologies Project,1998.

[8]Pinski,G.,Narin,F.Citation Influence for Journal Aggregates of Scientific Publications:Theory,with Application to the Literature of Physics[J].Information Processing and Management,1976,12(2).

[9]Teufel,S.,Siddharthan,A.,Tidhar,D.Automatic Classification of Citation Function[C].In Proceedings of EMNLP-06,2006.

[10]Wang,H.M.,Rajman,M.,Guo,Y.,Feng,B.Q.New PR-combining TFIDF with Pagerank[Z].Lecture Notes in Computer Science(Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics)(Vol.4132 LNCS-II).A-thens,2006.

[11]Zhao,P.,Zhang,M.,D.,Tang,S.Finding Hidden Semantics behind Reference Linkages:an Ontological Approach for Scientific Digital Libraries.In The Database Systems for Advanced Applications[C].10thInternational Conference,LNCS,Springer,Beijing,2005.

主站蜘蛛池模板: 欧美日韩一区二区三区在线视频| 一区二区自拍| 国产精品成人啪精品视频| 亚洲男人在线天堂| 亚洲色图在线观看| 亚洲成人在线网| 久久久噜噜噜| 亚洲国产中文欧美在线人成大黄瓜| 国产玖玖视频| 日韩久久精品无码aV| 欧美亚洲日韩中文| 青青久视频| 日韩一级二级三级| 一区二区三区四区日韩| 草草影院国产第一页| 日韩欧美国产精品| 九九精品在线观看| 婷婷激情亚洲| 少妇人妻无码首页| 国产成人无码播放| 亚洲欧洲日产国码无码av喷潮| 成人一级免费视频| 亚洲精品va| 亚洲天堂日韩av电影| 亚洲高清在线播放| 欧美精品1区| 伊人蕉久影院| 亚洲一区二区三区在线视频| 一级毛片视频免费| 国内精品九九久久久精品| 亚洲不卡无码av中文字幕| 日韩精品一区二区三区免费| 欧美成人第一页| 国产伦精品一区二区三区视频优播| 凹凸国产分类在线观看| 日韩东京热无码人妻| 欧美日韩理论| 午夜在线不卡| 亚洲系列无码专区偷窥无码| 美女被操91视频| 一级全黄毛片| 国产精品无码一区二区桃花视频| 无码日韩精品91超碰| 999精品在线视频| 欧美日本在线播放| 老司机午夜精品网站在线观看| 亚洲愉拍一区二区精品| 欧美精品成人一区二区视频一| 999精品色在线观看| 国产一区二区色淫影院| 国产欧美日韩18| 欧美在线一级片| 欧美成人影院亚洲综合图| 国产在线精品美女观看| 久久频这里精品99香蕉久网址| 国产无人区一区二区三区| 久久国产av麻豆| 亚洲欧美在线综合一区二区三区| 国产日韩欧美视频| 毛片手机在线看| 欧美在线天堂| 成人免费一级片| 午夜三级在线| 日本高清视频在线www色| 国产原创自拍不卡第一页| 粗大猛烈进出高潮视频无码| 精品国产99久久| 亚洲AⅤ永久无码精品毛片| 国产丰满成熟女性性满足视频| 久草性视频| 91区国产福利在线观看午夜| 久久久受www免费人成| 欧美视频在线不卡| 亚洲色图欧美一区| 2020精品极品国产色在线观看| 免费视频在线2021入口| 亚洲色图欧美激情| 天天综合色网| 国产福利小视频在线播放观看| 青青草91视频| 午夜国产小视频| 99久久人妻精品免费二区|