汪琦凡 魏楊燁
摘要摘要:基于全文的信息檢索技術很難準確進行主題識別,無法識別文章的重要性。利用引文上下文語義構建一個引文網絡可達到提升檢索效率和效果的目的。通過分析引文上下文,將相關文獻排序,從而確定重要文獻。引文上下文包含的語詞如果與目標語詞相關,那么就在兩篇文獻之間創建一個有向且賦予權重的邊,然后在這個由不同邊構成的網絡里用相關的排序算法找出重要文獻。該排序方法可通過給定檢索語詞找出重要文獻,即便檢索出的文章中不含有既定檢索詞也同樣成立,極大增加了文獻檢索的查全率和查準率。
關鍵詞關鍵詞:引文分析;引文網絡;文獻排序
DOIDOI:10.11907/rjdk.171127
中圖分類號:TP391
文獻標識碼:A文章編號文章編號:16727800(2017)005014603
0引言
研究人員在某個知識領域進行主題學習之前,需要充分掌握有關該主題的相關知識,找出該領域的核心文獻,引文索引是一個非常有用的導航檢索工具。有些引文索引系統提供了檢索全文的平臺,而有些引文索引可在不需要獲得全文的情況下檢索相關文獻。引文充分反映了某一篇文獻被引次數的情況,而引用次數排名靠前的文章,在一定程度上代表了這個領域的研究進展,可用來評估文獻的重要性。
引文索引是一個通過全盤掃描文獻的過程,是根據學科領域主題找到重要文章的方法。文獻文本中包含大量與主題不相關的文字,這些文字可能會在例子中,或者在反證里使用,使用全文檢索方法會有各種各樣的問題。例如用信息檢索工具檢索文章,文本中某個章節里包含“癌癥”一詞,結果所有文本中出現了“癌癥”的語詞都會被檢索出來,雖然這個詞與文章的主要論點不怎么相關。因此,檢索工具無法幫助我們確定哪一篇文獻是主題最相關的文獻。
引文還可以測量某一篇文獻的影響。一個以文章為節點形成引文網絡,如果文獻i包含有文獻j的引文,就可以將文獻i與文獻j用線連接在一起,然后根據點入度(例如引用數量)來給檢索出來的文章加權排序,從而形成一個引文網絡,該網絡可以通過文獻集合來確定其中最重要的文獻。
引文上下文是圍繞在參考文獻附近用來參考其它科學文獻的文本[1]。引文上下文是確認一篇文獻主要研究意義的重要方法,因為作者是通過簡明扼要的引文來參考其他人的文獻。文章越是被相同的語詞引用,就表示這篇文章在這個主題領域里越重要。
引文上下文通常是由特定且被定義的文字組成。絕大多數情況下,引文上下文是對被引文獻的一個高度概括。換言之,引文上下文即是表征被引文獻的關鍵語詞。引文上下文分析提供了在沒有獲取全文的情況下,也可以去推論被引文獻主要觀點的方法。
引文上下文對于文獻的撰寫十分重要,體現后來研究者對前人工作的借鑒與認可,為文獻與文獻之間建立了一條知識紐帶[2]。
本文根據論文主題詞找出重要文章,使用從引文上下文中提取語詞來創建上下文語境的引文網絡。在這個網絡中基于Schwartz等[3]所提出的網絡分析方法,找到最重要的文章。
文本內容相似性也可以提高文獻檢索的準確度和效率[4]。如果有兩個密切相關的概念C1和C2,可能一篇文章一直在談論C1而從未提及C2。如果全文檢索,C2是不會被檢索出來的。
1相關工作
1.1引文上下文
S.Bradshaw[5]提出文檔索引模型(Reference Directed Indexing,RDI),RDI模型的原理是:抽取引用句里的語詞作為檢索式,然后對文檔進行標引。該模型采用一個固定的窗口——引文上下文兩側約50~100字。然后根據引文創建一個索引詞表。當某些語詞頻繁出現,RDI值就會增加。創建完所有的索引數據集后,對給定的查詢檢索式,RDI會首先檢查它包含查詢的所有語詞在其索引列表中的文章,然后根據RDI值進行排列。最后在檢索排名前十的文章里,檢查有多少篇是基于RDI模型返回的相關文獻,并將其與全文檢索方法對比。
文獻之間的連接關系不僅存在于科學文獻中,而且大量存在于網頁中。Ritchie等[6]探討了網絡和科學文獻之間的相似性,指出超鏈接不能完全類比引文,因為超鏈接的數量很多,論文的引用數卻以某種方式存在限制,它們各不相同。Aljaber等[1]也在網頁和科學引文之間找到了一些相似性。
引文上下文還可以用來概括文章。Radev等[7]使用ngram模型從引文上下文數據集中提取關鍵語詞,然后用這些關鍵短語構建摘要。還有些學者會將科技文獻的引文根據文章的概念性、可操作性、組織性、革命性等進行分類[8]。
Aljaber等[1]對如何確定引文上下文以及如何將引文上下文與相關的引文匹配,采用了一個簡單而有效的方法——將預定窗口大小里引文周圍的語詞作為數據。他們嘗試了不同的窗口大小,發現有50個字引文的窗口是文檔聚類最佳的引文上下文大小。
1.2網絡生成
構建網絡方式多樣。Kessler[9]提出文獻耦合假設,該假設認為相似的文獻大多有著類似的參考文獻。如果兩篇文章引用了同一篇文獻,那么兩篇文章是耦合的。此時,可以在擁有相同引文數量的兩篇文獻之間創建一個無向加權邊,從而構建相應網絡。
另外從文章出發構建網絡的方法則是使用共引分析。文章A和文章B的共引數量就是共同引用了A和B的文章數量[10]。該方法假設相似的文章被同時引用的頻率很大。Gipp等[11]對共引分析進行了擴展——共引相似性分析(Cocitation Proximity Analysis ,CPA)。
2引文分析排序方法
2.1相關理論
被大量引用且與主題相關的文獻通常是該領域內的種子文獻,所以被引數量越大意味著該文獻越重要。
引用某一篇文獻可能存在很多動機:它可能是題外話,也可能是批評而不是贊同,由此很難自動確定引文上下文的意圖[12]。但是總的來說,一篇文章被許多文章用相同的語詞引用,那么它會在這語詞區域內得到一種集中確認,可從累積的引證文獻中抽取出被引文獻的語義部分。
按照前人總結出來的方法來定義引文上下文語詞,采用固定大小的窗口來確定引文上下文[5]。
在所有文章的引文上下文里,將每個雙字詞組作為定義語詞。例如,如果有3篇文章被引用到一個引文上下文里,我們就會提取上下文中每一個雙字詞組來作為這3篇文章的定義語詞,這更容易從引文上下文里抽取有意義的語詞。單字詞的抽取方法會造成很多同義詞問題,例如,“social network”是一個專有名詞,但是拆開之后,“social”和“network”會涉及到更加寬泛的定義。
2.2引文網絡
引用上下文是圍繞引文標記的文本。這個文本的范圍可以定義為句子、詞或者字符。從引證文獻到被引文獻之間創建一個有向邊,從而構建一個引文網絡,就是所謂的有向圖。
一個引文網絡里的邊所承載的信息比一個單純的二元關系要多。可從引文上下文里提取語詞,也就是一個單詞或者一個組詞,而這些詞正是作者用來解釋引文的。
A為所有文章的集合,然后用小寫的拉丁字母來代替A中的文章,例如i,j∈A。讓T成為A文章集合中所有的元素。為了區別,使用小寫的希臘字母來表示T集合中的元素,例如β,τ∈T。
一個以元素標記的網絡記成G(A,C),這個網絡是一個邊集有向圖C=A×A,當文章i引用文章j,那么(i,j) ∈C。邊(i,j) ∈C 被記成Ti,jT,其中Ti,j是所有出現在文章i到文章j的引文上下文中最新的元素。Ti,j可在相同的引文上下文中出現多次。當然,如果文章i和文章j沒有引文,也可能出現Ti,j,或引文上下文的集合中沒有任何元素。
根據某一個元素去獲取一個引文上下文的網絡,即β∈T稱為一個元素。那么子圖G(A,C)中的Gβ(A,Cβ)就稱為引文網絡。在元素β中,Cβ∈C,并且如果β∈Ti,j,那么(i,j)∈Cβ。于是,就可運行這個網絡標準的排名算法,找到這個元素的重要文獻。
圖1的例子是由6篇文章組成的一個引文上下文網絡,與之對應的元素標記引文網絡A={a1,a2,…,a6}和圖2中給出的T={τ1,τ2,…,τ6}。引文網絡中的元素τ1和τ4也都在圖2中相應給出。
2.3語詞相似性
一個語詞一般不足以完整識別一篇文獻所包含的所有主題,因為僅僅只是用一個單詞傳達信息時會有噪音存在,如同義詞等。本文方法是在文檔檢索過程中使用相似語詞,即如果兩個詞在相當數量的引文中出現,那么這兩個詞就認定是相似的。為了定義語詞的相似性,本文還用到以下方法。
詞頻是語詞-文檔矩陣方法中一個重要概念,記作F=[fβj],其中fβj是引文上下文中用語詞β引用文章j的文章數量。也就是說,fβj是在引文網絡Gβ中文章j的引用次數。F實質上是從文章節點和詞節點之間的無向加權二分網絡中抽取出來的。例如,圖2中的一個二分網絡,f是詞項文檔矩陣。
使用簡單的詞頻方法存在一定問題:除了少數幾個詞外,幾乎所有的詞會被看作同等重要。例如,文章集合中的“癌癥”一詞,可能幾乎所有的引文上下文中都會有“癌癥”這個詞,所以需要縮小在引文上下文中出現的語詞權重。原則上,減少語詞頻次權重正是因為該語詞在引文上下文里的頻繁出現。Term-frequency-inverse document frequency(tf-idf)就是解決此問題的一種統計方法[13]。這種方法廣泛運用于信息檢索和文本挖掘中,它表現了一篇文檔中一個語詞對于文檔的重要性。語詞β的逆向文檔頻率定義如下:
idf(β)=log|A|[]j∈Asgn(fβj)(1)
其中sgn(x)被如下函數定義:
sgn(x)=1,x>0,0,x=0,-1,x<0.(2)
顯然,x<0不會考慮在內。
定義權重語詞文檔矩陣N=[nβj],N=D×F,其中D=[dτβ],它是一個|T|×|T|的對角矩陣:
dβτ=idf(β),t=β,0,otherwise(3)
然后讓β和τ成為語詞β和語詞τ對應的行向量。B和τ的代入顯示了文章數據集里的語詞β和語詞τ的權重語詞頻率。如果想知道這些語詞在文章中重復了多少,只需要對比行向量β和τ即可。出于這個目的,采用樣本中β和τ的皮爾遜相關系數pβ。
其中是向量x的詞的平均數。樣本皮爾遜相關系數與樣本x和樣本y對應,給定一個-1~1的值。一個為1的值意味著用一個線性方程來描述x與y之間的關系,所有的數據點都在一條x增加y就增加的線上。而數值為-1則代表所有的數據點在一條x增加y就減少的線上。這和數據沒有關系,因為給語詞τ和語詞β賦值-1,就不得不讓它們相互補充。
最終,定義語詞的相似性。如果pβτ<δ,且0<δ<1,就認為語詞τ與語詞β相似。
2.4相似語詞集合的引文網絡
給定語詞β,相似的集合就為Sβ={T|τ相似于β},可把相似的語詞引文網絡合并到一個權重的有向網絡中。子圖G(A,C)的GSβ(A,CSβ) 就被稱作為β-相似引文網絡,在這個網絡可以合并和β相似的語詞引文網絡的邊。例如,CSβ=Uτ∈SβCτ,wij的邊(i,j) ∈CSβ,那么它就是邊合并之后權重的總和。即:
wij=∑(i,j)∈Tij∩Sβpβτ(5)
注意:Sβ不能為空,因為β∈Sβ。
通過給定一個語詞β,構建一個β-相似引文網絡后,就可以運行網絡中的排序算法,找出β詞語相關主題中最重要的文章。
3結語
引文索引是建立在布爾檢索之上的,所以任何一篇文章的查詢語句集就相當于一個給定的查詢列表。文章的作者會用許多語詞去描述研究過程,而有些語詞可能與文章最主要的研究意義無關。因此,不相關的文章可能會排在檢索結果前面,這僅僅是因為這些文章可能在其它領域是重要文章,所以有必要構建一個衡量主題識別相關性和影響的方法。
從上下文語義出發去檢索一篇重要文獻是一個新方法。當前,大部分引文分析研究集中在被引數量而忽視了引文的潛在原因,本文辦法解決了這個問題。
利用引文上下文的方法是為了給重要的文章排序。對于一個給定的主題語詞,首先要創建一個相似語詞集合,然后再查詢包含有相似語詞集合的引文上下文。只有通過檢測引文上下文,才能創建主題相關的網絡,才能應用鏈接分析,在網絡中找到相關主題最重要的文章。
參考文獻參考文獻:
[1]ALJABER,BADER.Document clustering of scientific texts using citation contexts[J].Information Retrieval Journal,2010,13(2):101131.
[2]陸偉,孟睿,劉興幫.面向引用關系的引文內容標注框架研究[J].中國圖書館學報,2014(6):93104.
[3]SCHWARTZ,ARIEL S,M HEARST.Summarizing key concepts using citation sentences[J].The Workshop on Linking Natural Language Processing and Biology: Towards Deeper Biological Literature Analysis Association for Computational Linguistics,2006(5):134135.
[4]劉盛博,丁堃,張春博.引文分析的新階段:從引文著錄分析到引用內容分析[J].圖書情報知識,2015 (3):2534.
[5]BRADSHAW,SHANNON.Reference directed indexing: redeeming relevance for subject search in citation indexes.research and advanced technology for digital libraries[J].Springer Berlin Heidelberg,2003(4):499510.
[6]RITCHIE ANNA,S TEUFEL,S ROBERTSON.How to find better index terms through citations[J].The Workshop on How Can Computational Linguistics Improve Information Retrieval Association for Computational Linguistics,2006(6):2532.
[7]QAZVINIAN,VAHED,D R RADEV,et al.Citation summarization through key phrase extraction[C].COLING 2010,International Conference on Computational Linguistics,Proceedings of the Conference,Beijing,China DBLP,2010:895903.
[8]MORAVCSIK,MICHAEL J,P MURUGESAN.Some results on the function and quality of citations[J].Social Studies of Science,1975,5(1):8692.
[9]KESSLER.Bibliographic coupling between scientific papers[J].Journal of the Association for Information Science and Technology,1963,14(1):1025.
[10]SMALL,HENRY.Cocitation in the scientific literature: a new measure of the relationship between two documents[J].Journal of the Association for Information Science and Technology,1973,24(4):265269.
[11]GIPP,BELA,J BEEL.Citation proximity analysis (CPA)a new approach for identifying related work based on cocitation analysis[C].International Conference on Scientometrics & Informetrics,2009:571575.
[12]A ABUJBARA,J EZRA,D RADEV.Purpose and polarity of citation: towards nlpbased bibliometrics[C].HLTNAACL,2013.
[13]MANNING,CHRISTOPHER D,P RAGHAVAN,et al.Introduction to information retrieval[M].北京:人民郵電出版社,2010.
責任編輯(責任編輯:杜能鋼)