基于引文排序的科技文獻檢索初探

2010-08-23 04:46:52劉松濤

制造業自動化 2010年10期

劉松濤

LIU Song-tao

（吉林司法警官學院，長春 130507）

0 引言

科研人員在自己的研究領域就某些問題的研究總是要查閱和借鑒前人已有的研究成果以幫助自己在已有成果的基礎上繼續深入研究和創新，但隨著科學發展的不斷進步科技文獻的數量日益龐大，如何從浩如煙海的文獻資料中檢索出自己關心的篇章是人們日益關心的話題。一篇完整的科學論文一般是由作者的正文部分和附于其后的被引文獻構成，文獻與文獻之間建立起了一種引用和被引用的關系，一篇文獻也往往兼有引用和被引用兩種角色。我們從文獻的引用和被引用關系上能夠發現文獻間的相關性。這種相關性有強有弱。相關強度大的對于研究人員的參考價值就大。因此按照相關強度對引文進行排序是合理的，有價值的。

本文將以一組科技文獻的引文系統中的文獻為研究對象探討按照相關強度對引文進行排序的方法。我們會發現文獻間的相關性與文獻的被引用次數有著直接關系，我們可以以文獻的被引用次數來反映文獻間的相關強度并論述它的合理性。對學術期刊、文獻的引用和被引用現象進行定量分析，以便揭示其數量特征和相互關系，彌補傳統文獻檢索方法的不足，具有良好的理論價值和應用價值。

1 引文網絡結構的表示

廣義的引文分析，要了解引文系統中引用文獻和被引文獻之間的關系，也就是要了解和掌握該系統的結構，一組同一領域的有相互引用關系的論文構成的一個網絡圖，它們之間具有一定的結構，這個結構能表述它們的相互作用關系和相關強度，可以勾勒出相關課題的來龍去脈。引文網絡圖可以用鏈、樹、網型三種結構表達。令引文和被引文獻均為系統中的結點，如果我們用來表示文獻間的引用關系，以箭頭指向為被引文獻，而箭尾為引文（即文獻）。

圖1的網狀結構圖反映了一個不同于鏈、樹結構的復雜體：

圖1 引文系統的網狀圖

文獻之間的引用關系十分的復雜，所以考慮采用網狀結構表示。

2 文獻間的相關強度和被引用頻次的關系

根據圖論中路徑的相關定義，在此給出引文路徑的語義定義：如果文獻之間通過 n 次引文相聯系，那么它們之間所經過的 n 次聯系所形成的引文鏈，稱為引文路徑。文獻之間的引文路徑不是唯一的。例圖1中，文獻[1]到文獻[7]的引文路徑有多條，其中一條由1到7，另一條由1到2再到7。

引文路徑長度是指文獻之間形成的引文聯系的次數，也就是引文路徑概念中 n 的值。如果 n＝0，文獻 A 與文獻 B 之間沒有引文聯系；如果 n＞0，則文獻A 與文獻 B 之間形成了 n 次引用聯系。圖1中，文獻2 與文獻 3 之間的引文路徑長度為 0，文獻 1 到文獻7 之間的引文路徑長度為 1或2。

引文路徑寬度是指具有引文聯系的兩篇文獻之間的引文路徑長度相同的引文路徑的數量。圖1中文獻1 到文獻7之間的引文路徑長度為 2 的路徑有2 條，其中一條為由1、2、7所組成的引文路徑，另一條為1、5、7所組成的引文路徑。

根據引文分析路徑模型的理論既通過引文路徑相聯系的文獻之間的相關性與其之間的引文路徑長度成反比。與其之間的引文路徑總寬度成正比的理論。有如下公式：

其中：R代表文獻間的相關強度,n代表相關文獻間引文路徑的長度，tn代表當引文路徑長度為n時兩個引文間的引文路徑寬度，K為常數。

我們以圖1為例，計算文獻1與其它文獻間的相關強度，假設K為常數1：

1與2間：R1-2=1*1/1=1;

1與3間：0；

1與4間：0：

1與5間：R1-5=1*1/1=1;

1與6間：R1-6=1*1/1=1;

1與7間：R1-7=1*（1+2/2+1/3）=7/3;

1與8間：R1-8=1*（0+1/2）=1/2;

根據上述結果我們按與文獻1的相關強度對文獻排序如下：

7，5，6，2，8，3，4

從圖中我們還可以看出按照各引文的被引頻次排序如下：

7，5，6，8，2，3，4

再比如文獻2與文獻7的相關強度為2，與文獻5的相關強度為1，與8的相關強度為1，其它為0。

文獻3與文獻7、6的相關強度都為1，其它為0。

文獻4與文獻7、5、6、8的相關強度都為1，其它為0。

從總體上來看我們能夠發現引文網絡圖中的某一文獻與其它文獻的相關度與它的被引用次數有著直接關系，當文獻的被引用頻次較高時它與其它文獻的相關強度也大，反之當文獻的被引用頻次較低時它與其它文獻的相關強度也較小。但根據引文路徑模型我們不但能夠檢索出與一篇文獻發生直接引用關系的引文還能檢索出間接引用關系的引文。因而利用引文路徑模型我們能夠得到與一篇文獻相關的引文系統。

由于某一文獻與其它文獻的相關度與它的被引用次數有著直接關系，我們可以用引文系統中文獻的被引頻次來反映此文獻與其它文獻的相關度，從而在一個引文系統中按照文獻的相關度把文獻排序的問題可以轉化為按文獻的被引用頻次的排序問題，使問題變得簡化。

3 設計實現

首先，引文網絡(citation network)作為一個系統，它能夠反映各個要素相互之間存在的各種關系。引文關系特點就是(1)在時間上單向，(2)不能自引， (3)關系一旦形成不可更改三個限制。這都是在編程時應該注意的。檢索論文后處理，先將論文格式轉化成txt文件，抽出網址-URL,頭部-Header,摘要-Abstract,介紹-Introduction,引文-Citations,正文-Full Text等信息，專門對Citations做解析工作，具體處理步驟不再贅述。

在得到檢索、格式處理后的論文txt文件后，將數據分解成兩個表導入SQL server數據庫：表1 ( 論文序號，論文名，引文數量 )屬性列,論文序號為此引文網絡中論文的一個編號；表2 ( 引文序號，作者，引文名稱，出處來源及所屬論文 )屬性列，所引論文表示的是此引文為表1中某一論文的引文。

利用Java 編程時，借助JDBC與數據庫連接進行操作。方法1：將數據庫表中數據讀出到Java程序數組中進行字符串迭代匹配，得到論文引文排序；方法2：Java程序中嵌入數據庫結構化查詢語句(struct query language) 直接進行查詢。方法1在對空間或是時間上都代價較高，特別是在一個引文網絡中論文數量很大的情況下更加體現出效率低。與之相比較，方法2是在數據庫內進行一系列操作，sqlserver的存儲量大，查詢速度快,方便數據的傳輸等優點便可以顯現。

4 結束語

對引文按被引次數進行排序直接反映了文獻間的相關強度，迭代法排序的查詢速度不及數據庫查詢的方法。此結果是在引文系統只有10篇論文的請況下得到的，如果是大量論文的引文系統中可以判斷數據庫的優越性會更顯著。此研究的目的是根據某一文獻找到相關的引文系統并根據與所給文獻的相關強度對引文進行排序從而提供使用者查閱。由于時間有限，本人的能力有限，考慮得不是很周到。這些有待日后進一步加工以使論文按引文排序方法更加完善。

[1]陳雪.引文分析路徑模型[J].情報探索,2009 (6).

[2]嚴蔚敏.數據結構[M].清華大學出版社.2005.

[3]丁學東.文獻計量學基礎[M].北京大學出版社,298

[4]周云平.我國引文分析研究現狀與21世紀發展趨勢[J].圖書情報工作,2001(2).

[5]Ma Jun.Retrieving Digital Artifacts from Digital Libraries Semantically.LNCS.3644,Springer,2005,340-349.

[6]T.-Y.Liu,T.Qin,J.Xu,W.Xiong,and H.Li.LETOR. Benchmark dataset for research on learning to rank for information retrieval. In SIGIR Workshop on Learning to Rank for IR(LR4IR),2007.

[7]陳雪鄭宏.基于路徑的引文分析研究初探[J].情報探索,2007(4).