摘要:農(nóng)業(yè)期刊引文數(shù)據(jù)庫建設的目的有兩個,一個是讓更多的農(nóng)業(yè)領域的讀者以及對農(nóng)業(yè)領域感興趣的讀者免費地隨時隨地去查詢相關文獻材料,并通過引文的網(wǎng)狀關系去拓展知識的深度和廣度;另一個目的就是為農(nóng)業(yè)期刊辦刊者提供各種期刊評價指標,使辦刊者做出合理決策。主要介紹農(nóng)業(yè)期刊引文數(shù)據(jù)庫的設計,每個主要表的數(shù)據(jù)結(jié)構(gòu),以及主要表的數(shù)據(jù)批量導入與整理,重點描述了引文表的數(shù)據(jù)加工流程,以及引文細拆分的程序流程。
關鍵詞:引文數(shù)據(jù)庫;引文拆分;數(shù)據(jù)加工;數(shù)據(jù)庫建設;引文索引;農(nóng)業(yè)期刊
中圖分類號:G230文獻標志碼:A文章編號:1673-291X(2010)09-0174-02
一、建設農(nóng)業(yè)期刊引文數(shù)據(jù)庫的作用和目的
農(nóng)業(yè)期刊引文數(shù)據(jù)庫建設的目的有兩個,一個是讓更多的農(nóng)業(yè)領域的讀者以及對農(nóng)業(yè)領域感興趣的讀者免費地隨時隨地去查詢相關文獻材料,并通過引文的網(wǎng)狀關系去拓展知識的深度和廣度;另一個目的就是為農(nóng)業(yè)期刊辦刊者提供各種期刊評價指標,使辦刊者做出合理決策,引領期刊方向,提高期刊質(zhì)量。
二、農(nóng)業(yè)期刊引文數(shù)據(jù)庫設計
農(nóng)業(yè)期刊引文數(shù)據(jù)庫的設計是要讓讀者通過題名、作者、刊名等關鍵字,查找到相關文獻列表,繼而查找到想要的文獻的具體文摘內(nèi)容和引文列表,而且通過這個引文列表還能查到相關的另類文獻。反過來,也可以通過這個文獻去查找其被引頻次以及被引的文獻列表,形成一種網(wǎng)絡狀的索引模式。
根據(jù)這個目的,我們設計了三個主要的表:一個是期刊表,一個是文摘表,一個是引文表。這三個表是引文數(shù)據(jù)庫的主體,有了這三個表就可以進行基本的引文關聯(lián)查詢了。在此基礎上,還可以拓展??梢砸M作者表,對作者的詳細信息進行記錄,比如性別,出生年月,畢業(yè)院校,職稱,職務,主要研究領域,主要研究成果等等,促進讀者對主要責任者的了解;還可以增加出版公司表,包含公司性質(zhì)、規(guī)模、地址、聯(lián)系電話、網(wǎng)址、EMAIL等;根據(jù)業(yè)務的擴展,還可以建立與讀者互動的表,如建立讀者表,建立讀者收藏表等等。在此,我們僅對這三個主表的設計進行描述。
三、數(shù)據(jù)的批量導入與整理
期刊表的數(shù)據(jù)來源于圖書館集成管理系統(tǒng)中的期刊庫,都是SQL-SERVER表,所以導入很方便。文摘表和引文表在目前的圖書館集成管理系統(tǒng)中沒有現(xiàn)成的數(shù)據(jù),需要另外進行加工錄入。
1.文摘數(shù)據(jù)的加工流程

文摘數(shù)據(jù)的加工是先將期刊一頁一頁地掃描成.tif文件,再用圖形識別軟件將 .tif文件轉(zhuǎn)換為.txt格式的文本文件,然后合并整理,并人工錄入切分符號,將文章的題目、作者、正文、參考文獻等內(nèi)容進行切分,再用程序?qū)⒉煌?、卷期的各種期刊文檔批量導入數(shù)據(jù)庫中的文摘表中。這時候,對表中各字段按照長度、左邊第一個字符,右邊第一個字符建立索引,然后根據(jù)索引找出有問題的數(shù)據(jù)進行校驗。最后形成一個數(shù)據(jù)完整的文摘表。
2.引文數(shù)據(jù)的加工
由于引文數(shù)據(jù)量多,而且著錄格式較規(guī)范,所以主要是用程序?qū)Υ蠖鄶?shù)數(shù)據(jù)進行拆分,人工僅對少量數(shù)據(jù)進行審核。
(1)引文數(shù)據(jù)的拆分流程。

(2)引文的粗拆分。在文摘庫里,引文字段存放的數(shù)據(jù)是一大段關于參考文獻的所有信息。粗拆分的目的就是將這么一大段文字,按照序號的不同,拆成若干條條記錄,分別存放在引文表里。
(3)引文的細拆分。引文被拆成一條條的記錄后,現(xiàn)在就需要把每條引文記錄細拆成有具體意義的各種字段,并存放在數(shù)據(jù)庫中,以便于今后的引文索引和計算。
引文字段拆分方法。中文引文中大概有50%是按照新的國家標準(GB/T7714-2005)來著錄的,而引用的外國文獻基本上沒有按照這樣的標準,還有一些引文數(shù)據(jù)和注釋參和在一起,另外一些根本沒有按照國家標準著錄,這就給拆分引文帶來了困難。
我們通過對大量的引文數(shù)據(jù)做分析,并在實際拆分過程中對有問題的數(shù)據(jù)進行歸納,終于找到問題發(fā)生規(guī)律,使得數(shù)據(jù)在拆分后能保證有80%的準確率。

(4)引文數(shù)據(jù)的初審。經(jīng)過程序拆分后的數(shù)據(jù),要進行初審,盡量將能用程序修正的數(shù)據(jù)用計算機程序來修正,減少人工工作量。
(5)引文數(shù)據(jù)的人工審核。被剔除的有問題的數(shù)據(jù)單獨存放在另一個表里,讓數(shù)據(jù)加工人員逐條進行審核,以確保數(shù)據(jù)的正確性和完整性。人工審核完畢后,將這個表里的數(shù)據(jù)覆蓋原表中的帶標記的數(shù)據(jù),則引文表的數(shù)據(jù)加工就完成了。
四、農(nóng)業(yè)引文數(shù)據(jù)庫的應用
農(nóng)業(yè)引文數(shù)據(jù)庫主要的三個表建立好之后,就可以運用于實際了。首先就是要建立一個農(nóng)業(yè)引文查詢網(wǎng)站,使讀者能夠通過這個網(wǎng)站充分利用農(nóng)業(yè)引文數(shù)據(jù)庫,享受這個數(shù)據(jù)庫為其帶來的便利;另一個應用就是建立一個辦刊者對期刊指標進行查詢的網(wǎng)站,使辦刊者實時了解其期刊被利用的程度,了解期刊的質(zhì)量,隨著數(shù)據(jù)庫的擴展,甚至能讓辦刊者隨時了解期刊的讀者群。
隨著應用的深入和擴展,我們還要不斷改進和完善農(nóng)業(yè)引文數(shù)據(jù)庫的內(nèi)容,更好地為讀者服務。