摘要:農業期刊引文數據庫建設的目的有兩個,一個是讓更多的農業領域的讀者以及對農業領域感興趣的讀者免費地隨時隨地去查詢相關文獻材料,并通過引文的網狀關系去拓展知識的深度和廣度;另一個目的就是為農業期刊辦刊者提供各種期刊評價指標,使辦刊者做出合理決策。主要介紹農業期刊引文數據庫的設計,每個主要表的數據結構,以及主要表的數據批量導入與整理,重點描述了引文表的數據加工流程,以及引文細拆分的程序流程。
關鍵詞:引文數據庫;引文拆分;數據加工;數據庫建設;引文索引;農業期刊
中圖分類號:G230文獻標志碼:A文章編號:1673-291X(2010)09-0174-02
一、建設農業期刊引文數據庫的作用和目的
農業期刊引文數據庫建設的目的有兩個,一個是讓更多的農業領域的讀者以及對農業領域感興趣的讀者免費地隨時隨地去查詢相關文獻材料,并通過引文的網狀關系去拓展知識的深度和廣度;另一個目的就是為農業期刊辦刊者提供各種期刊評價指標,使辦刊者做出合理決策,引領期刊方向,提高期刊質量。
二、農業期刊引文數據庫設計
農業期刊引文數據庫的設計是要讓讀者通過題名、作者、刊名等關鍵字,查找到相關文獻列表,繼而查找到想要的文獻的具體文摘內容和引文列表,而且通過這個引文列表還能查到相關的另類文獻。反過來,也可以通過這個文獻去查找其被引頻次以及被引的文獻列表,形成一種網絡狀的索引模式。
根據這個目的,我們設計了三個主要的表:一個是期刊表,一個是文摘表,一個是引文表。這三個表是引文數據庫的主體,有了這三個表就可以進行基本的引文關聯查詢了。在此基礎上,還可以拓展。可以引進作者表,對作者的詳細信息進行記錄,比如性別,出生年月,畢業院校,職稱,職務,主要研究領域,主要研究成果等等,促進讀者對主要責任者的了解;還可以增加出版公司表,包含公司性質、規模、地址、聯系電話、網址、EMAIL等;根據業務的擴展,還可以建立與讀者互動的表,如建立讀者表,建立讀者收藏表等等。在此,我們僅對這三個主表的設計進行描述。
三、數據的批量導入與整理
期刊表的數據來源于圖書館集成管理系統中的期刊庫,都是SQL-SERVER表,所以導入很方便。文摘表和引文表在目前的圖書館集成管理系統中沒有現成的數據,需要另外進行加工錄入。
1.文摘數據的加工流程

文摘數據的加工是先將期刊一頁一頁地掃描成.tif文件,再用圖形識別軟件將 .tif文件轉換為.txt格式的文本文件,然后合并整理,并人工錄入切分符號,將文章的題目、作者、正文、參考文獻等內容進行切分,再用程序將不同年、卷期的各種期刊文檔批量導入數據庫中的文摘表中。這時候,對表中各字段按照長度、左邊第一個字符,右邊第一個字符建立索引,然后根據索引找出有問題的數據進行校驗。最后形成一個數據完整的文摘表。
2.引文數據的加工
由于引文數據量多,而且著錄格式較規范,所以主要是用程序對大多數數據進行拆分,人工僅對少量數據進行審核。
(1)引文數據的拆分流程。

(2)引文的粗拆分。在文摘庫里,引文字段存放的數據是一大段關于參考文獻的所有信息。粗拆分的目的就是將這么一大段文字,按照序號的不同,拆成若干條條記錄,分別存放在引文表里。
(3)引文的細拆分。引文被拆成一條條的記錄后,現在就需要把每條引文記錄細拆成有具體意義的各種字段,并存放在數據庫中,以便于今后的引文索引和計算。
引文字段拆分方法。中文引文中大概有50%是按照新的國家標準(GB/T7714-2005)來著錄的,而引用的外國文獻基本上沒有按照這樣的標準,還有一些引文數據和注釋參和在一起,另外一些根本沒有按照國家標準著錄,這就給拆分引文帶來了困難。
我們通過對大量的引文數據做分析,并在實際拆分過程中對有問題的數據進行歸納,終于找到問題發生規律,使得數據在拆分后能保證有80%的準確率。

(4)引文數據的初審。經過程序拆分后的數據,要進行初審,盡量將能用程序修正的數據用計算機程序來修正,減少人工工作量。
(5)引文數據的人工審核。被剔除的有問題的數據單獨存放在另一個表里,讓數據加工人員逐條進行審核,以確保數據的正確性和完整性。人工審核完畢后,將這個表里的數據覆蓋原表中的帶標記的數據,則引文表的數據加工就完成了。
四、農業引文數據庫的應用
農業引文數據庫主要的三個表建立好之后,就可以運用于實際了。首先就是要建立一個農業引文查詢網站,使讀者能夠通過這個網站充分利用農業引文數據庫,享受這個數據庫為其帶來的便利;另一個應用就是建立一個辦刊者對期刊指標進行查詢的網站,使辦刊者實時了解其期刊被利用的程度,了解期刊的質量,隨著數據庫的擴展,甚至能讓辦刊者隨時了解期刊的讀者群。
隨著應用的深入和擴展,我們還要不斷改進和完善農業引文數據庫的內容,更好地為讀者服務。