張 玉 王洪軍 陳建青 馮占英 肖 健 董瑞玉 薛曉芳
(解放軍醫學圖書館 北京 100039)
?
?醫學信息組織與利用?
生物醫學文獻引文在線集成檢索整合平臺設計與實現*
張 玉 王洪軍 陳建青 馮占英 肖 健 董瑞玉 薛曉芳
(解放軍醫學圖書館 北京 100039)
分析引文查詢工作的現狀及存在的問題,提出引文資源整合工具的設計理念、整體結構和功能設計,展示系統實現的關鍵技術。構建可對多種引文數據庫在統一平臺一站式檢索并對結果自動過濾去重的引文在線集成檢索整合平臺,減輕查引人員工作負擔,有效提高工作效率。
引文檢索;引文數據庫;集成檢索;引文整合
引文查詢分析是我國科技查新的一項重要內容,能從一個側面反映科研人員的科技成果被他人的認可度、利用度和學術價值[1],越來越受到科研工作者和管理部門的重視[2]。目前引文查詢工作是由查引人員根據用戶提供的作者姓名及文章發表的年代、作者單位地址或者論文題名等信息,查詢國內各大引文數據庫,從數據庫返回的記錄中挑選與論文相匹配的記錄并將選中的記錄信息下載,人工從中抽取出報告所需要的字段數據,最后將抽取的數據填入專門的報告格式文檔中,根據格式要求調整記錄[3-4]。這一過程除了文獻檢索外,其他工作基本由手工完成[5]。查引工作環節中存在很多費力的簡單重復勞動。主要體現在:(1) 需要重復檢索多個數據庫。目前國內各大引文數據庫在期刊收錄范圍上各有千秋,各個數據庫收錄的期刊均不能保證查全,查引工作人員需要分別檢索幾個數據庫,獲取檢索結果[6-7]。(2)檢索結果的比對去重。由于每個數據庫收錄有交叉,因此會出現一條記錄在多個數據庫重復出現的情況,需要將結果比對去重,增加了查引人員的工作量。(3)引證報告格式規范。由于各數據庫檢索結果展示方式不一、引文著錄不規范等,查引人員在抽取出報告所需要的字段數據后,需要根據格式要求一一進行調整、規范,引文報告的規范化費時費力,降低了查引的效率。
因此,基于目前引文查詢分析的現狀,為更好地實現學術資源共享,提高查引工作效率,迫切需要建立一個Web引文資源整合工具,為用戶提供統一、快捷的引文檢索整合平臺。
在認真分析引文查詢業務流程以及解放軍醫學圖書館業務發展要求的基礎上,本文將該系統的設計目標定位在為用戶構建一個便捷的引文在線集成檢索整合平臺,可對多種引文數據庫在統一平臺一站式檢索并對結果自動過濾去重,實現引文數據庫的整合功能。通過該系統,用戶可以選擇對這些廠商數據進行多庫檢索或單庫檢索,實現對單篇或多篇文獻查引,對檢索結果進行自動分組和過濾去重,一鍵出具查引報告,規范輸出引文報告,提高查引工作效率,開創引文整合檢索的新模式[8-10]。該引文在線集成檢索整合系統與原來的手工業務操作相比,在系統設計上突出以下幾個方面:(1)系統的安裝、使用要簡便、易操作。(2)解決查引流程中文獻檢索階段需要分別擬定檢索策略、檢索引文數據庫、下載檢索結果的繁瑣操作的問題。(3)重點對文獻信息進行收割、整合,解決檢索結果需要人工比對去重、統一格式、分別統計分析等繁瑣且重復的問題。(4)滿足用戶多種引證報告格式的需求,一鍵出具規范的引證報告。
3.1 系統的整體結構及功能模塊
3.1.1 整體結構 基于系統需求,總體結構包括:檢索服務子系統、引文檢索客戶端、客戶管理后臺等部分,見圖1。

圖1 引文在線檢索系統整體結構
(1)檢索服務子系統。該子系統主要由條件轉換器(Convertor)、查詢結果合并組件及廠商數據(不同引文數據源)搜索組件組成,其中條件轉換器主要是把標準化的查詢條件轉換成目標廠商的查詢條件,以便查詢目標廠商數據;廠商數據搜索組件主是用來查詢目標廠商的數據;而查詢結果合并組件主要是對各個廠商查詢的結果數據進行合并去重分組等,最后返回給索引檢索客戶端。(2)引文檢索客戶端。主要由期刊查詢模塊與期刊查引模塊兩個模塊構成。該系統主要是提供標準化的查引界面,供用戶自由選擇在各個數據庫查詢自己的期刊數據,查詢到期刊數據后可以通過界面對結果期刊數據進行自動和人工分組、數據修正等操作,然后再對整理后的期刊數據進行實時查引,查引完成后還提供了對查引結果的整理、數據導出等功能。(3)客戶管理后臺。該系統主要由客戶授傳管理與硬件激活/重置/驗證兩大部分組成,其中客戶授傳管理主要維護了客戶的基本信息及序列號的管理,而硬件激活/重置/驗證主要用來激活硬件、更換硬件,驗證序列號的合法性等功能。此外系統還提供了客戶活動狀態方面的信息跟蹤。
3.1.2 系統構架 在上述整體架構的基礎上,根據查引工作流程和文獻的數據流,筆者設計了用戶管理與權限、統一檢索平臺、檢索服務、來源文獻檢索結果、引證結果5個基本的模塊來實現系統的功能,見圖2。

圖2 引文在線檢索整合系統框架
(1)用戶管理與權限模塊包括用戶注冊、權限管理及訪問統計功能。通過注冊功能,獲取授權碼,取得登錄權限。通過權限管理,設置用戶的類型、訪問期限、終端用戶數量。訪問統計功能則通過監測用戶使用系統的次數,來發現不同用戶對系統的需求程度和系統的適用性,以便及時進行改進。(2)統一檢索平臺是用戶進行檢索的入口[11],主要提供基于各種方式的檢索途徑、檢索結果的展示、資源元數據的管理以及其他個性化服務功能。統一檢索平臺收到用戶的檢索請求后將其轉發給檢索服務總線,存儲經過檢索服務總線整合處理的以統一模式管理的檢索結果[12],將返回的檢索結果綁定到頁面進行展示。(3)檢索服務總線是為統一檢索平臺提供檢索服務的,是集成檢索系統運行的核心。檢索服務總線對檢索請求進行統一的轉化處理,將其轉化為不同異構數據源的檢索表達式,根據特定的檢索服務,將處理過的檢索請求轉發給檢索服務,然后統一調用各檢索服務,各檢索服務對異構數據源進行檢索并返回檢索結果。檢索服務總線以元數據標準統一描述數據資源,將檢索結果返回給統一檢索平臺以便進行統一的展示[13]。(4)在對來源文獻進行處理的環節中,系統對用戶選擇的來源文獻結果進行處理,包括自動對來源文獻進行分組、對分組文獻進行排序及提示人工核查處理等。(5)在對引證結果進行處理時,系統首先對檢索結果進行自動過濾去重,用戶可以通過排序等方式實現人工去重,最后多種方式選擇輸出報告。
3.2 主要功能設計
3.2.1 統一檢索 統一檢索平臺是用戶進行檢索的入口,包括檢索字段、檢索范圍等,基于關鍵詞、作者、作者單位等信息提供檢索,提供基于各種方式的檢索結果展示、資源元數據的管理以及其他個性化服務功能。系統主要設計了兩大檢索方式:(1)基于單篇文獻的檢索。此種檢索方式的確立主要是因為在查引過程中,大多是針對一篇文獻進行查引,保證引文查詢的結果可靠,檢索響應快速、方便。(2)針對某一作者或者單位的多篇文獻進行查引。對某一作者或者單位發表的多篇文獻同時進行查引,使查引工作更加高效。
3.2.2 網頁檢索代理功能 網頁檢索代理功能的實現建立在統一檢索整合平臺的基礎之上。針對不同數據庫的檢索途徑、方式進行分析,用戶查詢命令通過網頁檢索代理發送給相關的數據庫,返回的查詢結果再經過網頁分析抽取各數據庫中的相應字段,將各個數據庫共有的檢索方式轉化為系統的檢索方式,以此設定引文整合系統需要的檢索字段,實現平臺界面的檢索功能,包括的檢索字段有題名、作者、作者單位、刊名、年代等。
3.2.3 文獻分組功能的實現 文獻分組即在一站式檢索平臺下,系統對4種數據庫同時進行檢索,對返回的檢索結果按照既定的分組規則,將題名、第一作者、刊名、發表年份相同的文獻自動歸類為同一組,不同文獻單獨分組。分組功能不但可以直觀對比相同文獻在各數據庫的被引情況,也可以使文獻處于有序狀態,方便用戶對文獻進行人工處理或選擇性的引文查詢等操作。分組功能演示,見圖3。

圖3 文獻分組功能
3.2.4 引文自動去重功能 引文自動去重功能是該系統的一大亮點。由于系統對各引文數據庫同時進行檢索,檢索的來源文獻會有重復,引證文獻也有重復,因此需對文獻進行去重過濾,包括自動去重過濾和人工干預去重。用戶可根據分組結果,選擇對檢索結果中不同來源庫的同一組來源文獻查引時,系統在后臺按題名、第一作者、刊名、發表年份等不同的條件檢索目標數據庫,自動進行引文過濾去重,將查引結果中題名、第一作者、發表年份信息相同的引證文獻自動合并去重為一條記錄。對于由于各數據庫格式和錄入錯誤造成可能是相同文獻的,采用系統輔助人工干預方式進行處理,使系統能夠最大限度地發揮去重作用[14]。
3.2.5 一鍵輸出引證報告功能 為方便引證查詢,該系統提供更加便捷的一鍵輸出引證報告功能[15],使得文獻引證檢索結果能夠一鍵完成輸出,大大提高了檢索人員的工作效率。用戶既可以選擇生成單篇文獻的引證報告,也可以選擇生成多篇文獻的引證報告,同時可以對引證結果按照年代升序、降序,作者等自動選擇排序,對引文結果進行規范化處理,一鍵生成用戶所需要的查引報告格式,方便用戶快捷獲取引文報告。
4.1 開發環境和系統要求
考慮到功能分布、軟件響應速度、安全性等,系統采用C/S結構,即客戶機/服務器(Client/Server)結構模式。Web服務器采用微軟的互聯網信息服務(Internet Information Services,IIS),具有使用簡便的特點,為應用提供構建、移植和運行的環境。系統使用微軟的.NET工具進行開發。目前微軟的Windows系統得到廣泛的應用,采用微軟的相關工具進行系統開發可以更好地與Windows系統結合,獲得較好的響應速度和穩定性。同時.NET具有開發速度快、集成化程度高的特點,完全適用于本系統的開發。系統運行需要安裝Microsoft .NET Framework 3.5,開發后的系統可安裝于Windows XP、 Windows Vista、 Windows Server 2003、 Windows Server 2008等多種操作系統,因此對PC的配置要求并不高,符合絕大多數查新員的實際工作環境[8]。
4.2 多庫自動去重
跨庫檢索的結果來自于多個數據庫,不可避免地存在很多重復。采用人工去重會耗費大量時間和精力,而且容易出現錯誤。因此,有效的自動去重方法在跨庫檢索中十分必要。但中文文獻普遍缺少統一的文獻標識符,很難根據如國際通用的DOI進行去重。系統采用核心元數據兩步去重方法進行處理:首先,比較“刊名+年份+第一作者”信息,將相同的文獻劃分為一組;其次,同一組文獻比較題名信息。題名中通常包含中文字符、英文字符、上下標、分隔符(空格、下劃線、中劃線)、特殊字符(拉丁字母等)等情況,中文字符、英文字符各數據庫都能匹配,但往往會出現分隔符(空格、下劃線、中劃線)、上下標、特殊字符(拉丁字母等)不一致或輸入錯誤的情況,系統對題名進行預處理轉換為統一的格式后,再將題名相同的匹配為一組,不同的重新劃分出新的組。去重算法偽代碼如下:
創建分組列表groupList;
foreach (庫i in 所有的庫){
foreach (文獻m in 庫i){
創建分組group;
將文獻m加入分組group;
將文獻m從庫i中刪除;
foreach (庫j in j>i的所有庫){
foreach (文獻n in 庫j){
if compare (文獻m,文獻n)==true
將文獻n加入分組group;
將文獻n從庫j中刪除;
endif
}
}
將分組group加入分組列表groupList;
}
}
返回分組列表groupList;
算法的關鍵是compare ()函數,用于比較兩篇文獻是否應該歸于同一組中,應用上面的核心元數據兩級比較方法進行比較。歸于一組的文獻表示在多個數據庫中檢索到同一篇文獻。
4.3 多線程并行檢索
跨庫檢索通過網頁檢索代理功能將檢索請求“翻譯”成各個數據庫的檢索語句,然后再獲取各數據庫的檢索結果。只有當所有數據庫返回結果后才能對數據進行去重排序,然后返回給用戶。系統采用多線程并行檢索機制,對多個數據庫進行并行檢索。線程數量通過for循環來實現,每個請求針對每個數據庫啟動一個新線程,該線程對用戶的檢索請求進行翻譯,轉換為后端數據庫查詢請求并獲得請求響應,分析響應中的數據,根據標簽樣式匹配,提取出文獻的元數據并存入結果列表中。對長時間未返回響應結果的數據庫,終止該線程的繼續執行,提示用戶哪些數據庫未及時返回檢索結果。各線程返回數據庫結果列表后,由主線程對結果集進行分組去重和排序操作。
生物醫學文獻引文在線集成檢索整合系統1.0版目前已經完成并且投入使用,推廣應用到多個查新單位,受到了用戶的廣泛認可。該系統減少查引人員的重復瑣碎性工作,縮短查引所需花費的時間,提高查全率,用戶滿意度提高,達到預期效果。但從查引工作的發展和系統的使用來看,該系統還存在著不足,如可檢索的數據源還不夠全,由于對文獻檢索的響應速度要求較高,對多篇來源文獻檢索結果數量有一定的限制等,需要進一步優化系統設計,完善功能,使其不僅適用于生物醫學領域,也可應用于其他學科領域的查引分析。
1 王明潔. 《中國生物醫學期刊引文數據庫》在醫院的應用[J].醫學信息學雜志,2007,28(3):250-251.
2 余麗清, 劉少雷. 網絡環境下的查收查引工作探討[J].農業圖書情報學刊,2010,22(9):79-81,97.
3 李曉東, 盧振波. 論文查收查引工具軟件的設計與實現[J].大學圖書館學報,2005,(1):49-50,62.
4 王曉丹, 田永梅, 孫雷. 提高查收查引服務效率的實踐與探討———以哈爾濱工業大學圖書館為例[J].高校圖書館工作,2014,34(4):55-56,92.
5 張玢, 許培揚, 王敏,等. 醫學文獻引證分析工作流程規范化探討[J].醫學信息學雜志,2010,31(11):59-62,58.
6 周晴, 邵明坤, 余恒先, 等. 3大常用引文數據庫檢索中醫藥文獻功能探究[J].醫學信息學雜志,2010,31(1):30-33.
7 郭孟甲. 國內常見引文數據庫淺析及其應用體會[J].醫學信息學雜志,2006, 27(2):116-117.
8 李廣利, 李書寧. 科技查新報告自動生成軟件的設計與實現[J].現代圖書情報技術,2013,(2):82-87.
9 鄭菲, 陳朝輝, 文奕,等. 中國科學院科技查新檢索服務平臺的設計與實踐應用[J].現代圖書情報技術,2010,(11) : 79-83.
10 袁潤, 周金元, 盧章平.科技查新信息管理系統的設計與實現[J].現代情報,2007,(7) : 152-155.
11 楊世軍, 張瑞彬. 基于SOA的異構數據源統一檢索系統模型[J].湖北大學學報:自然科學版,2009,31(2):137-140.
12 尚武. 網絡信息資源整合與統一檢索平臺[J].中華醫學圖書情報雜志,2009,18(2):28-29,35.
13 孫素云. 基于Web服務統一檢索系統的設計[J].現代計算機,2007,(4):79-81.
14 石杰, 薛建新, 聶鐵錚,等. 面向學術領域的Web引文資源整合系統[J].計算機研究與發展,2011,48(S3):370-373.
15 陳建青, 張曉梅, 張瑩, 等.《中國生物醫學期刊引文數據庫》新版檢索功能設計[J].醫學信息學雜志,2008, 29(7):37-40.
Design and Realization of Biomedical Literature Citation Online Integrated Retrieval System
ZHANGYu,WANGHong-jun,CHENJian-qing,FENGZhan-ying,XIAOJian,DONGRui-yu,XUEXiao-fang,
MedicalLibraryofChinesePLA,Beijing100039,China
The paper analyzes the current status and existing problems of citation retrieval work, puts forward the design principle, overall structure and function of cited references integration tools, demonstrates the key technologies of system realization. An integrated retrieval platform for online literature citations is constructed for the following functions: one-stop retrieval of various citation databases, automatic removal of duplications, so as to reduce the burden of staffs and improve efficiency effectively.
Citation index;Citation Database;Integrated retrieval;Citation integration
2015-03-09
張玉,本科,館員,發表論文10余篇;通訊作者:薛曉芳。
解放軍醫學圖書館“十二五”青年專項課題“查引報告多庫結果過濾去重整合軟件的研制”(項目編號:201125007)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.07.016