, , ,,,曉梅,
查收查引又稱為論文收錄及被引用檢索,主要通過文獻題名、作者、作者單位、期刊名稱、發表時間等檢索字段查找論文被數據庫收錄及引用情況,并依據檢索結果出具引證報告,為科研評價提供依據[1]。
作為國內科研績效評價的重要工具,該服務已成為國內高校圖書館等信息服務機構提供的基礎信息服務。據統計,96所(占81%)“211”工程大學圖書館開展了這項業務,而且業務量逐年快速增長[2]。
國內開展的引證檢索服務主要依靠手動方式完成,需要查收查引人員在多種引文數據庫中重復檢索文獻收錄和引用情況,對檢索結果進行去重去自引、轉換格式后出具檢索報告。存在多數據源檢索導致的工作量倍增[3]、錄入錯誤與格式不規范造成的查重困難、手工生成標準報告費時費力、檢索工作重復低效等問題。因此,必須利用軟件工具輔助人工完成查收查引并自動統計與整理形成引證報告[4]。
查收查引系統較早可追溯到北京大學圖書館的論文查收查引工具[3,5]。利用網頁分析技術對SCI、EI數據源進行自動網絡查詢,如中國科技大學圖書館利用Excel和EndNote Web提高論文查收查引的工作效率[6];中國科學院軟件研究所研發的“引證報告自動生成原型系統”[4,7],可對SCI數據庫統計區分自引與他引。
基于國內中文數據源查收查引的需要,解放軍醫學圖書館開發了基于Web的查收查引跨庫檢索系統。它通過頁面分析技術對CNKI、CSCD、CMCI、萬方等多個異構中文期刊引文數據庫進行檢索,功能覆蓋收錄檢索、引文檢索、生成引證報告等環節,并結合精確匹配和模糊匹配,通過Levenshtein編輯距離計算相似度對重復文獻進行查重去重。
跨庫檢索系統架構如圖1所示。三層體系結構主要由客戶端Web頁面、服務器端檢索服務總線、異構多數據源組成,通過檢索服務總線屏蔽各個異構數據源的位置、檢索服務接口等細節差異,通過客戶端Web頁面提供檢索入口和結果展示。
客戶端Web頁面是用戶進行檢索的界面和入口,用戶通過檢索界面登錄到跨庫檢索系統,輸入檢索條件如題名、作者、作者單位、刊名、年代范圍,顯示檢索結果并進行人工整理。
服務器端檢索服務總線是系統的核心,接收來自客戶端Web頁面的檢索條件,按照異構數據源的要求將檢索條件轉換成新的檢索表達式,并轉發給多個異構數據源進行檢索。獲得異構數據源返回的檢索結果后,檢索服務總線通過頁面分析提取文獻元數據,結合精確匹配和模糊匹配,檢測相似文獻進行數據分組合并或去重排序,最后將得到的檢索結果返回給客戶端Web頁面。
異構多數據源是跨庫檢索系統的基礎。異構數據源數據庫具有不同的資源覆蓋范圍,使用不同的數據格式、檢索方式。服務器端檢索服務總線通過數據源配置,從異構多數據源獲得檢索結果。

圖1查收查引跨庫檢索系統架構
查收查引跨庫檢索系統主要操作步驟如下。
查收查引工作人員在客戶端Web頁面輸入文獻題名、作者、作者單位、期刊名稱、發表時間等檢索字段,并提交檢索請求進行收錄檢索。服務器端檢索服務總線獲得Web頁面提交的檢索請求后,根據多數據源配置,將檢索請求轉換成符合各個異構數據源要求的檢索表達式,通過多線程并發檢索多個異構數據源。異構數據源根據提交的檢索表達式進行檢索,并將檢索結果返回檢索服務總線。檢索服務總線接收各異構數據源的檢索結果后,通過頁面分析提取檢索結果中的元數據,結合精確匹配與模糊匹配,將題名、第一作者、來源期刊、出版年份相同的分為一組,將檢索結果返回給客戶端Web頁面,同時顯示該文獻的來源數據庫。查收查引工作人員查看收錄檢索結果,選擇部分結果文獻,繼續提交引文檢索請求。檢索服務總線將引文檢索請求通過多線程轉發給各異構數據源,異構數據源再將引文檢索結果返回給檢索服務總線;檢索服務總線接收各異構數據源返回的引文信息,對引文檢索結果進行相似性檢測比對去重,經去重和排序后,以統一格式將結果返回客戶端Web頁面。最后查收查引工作人員由Web頁面提交請求,生成格式規范的引證報告。
系統采用.NET框架作為開發平臺,使用標準的Internet協議創建分布式Web應用,使用IIS服務器為應用提供運行環境。用戶登錄到系統后顯示的Web頁面如圖2所示。系統缺省對中國知網(CNKI)、萬方數據、中國科學引文數據庫(CSCD)、中國生物醫學期刊引文數據庫(CMCI)4個數據源進行統一檢索,用戶也可只對其中的部分進行查收查引檢索。

圖2 系統Web頁面
檢索分為以下兩個步驟。
第一步是收錄檢索。用戶登錄后,輸入檢索條件,點擊“開始檢索”向服務器發出檢索請求。檢索服務總線根據配置信息,把檢索條件轉換成對應于不同數據源的實際檢索條件,并發地向所有數據源檢索系統發出檢索請求。數據源檢索系統完成檢索任務后將檢索結果傳回檢索服務總線,然后總線從各數據源返回的檢索結果中提取元數據,按“題名+第一作者+刊名+年份”進行分組,將不同數據源的同一篇文獻分到一個文獻組內。例如,檢索廣州呼吸疾病研究所的鐘南山于2005-2015年發表在《中華醫學雜志》上的關于“慢性阻塞性肺疾病”論文收錄及被引情況。從圖3可以看出,多個數據源檢索的檢索結果被分成了多個組,每個組代表1篇文獻。

圖3收錄檢索條件與結果頁面
第二步是選擇結果文獻進行查引。勾選圖3中“文獻分組:文獻2”,選擇題名為 “簡易太極拳鍛煉對慢性阻塞性肺疾病患者運動耐力和生活質量的影響”分組中的3篇文獻,點擊“開始查引”則該篇文獻的被引情況會按“題名+第一作者+刊名+年份”去重排序后顯示(圖4)。

圖4引文檢索結果頁面
經檢索服務總線自動整合去重后,還有部分引文因存在錄入環節的格式錯誤需要人工干預對引文列表進行審查去重,最后形成圖 5所示的引證報告,用戶可直接輸出或下載。

圖5 引證報告
跨庫檢索是以多個分布式異構數據源為對象的檢索系統[8]。系統提供統一的檢索界面,用戶輸入檢索條件后,系統將用戶的檢索條件轉化為不同分布式異構數據源的檢索表達式,并發檢索多個分布式異構數據源。由于未獲得后端數據源廠商可公開訪問的API接口,跨庫檢索系統只能通過頁面分析方法對多個后端數據源進行集成檢索。頁面分析方法通過打開網絡流量分析工具,抓取http請求與響應數據進行分析比對,找到參數部分,然后將新參數封裝進http請求并發送,接收到http響應后對html頁面進行分析并提取元數據。該方法雖適用于所有的Web系統的集成,但當后端數據源頁面發生變化時應及時調整。
通過firefox插件的firebug進行網絡流量分析。首先用firefox瀏覽萬方專業檢索頁面,啟用firebug進行網絡流量監測抓取,輸入檢索表達式如“題名:(慢性阻塞性肺疾病) * 創作者:(鐘南山) * 作者單位:(廣州呼吸疾病研究所) * 期刊-刊名:(中華醫學雜志)”,點擊“檢索”,通過firebug中的網絡面板,對http請求與響應進行分析。基于網絡流量分析,檢索條件對應的萬方系統http請求詳見表1。

表1 對應的萬方系統http請求
從萬方頁面源代碼可看出,編碼使用的是UTF-8,因此中文字符還需轉換為UTF-8格式。然后發出http請求并得到http響應。接收到http響應后通過html頁面查看源代碼,查看包含的檢索結果文獻,也可利用firebug直接找到結果文獻部分。然后利用XPATH和正則表達式匹配進行頁面數據分析,找到有效信息,部分提取出檢索結果文獻的元數據包括題名、作者、刊名、年份、卷期、文獻類型、被引次數、URL地址。引文檢索可直接通過URL地址訪問結果文獻,通過頁面分析提取引證文獻元數據。3.2 相似文獻檢測
相似重復記錄的檢測與消除是跨庫檢索的重要功能,也是多數據源合并研究的熱點[9]。多數據源采集的文獻數據需要結合精確匹配和模糊匹配方法,由系統有效檢測重復文獻,自動將相似度高的文獻歸類到一個文獻組,不同的文獻歸類到不同的文獻組。相似文獻檢測算法偽代碼如下:

其中,compare ()函數用于比較兩篇文獻的相似性,相似文獻被歸于同一組。用于比較的文獻元數據從數據源的http響應中提取,包括題名、作者、刊名、年份。文獻分組與去重時,可用“年份+第一作者+刊名”進行精確匹配。文獻題名通常包含中文字符、英文字符、上下標、分隔符(空格、下劃線、中劃線)、特殊字符(拉丁字母等)、標點符號等,在錄入時容易受全角半角、錄入錯誤等影響,應先進行格式轉換預處理后采用模糊匹配,即采用Levenshtein算法計算兩個題名字符串之間的編輯距離。
引證報告是重要的檢索評價工具。通過引證報告可了解文獻的被引用情況,為科研人員客觀了解自身的學術影響力,提供公正、合理、科學、客觀的評價依據,在科研管理和科學評價方面有重要的作用。解放軍醫學圖書館在原有C/S系統基礎上[10]開發的基于Web的中文期刊查收查引跨庫檢索系統,使用戶不再需要安裝客戶端軟件,提高了軟件適應性。根據后端數據源的變化調整了頁面抓取過程。模糊匹配采用編輯距離計算相似度進行相似性文獻檢測分組與去重,輸出格式統一規范的引證報告。
系統通過跨庫檢索屏蔽異構數據源的差異,使用戶能通過統一的客戶端Web頁面同時檢索多個異構數據源,通過頁面分析方法轉換檢索表達式并發檢索后端多數據源,通過頁面元數據提取和相似文獻檢測對文獻進行分組和去重排序,自動生成統一格式的引證報告,簡化了查新查引工作人員的工作,減少了人工錯誤和重復性勞動,提高了工作效率。目前該系統已經在醫院、圖書館、研究所等多家機構推廣使用。從用戶使用效果和查收查引的發展來看,系統還有需要完善的地方,主要體現在只集成檢索了中文引文數據源,未將SCI、EI、ISTP等外文數據源集成進來,缺少區分自引他引的功能。