林建



摘 要:本文介紹自動化查收查引系統的主要功能,以CALIS和NoteFirst系統為例對比分析自動查收查引系統的檢索功能,最后提出自助查收查引系統的改進建議。
關鍵詞:查收;查引;檢索證明;CALIS;NoteFirst
一、自動查收查引系統概述
圖書館自動查收查引系統是全流程自動化的系統,不僅實現了任務的登記、狀態的自動更新,任務的管理和統計,同時實現了用戶任務提交、收錄引用檢索、報告、委托書形成的自動化和網絡化,可大大提高工作效率,減少館員的工作量。圖書館自動查收查引系統通常由用戶查收查引系統服務器和云服務器兩部分組成。用戶在線提交任務之后,任務會自動發送到云服務器進行任務調度。本地擁有數據庫訪問權限的任務請求,發送到本地進行處理,對于本地不具有訪問權的任務,中央調度將任務發送到具有訪問權限的,并且愿意提供服務的其他機構進行處理。
我館正計劃購入查收查引自動化系統,根據購買意向,對CALIS技術中心開發的“CALIS論文收錄與引用系統”(后文簡稱CALIS)和西安知先信息技術有限公司開發的“NoteFirst論文查收查引自助服務系統”(后文簡稱NoteFirst)進行評測。前期已對上述兩個系統的管理功能進行評測并發表相關論文。本文立足華南理工大學圖書館查收查引工作的實際需要,從系統使用者的角度,運用對比分析方法,重點對這兩大查收查引系統的檢索功能進行評測,以挑選適合我館工作需要的系統,也能為其它圖書館或信息服務機構的系統購買提供一定借鑒。
二、自動查收查引系統檢索模塊對比
1.檢索需求自定義
系統檢索前要求用戶按照自動查收查引系統指定的格式提交論文清單并勾選對應的檢索數據庫。目前,查收查引服務以查證論文被SCIE、SSCI、A&HCI、EI、CPCI-S,CPCI-SSH,CSCD,CSSCI等權威數據庫收錄為主。近年部分高校也逐漸認可一些新數據庫作為評價科研能力和水平的指標之一,如SCOPUS、ESCI等。表(1)列出CALIS和NoteFirst自動查收查引系統所支持檢索的數據庫。
WOS平臺的SCIE是國際上公認的對科學技術研究成果進行評價的權威檢索系統,也是大多數高校查收查引工作的重要來源數據庫。通常委托人在開具WOS平臺論文收錄引用證明時,會要求添加期刊的分區和影響因子等數據,或證明作者的貢獻度。表1顯示了兩個查收查引系統對其它收錄引用相關數據的支持度。
查收查引工作需要從數據庫中提取的數據類型越來越多,因而自助查收查引系統需要提供各種有針對性的數據提取功能才能滿足該工作的需要。
2.期刊級別
證明論文發表期刊的級別,所用評價工具有SCI-JCR提供的影響因子和分區數據,中科院期刊分區在線平臺提供的分區數據。CALIS和NoteFirst均可按照論文發表年份或按當前提取期刊的影響因子數據。NoteFirst支持提取SCI-JCR期刊分區和中科院期刊分區兩種,CALIS目前不支持提取分區數據。
3.引用規則
CALIS和NoteFirst都完全支持三種引用規則,包括“文獻被除作者和合作者以外其他的人引用(按全部作者)”“文獻被除第一作者以外其他的人引用(按首作者)”“文獻被除檢索作者以外其他的人引用(按檢索作者)”。自動查收查引系統中的此項功能完善。檢索報告中列出的具體引用數據可由用戶自定義,通常有“全部引用”“只要他引”或選擇同時列出兩組數據。
4.作者貢獻
由于許多學術評價規則中僅認可第一作者、等同第一作者或通訊作者的論文,因而在檢索結果中需要標示出作者貢獻。系統能否標示出作者的具體排名,取決于源數據庫中是否提供該數據。WOS,EI數據庫能夠區分作者是否是第一作者或通訊作者,其他數據庫則只能區分作者是否為第一作者。如果源數據庫中不顯示通訊作者,CALIS和NoteFirst均提供人工添加功能。針對等同第一作者,目前的權威數據庫均不提供該項數據,需要從論文原文中進行查看,因而自動查收查引系統無法自動進行標記,對于需要添加這一部分信息的檢索報告,需館員確認后再進行標記。兩個系統在處理“作者貢獻”方面功能一致。
5.系統檢索功能評測
自動查收查引系統的檢索功能主要由系統后臺爬蟲自動處理,人工只需勾選所要檢索的數據庫并提交所需檢索的論文信息。自動查收查引系統主要采用清單檢索的方式,即用戶按系統指定的格式提交檢索論文的清單,系統自動根據清單進行檢索。
6.數據預處理模塊
數據預處理模塊的主要功能是識別檢索論文清單,并上傳至系統中為后續的檢索工作奠定基礎。檢索項的多少關系到文獻信息的揭示程度,也關系到系統的檢索效果,以及對檢索結果準確性的控制。較多的檢索項有利于后期的匹配,為館員提供“疑似結果”,提示人工干預,以提高準確率。但檢索項過多也存在著缺陷,一來會加重用戶填表負擔,二來匹配過多的檢索項會拖慢系統的運行速度。CALIS要求的論文清單中填寫13個檢索項,其中題名、出版時間、來源信息及責任者為必填項。NoteFirst要求論文清單中填寫9個檢索項,其中論文標題、期刊名稱、發表年度和作者為必填項。兩個系統的必填項目一致,CALIS提供更多的輔助檢索項。
自動查收查引系統從適用性和便捷性的角度出發,為用戶提供多種論文清單格式的支持。用戶提交論文信息時,可從個人成果中選擇,批量導入論文,單篇添加,或從數據庫網站導入。CALIS和NoteFirst所支持的論文清單提交格式如表(2)所示。用戶提交論文清單后,系統將自動解析論文信息。如果系統無法識別某篇論文信息,館員可以手工補充或者修正相關信息,單篇修改后再次提交系統解析。
7.論文收錄與引用檢索模塊
系統預處理模塊將文獻信息錄入完成后,館員領取任務并在系統中確認論文列表,系統開始檢索操作。任務進入檢索隊列中,按順序或優先級高低排隊等待檢索。自動查收查引系統檢索模塊的工作流程如圖(1)所示。
系統工作轉到處理后,將自動去目標數據庫中進行查收查引檢索。為保證檢索結果的準確性,系統在檢索過程設置了人工介入機制。任務館員的工作是對系統處理的結果進行確認。系統自動處理會產生三個結果:完全匹配結果、無匹配結果、疑似匹配結果。
(1)完全匹配結果。說明該數據項與論文清單數據完全匹配,此結果無需人工處理。
(2)無匹配結果。出現此結果的原因是論文的確未被目標數據庫收錄或引用,此論文無法出具檢索報告。
(3)疑似匹配結果:系統自動識別疑問文章,無需工作人員逐篇查看、核對,只需對系統提出的疑問文章進行確認即可。出現疑似匹配結果時,CALIS顯示“近似匹配”,NoteFirst顯示“疑似成果”,提示館員進行人工確認。
論文收錄檢索出現疑似匹配結果,原因是所填論文信息有誤或必填信息有遺漏。針對此問題,系統提供元數據修改功能,館員在系統中對該篇論文的元數據進行修改。修正后系統再次對該篇論文進行檢索。論文引用檢索出現疑似匹配結果,原因是不規范引用導致系統無法確定是否將該文獻列入施引文獻數據中。針對此問題,系統提供人工確認后添加、刪除的功能。館員需要對文獻的引證信息進行校對。通過點擊引用列表中的“施引文獻”查看每個引用對應的施引文獻以便進一步判斷。如果確認某條施引記錄,但是在引用檢索結果中不存在,館員人工添加引用。如果確認某條施引記錄錯誤,可將其刪除。如果是自引他引數據有誤,系統同樣提供自引他引信息的添加和刪除功能。館員根據系統中列出的論文作者信息進行人工判斷,手工增加或刪除自引他引信息。如系統再次運行后無可疑結果,館員確定結果并提交用戶查看,用戶如無異議則檢索工作完成,可為用戶出具檢索報告。
兩個查收查引系統的檢索流程基本一致,區別主要在容錯機制的設定上。CALIS支持館員查看系統的檢索策略,如對檢索結果不滿意,館員可修改檢索策略,讓系統根據館員設定的檢索式進行查詢。CALIS查收查引系統在整個檢索過程中要求更多人工介入,過多的人工介入會降低工作效率,一定程度上增加了館員的負擔,優勢是可以獲得更準確的檢索結果。NoteFirst則更智能,人工參與工作需求比CALIS要低,但檢索準確率上不如CALIS高。
8.檢索報告生成模塊
檢索報告生成模塊的主要功能是實現論文信息格式的自動化,無論是個人完成工作還是分工協作完成的檢索任務,最終都由系統完成論文信息的合并格式化。系統均提供word和PDF格式的檢索報告供選擇。檢索報告中的論文排序用戶可自行選擇,可以按用戶提交論文次序、按被引頻次升序或降序排序,也可按作者排名進行排序。
三、改進建議
通過對兩個系統功能的評測,可以看到商業化的自動查收查引系統具有較強的實用價值,能夠替代館員的大部分人工勞動,但系統仍有進一步改善的空間。
1.完善系統功能
商業化的查收查引系統的設計開發已采用當前流行的技術,但在功能設置上還不夠完善。首先,需要增加學術評價指標的支持度。各個高校或科研單位對學術評價指標的選用并不完全統一。層次較高的大學或科研單位主要認可web of science平臺和EI-Vilege平臺,同時要求檢索高熱點論文、高被引論文、TOP期刊和作者h指數及衍生指標等,而現有的自動查收查引系統并不支持。民辦高校、市縣科技局或是科技企業對科研評價指標的選用標準有所降低,CSCD、CSSCI收錄論文或是一篇普通論文即可。而一些專業性較強的高校,則認可專業性的數據庫作為評價指標,如醫學院校會將MEDLINE、PudMed等數據庫列入評價數據庫。自動查收查引系統未來應不斷增加對各類數據庫的支持度,滿足用戶多樣化的需求。 其次,增加數據挖掘服務,輔助館員完成更為宏觀深入的科研成果分析報告。學科服務是高校圖書館發展的主要方向,查收查引工作可進化為層次更深的學科評價服務。自動查收查引系統中積累大量的數據,對其進行數據挖掘和聚合,對用戶所在學科進行跟蹤和預測分析。再次,功能上應能實現自動查收查引系統與財務處或人事處、學院的科研管理系統對接,讓校內用戶實現科研經費的實時劃賬。最后,開發移動端的系統。當前移動設備已經非常普及,如查收查引系統開發出移動端,用戶可以在移動設備上提交檢索清單,查看工作進程,并進行移動支付。
2.增強系統的運行效率
由于獎項評定、課題申報、職稱評審、研究生學術論文認證等工作都具有一定的階段性,這就決定了查收查引工作時間上的集中性。雖然系統能夠替代了不少人工工作,但在申請高峰期,系統中常常有許多任務在排隊等待處理。系統應加強多任務并行工作的能力,避免高峰期用戶等待時間過長。
3.提高系統的自助完成率
由于用戶填表有誤、施引不規范、數據庫中數據標引錯誤等原因,為保證查準率,自助查收查引系統普遍提供了“人工介入”功能。在實際應用過程中,仍有不少檢索結果依賴館員判斷,嚴格來說,目前的自助查收查引系統屬于半自動化狀態。系統開發商應多收集一線查收查引館員的建議,分析系統無法識別的原因,使系統具有自學習能力,能夠自我判斷疑問檢索結果,真正實現系統的全自動運行。
參考文獻:
[1]馬芳珍.查收查引系統需求分析和設計要點探討[J].大學圖書館學報,2015(4):80-84,121
[2]覃燕梅.百度學術搜索與超星發現系統比較分析及評價[J].現代情報,2016(3):48-52,60
[3]陳月從,方燕虹,武桂芹,何瓊,田慧云.基于云平臺的論文自動查收查引移動應用系統[J].情報探索,2016(3):66-72
[4]侯瑞芳,陳嘉勇,周婕.查收查引服務優化體系的構建與思考[J].圖書館建設,2015(4):75-79
[5]馬芳珍,李峰,季梵,劉姝,王旭,劉素清.對CALIS查收查引系統的測試和應用效果評價[J].大學圖書館學報,2016(3):97-102