《赫爾辛基宣言》指出,凡涉及人類的醫藥衛生工作必須遵循科學原則,所以醫藥衛生研究必須建立在對科學文獻和其他相關信息的全面了解的基礎上。醫藥衛生文獻作為信息的一部分,具有科學性、實用性、先進性、數量龐大、文獻半衰期短等特征,是廣大醫學衛生工作者工作和學習不可缺少的資源[1]。中文文獻網絡檢索平臺是獲取中文醫藥衛生文獻的主要途徑,目前廣大醫藥衛生工作者常用的中文文獻網絡檢索平臺有中國生物醫學文獻服務平臺(以下簡稱“SinoMed”)、維普網、萬方數據知識服務平臺(以下簡稱“萬方”)、中國知網(以下簡稱“知網”)。為了方便廣大醫藥衛生工作者了解和使用上述中文文獻網絡檢索平臺,本文采用數據庫經典評價標準,通過文獻收錄范圍、著錄、標引、報道時差和檢索功能5個維度對上述中文文獻網絡檢索平臺開展深度對比分析,以便醫藥衛生工作者能夠根據上述網絡平臺的對比結果,獲得提高中文醫藥衛生文獻檢索效率的一些基本思路和方法。關于上述中文文獻網絡檢索平臺醫藥衛生期刊收錄數量的對比分析已有文獻報道[2-3],也有維普網、萬方和知網3個平臺主題檢索方面和知識發現方面的對比分析[4-5],但缺乏對上述4種中文文獻網絡檢索平臺醫藥衛生方面5個維度的對比分析。
研究對象為維普網、萬方數據知識服務平臺2.0版、中國知網KDN新版和SinoMed 3.0版,對比數據來源于2019年7月23日-31日的上述網絡文獻檢索平臺。
從文獻收錄范圍、著錄詳略程度、標引質量、報道時差和檢索功能5個維度對4個網絡檢索平臺的異同進行對比分析。
收錄范圍包括收錄年代、文獻類型、中文醫藥衛生期刊收錄的數量和摘貯率(文摘條數與本門學科實有的文獻篇數之比)等。
各網絡文獻檢索平臺收錄文獻類型見表1。

表1 4個網絡文獻檢索平臺收錄文獻類型
期刊論文是獲取醫藥衛生最新信息的主要來源,所以一個專業數據庫收錄該專業期刊的數量是評價這個數據庫質量的主要指標之一。維普網收錄中文醫藥衛生類期刊1 651種(包含科普類期刊,如《中國家庭醫生》等)[6],萬方收錄中文醫藥衛生學術期刊1 485種[7],知網收錄醫藥衛生科技期刊1 358種[8],SinoMed 3.0收錄醫藥衛生類期刊約2 000種[9]。在4個平臺中,SinoMed收錄的醫藥衛生類期刊最全[2]。
在收錄期刊內容報道方面,維普網、萬方和知網均采用從頭至尾(cover to cover)的報道方式,SinoMed則選擇論文報道方式,對各類消息、編輯部社論和廣告等不予報道。在摘貯率方面,萬方和知網因期刊獨家授權的原因,在醫藥衛生期刊報道方面都有不全面的現象。自2008年后萬方對知網獨家收錄的348種醫藥衛生科技類期刊基本不予報道,如《藥學學報》《南京醫科大學學報·自然科學版》《中華高血壓雜志》等;自2007年后知網對萬方獨家收錄的100余種中華醫學會系列期刊基本不予報道,如《中華神經科雜志》《中華預防醫學雜志》《中華心血管病雜志》等。因此,在近10余年收錄期刊的摘貯率方面,SinoMed和維普網的摘貯率要高于萬方和知網。但近年新創刊的醫藥衛生期刊(如2018年創刊的《阿爾茨海默病及相關病》)CBM沒有及時增收,而維普網、萬方和知網均有收錄報道。
數據庫著錄信息量是否豐富也是評價數據庫質量的一個重要指標。信息含量越高,就越能表現文獻的特征,越便于檢索者做出是否相關、是否適用的判斷,從而有助于篩選檢索結果。著錄的詳略程度通常有題錄、文摘和全文3個級別。
以期刊論文“外源性IL-8上調其受體表達促進宮頸癌Hela細胞增殖”為例,維普網著錄中包括英文標題、摘要、作者、機構地區、出處、基金、關鍵詞、分類號和作者簡介等項,萬方著錄中包括英文標題、摘要、中英文關鍵詞、作者、作者單位、中英文刊名、年卷期、所屬期刊欄目、分類號、基金、在線出版日期、頁數和頁碼等項。維普網和萬方對文獻著錄的詳略程度都是文摘級別。2019年5月SinoMed新增2015年以來發表文獻的通訊作者項等,進一步規范了作者、機構、期刊和基金的數據;CBM著錄中包括英文標題、作者、作者單位、摘要、出處、關鍵詞、學科分類號和基金等,CPM對科普論文信息著錄的詳略與CBM基本相同,詳略程度為文摘級別。SinoMed中PUMCD收錄的協和博碩士論文著錄中包括英文標題、研究生姓名、出版時間、授予學位單位、導師、其他導師、研究專業、關鍵詞、中英文摘要、索取號和文獻控制號等學位論文的內外部特征,詳略程度為文摘級別;萬方學位論文著錄詳略程度也是文摘級別;知網采用TPI技術,對期刊論文、學位論文和會議文獻采用全文著錄,著錄的詳細級別最高。所以,從著錄的詳略程度方面來看,維普網、萬方和SinoMed屬于一類,詳略程度都是文摘級別,檢索內容也只到文摘級;知網檢索內容深度到達全文級別,支持全文檢索。
“隨著社會對綠色環保的要求越來越高,企業和監管部門擔負的社會責任也越來越重。”農業農村部農藥檢定所季穎總以《加強農藥管理,保證農產品安全》報告為題,從權威的視角分析解讀了《農藥管理條例》最新修訂的內容,為農藥行業和企業的未來發展打開思路,指明方向。
標引質量反映了檢索系統在編制過程中分析信息內容所達到的深度,主要有是否能夠反映收錄文獻的內容特征、標引項目是否完全、標引是否符合標準化等指標。在主題標引方面,維普網、萬方和知網都是采用漢語主題詞表等詞表的標引詞表征一篇文章的主題特征,缺乏標準化的醫學主題詞表的系統性標引;SinoMed采用《醫學主題詞表(MeSH)》中譯本(CMeSH)和《中國中醫藥學主題詞表》對收錄的文獻進行深度主題標引,從而區別于其他中文文獻檢索系統。2019年5月SinoMed將CMeSH更新到2017版,同步更新收錄文獻的主題標引數據,全面整合中文DOI鏈接信息,涉及文獻570余萬篇,搭起了SinoMed文獻記錄與全文獲取之間便捷的“橋梁”。
報道時差指原始信息發布到相應索引或文摘等報道工具的時間間隔。如藥學方面核心期刊有16種,以出版周期為月刊的《藥學學報》為例,知網報道至2019年6期,由于該刊為知網獨家收錄,萬方只報道至2008年12期,維普網報道至2019年5期,SinoMed報道至2018年11期;綜合性醫藥核心期刊有31種,以出版周期為月刊的《中華心血管病雜志》為例,由于該刊為萬方獨家收錄,萬方報道至2019年5期,維普網報道至2011年12期,知網報道至2007年12期,SinoMed報道至2018年12期;臨床醫學核心期刊有23種,以出版周期為月刊的《中華護理雜志》為例,萬方和知網都報道至2019年5期,維普網報道至2019年4期,SinoMed報道至2018年12期。由此可見,SinoMed因采用《醫學主題詞表(MeSH)》(中譯本)和《中國中醫藥學主題詞表》對收錄文獻進行深度主題標引的緣故,其報道時差大于維普網、萬方和知網。現階段SinoMed報道時差一般在6~7個月。據SinoMed管理人員反映,因2019年版本升級,有13余萬條數據尚未加載,今后報道時差會縮短。筆者建議可以參考PubMed、“讀秀”學術搜索的數據收集流程,加快數據更新。另外,可以參考期刊文摘的規范化質量控制方法,加強醫藥衛生期刊作者關鍵詞規范化標引方面的培訓。目前許多醫藥衛生期刊在投稿須知中關于關鍵詞規范化標引方面,提供的指導信息和操作步驟內容陳舊且語焉不詳。《中華護理雜志》在稿約中要求作者提供3~8個關鍵詞,并且盡量使用《Index Medicus》的字順表或樹形結構表所對應的主題詞[10];《藥學學報》在“投稿須知”中要求作者提供至少5個中英文關鍵詞,關鍵詞宜選自《醫學主題詞注釋字順表》(MeSH詞表)和《中醫中藥主題詞表》[11]。《Index Medicus》早已停刊,《醫學主題詞注釋字順表》和《中醫中藥主題詞表》的版本問題也沒有明確。筆者通過互聯網查知,“丁香園”和“小木蟲”兩個論壇推薦期刊投稿作者參考美國國立醫學圖書館的MeSH在線詞表(https://meshb.nlm.nih.gov/search)標引,但中英對照的《醫學主題詞注釋字順表》則沒有最新的在線免費詞表。因此希望有關權威機構能夠在業務上給予全國醫藥衛生期刊的編輯部門具體指導,幫助醫藥衛生期刊提升作者關鍵詞標引的質量。
檢索功能包括檢索操作的簡易程度、檢索途徑的多少、檢索效率的高低,以及各種輔助檢索方法是否完善、實用,是否有檢索歷史記錄等。
上述中文文獻檢索平臺的檢索功能評價主要涉及跨庫檢索、快速檢索、高級檢索、主題詞表輔助檢索、主題與副主題擴展檢索、多維限定檢索、多維篩選過濾等文獻檢索功能。
2.5.1 跨庫檢索功能
萬方、知網和SinoMed屬于多文獻類型檢索平臺,都具備跨庫檢索功能,支持多個檢索式之間的邏輯組配查詢。
2.5.2 自動拆詞功能
萬方、知網對檢索提問有自動拆詞功能,維普網和SinoMed對檢索提問無自動拆詞功能。
上述中文醫藥衛生檢索平臺都具有快速檢索途徑。維普網、知網的快速檢索途徑不支持缺省字段檢索,需要用戶選擇字段;SinoMed快速檢索途徑的缺省字段為“常用字段”(由中文標題、摘要、關鍵詞、主題詞4個檢索項組成),集中于主題檢索,避免誤檢與漏檢;萬方快速檢索途徑缺省字段為“全字段”,如果用戶在“全字段”檢索作者會產生大量的誤檢。以作者“張明”為例,會誤檢出作者“張明月”“張明亮”等,另外有大量記錄因文摘中有“擴張明顯”片段而被檢出。檢索系統人機對話的核心是語義檢索,認識論信息由事物運動狀態及其變化方式的形式(語法信息)、含義(語義信息)和價值(語用信息)構成。語法信息可以被認識主體具體感知,語用信息可以被主體具體地體驗,而語義信息則是抽象的,只有通過可感知的語法信息和可體驗的語用信息兩者的聯合作用才能真正把握[12]。檢索詞的匹配如果僅停留在語法信息“張明”的層面,就會產生大量的誤檢。
2.5.4 高級檢索功能
維普網可提供5個檢索框,其中題名、關鍵詞和文摘字段提供同義詞擴展選擇,有模糊精確匹配選項;萬方可提供6個檢索框,提供模糊精確匹配選項和智能檢索的中英文擴展、主題詞擴展選擇;知網可提供14個檢索框,有模糊精確匹配選項,作者檢索、機構檢索及基金檢索都整合于此;SinoMed可提供9個檢索框,有視窗字段選擇,作者檢索、機構檢索及基金檢索都整合于此,便于用戶對主題、作者等檢索操作的歸類掌握。檢索時作者字段默認精確匹配,作者單位字段默認模糊匹配,構建檢索表達式實時顯示編輯窗口,每次可允許輸入多個檢索詞并支持邏輯組配與運算次序等,并且系統可將檢索詞直接發送至檢索框。對比以上各檢索平臺的高級檢索功能,以SinoMed和知網的界面操作最為方便,功能設計比較周全。
2.5.5 主題檢索功能
維普網、萬方和知網因受綜合性數據庫的人力資源等因素的限制,主題標引采用漢語主題詞表等詞表的多個標引詞表征一篇文章的主題特征,而未用醫學主題詞表標引,對醫藥衛生領域關鍵詞的等同關系、相關關系和屬分關系的規范化處理程度低[4]。以“視盤脈管炎”為例[13],SinoMed中通過主題詞字順表可知需要“視盤”和“脈管炎”組配,檢索式可智能組配相關同義詞,其檢索式為:(″視盤″[常用字段] OR ″盲點″[常用字段] OR ″視神經頭″[常用字段] OR ″視神經乳頭″[常用字段] OR ″視盤″[主題詞]) AND(″脈管炎″[常用字段] OR ″血管炎″[常用字段] OR ″血管炎″[主題詞]),檢得文獻235篇(圖1)。

圖1 SinoMed視盤脈管炎檢索結果界面
維普網主題檢索途徑有同義詞擴展功能,對“視盤”一詞提供多個同義詞選擇,而“脈管炎”一詞則沒有同義詞提示(圖2),檢索文獻結果為3篇。萬方期刊論文模糊匹配檢索式為:視盤 AND 脈管炎,檢得文獻3篇。知網期刊論文主題檢索式為:視盤 AND 脈管炎,檢得文獻4篇(圖3)。

圖2 維普網主題檢索的同義詞擴展界面

圖3 知網期刊論文主題檢索結果
當檢索提問涉及族性檢索[14]時,如“維生素B缺乏的病因學”,檢索提問為:維生素B缺乏 AND 病因學。維普網高級檢索,檢得文獻3篇;萬方期刊論文模糊匹配檢索,檢得文獻15篇;知網期刊論文主題檢索,檢得文獻1篇;SinoMed采用快速檢索和主題檢索(圖4),分別檢得期刊文獻490篇和2 307篇。由此可見,沒有采用醫學主題詞標引的維普網、萬方和知網的檢索效果與SinoMed檢索效果差距非常明顯。
維普網、萬方和知網三大中文數據庫缺乏對主題標識的等級關系控制,檢索詞的匹配僅停留在語法信息層面,無法借助概念范疇體系進行語用信息的配合,獲得語義檢索,造成大量的文獻漏檢,為了提高維普網、萬方和知網的主題檢索效果,可以參考SinoMed主題詞表中檢索詞的等同關系、屬分關系和相關關系,以等同關系方式添加到檢索式中。如主題檢索“視盤 AND 脈管炎”,可以調整為“ (視盤 OR視神經頭OR 視神經乳頭) AND (脈管炎OR 血管炎)”,維普網檢得文獻80篇,萬方檢得文獻164篇,知網檢得文獻171篇。

圖4SinoMed分別采用快速檢索和主題檢索的不同結果
為了進一步發揮SinoMed醫學主題詞表的功能,利用SinoMed主題詞表提升維普網、萬方和知網主題檢索效率,筆者結合工作經驗和上述舉例分析,提出幾點建議:《醫學主題詞表(MeSH)》(中譯本)在吸收英文主題詞等同關系的基礎上,需要增加中文主題詞等同關系的揭示,如“愛滋病”與“艾滋病”的等同關系;增加副主題詞在快速檢索中的自動擴展功能;為了方便用戶更好地把握檢索提問的語義信息,建議增加樹形結構表中主題詞注釋的中文注釋,有助于基層用戶理解檢索提問中的語法信息、語用信息和語義信息。
2.5.6 限定檢索、多維篩選過濾功能
萬方的高級檢索界面除提供題名、關鍵詞、作者和機構等記錄可選字段外,還提供文獻類型、年代限定選擇,檢索結果提供資源類型、年份、學科分類、語種、來源數據庫、作者和機構等多維篩選;維普網的高級檢索界面除提供題名、關鍵詞、作者、機構和欄目信息等記錄可選字段外,還提供時間限定、期刊范圍和學科限定選擇;知網的高級檢索界面除提供篇名、關鍵詞、全文、被引文獻等記錄可選字段外,還提供文獻分類目錄限定選擇,檢索結果提供主題、發表年度、研究層次、作者、基金等多維篩選;SinoMed高級檢索除提供中文標題、摘要、關鍵詞、主題詞、作者、作者單位、第一作者單位、通訊作者單位、刊名、基金等字段限定檢索外,還提供文獻類型、年齡組、性別、研究對象類型和其他等限定選項及文獻類型、學科、年代、作者、作者單位、主題、期刊、地區和基金等多維度篩選。對比4種網絡文獻平臺,在限定檢索方面,SinoMed的限定設置非常符合醫藥衛生檢索的需要;在檢索結果多維篩選過濾方面,知網和維普網的主題概念比SinoMed的主題概念更加具體。
2.5.7 期刊檢索功能
由于采用從頭至尾的期刊報道方式,知網的期刊導航、萬方的資源導航和維普網的期刊大全都較SinoMed的期刊檢索更加方便用戶檢索與瀏覽各類期刊。
2.5.8 引文檢索功能
由于知網是全文著錄級別,其引文檢索能力要優于其他3個文摘級著錄的檢索平臺。
2.5.9 檢索結果呈現與輸出功能
依據文獻相關特征和用戶瀏覽檢索結果的普遍需求,各檢索平臺檢索結果聚類過濾維度(機構、基金、文獻類型和期刊類型維度等)與多維篩選過濾功能基本一致,檢索結果呈現被引和下載的排序功能以知網最佳。4個文獻檢索平臺均能輸出NoteExpress、EndNote、RefWorks等文獻格式,便于導入文獻管理軟件,快速積累文獻素材。
一個檢索系統收錄信息是否全面、索引詞匯的控制程度如何、詞表結構是否完善、標引是否詳盡和專指等都是影響檢索效果的客觀因素。用戶如果能夠了解各檢索平臺的收錄范圍、著錄詳略程度、標引質量、報道時差以及與檢索功能之間的關系,就可以主動地利用文獻檢索平臺的各種功能去發現知識。其中主題詞檢索優勢在于其通過主題詞字順表和樹形結構表對語法信息和語用信息的深度揭示,達到了人機對話中對語義信息的準確把握,獲得了高效率的醫學文獻檢索結果。從世界范圍看,著名的醫藥衛生網絡檢索平臺PubMed和Embase都是采用主題詞標引實現語義檢索的。結合本文所涉及的醫藥衛生期刊關鍵詞(主題詞)標引方面的問題,進一步提升用戶對認識論信息、語義信息和醫學主題詞的理解與掌握,學會有效構建和實現檢索策略,是目前醫學信息素養教育的一項重要工作。