PubMed和Embase是生物醫學領域的兩大文獻檢索平臺,幾乎涵蓋了生物醫學及藥理學各領域的相關重要文獻,是醫學專業人員進行全面、無偏差文獻檢索使用頻率較高的數據庫。國內有學者通過調查我國干預類系統評價/Meta分析文獻檢索現狀,得出檢索頻率較高的英文數據庫依次為PubMed,Embase,Cochrane Library和Ovid[1];國外學者Golder[2]用不良反應系統評價文獻檢索進行調查,也得到了同樣的結論。
本文從檢索途徑、檢索操作過程、數據結構以及檢索效果4方面,對比分析PubMed和Embase有關循證醫學證據的查詢功能,為廣大臨床醫生和臨床試驗者提供參考。
對PubMed和Embase的比較研究,我國學者早有涉及。如通過主題詞檢索和基本檢索兩種檢索途徑,對比分析兩種數據庫的檢索效果,得出PubMed查準率更高、Embase查全率更高[3];用主題詞擴展檢索功能對兩個平臺進行選詞測試,比較分析檢索效率,從而為用戶檢索MEDLINE選取最佳檢索平臺提供依據和參考[4];對PubMed和Embase的主題標引進行對比研究,發現Emtree標引粒度更細,MeSH標引更規范[5];針對循證醫學證據的檢索,對PubMed和Embase進行分析,得出PubMed和Embase是相輔相成的,同時檢索兩個數據庫可以全面有效地獲得臨床醫學研究成果和數據,避免系統評價中的選擇偏倚[6-7]。
國外學者對PubMed和Embase的比較研究,除了極少數對書目數據庫MEDLINE/PubMed和Embase的收錄范圍和檢索途徑進行分析外[8-9],多數學者更加注重分析具體的醫學臨床問題。PubMed和Embase在醫學領域中的具體應用研究主要集中在兩個方面:一是在循證醫學方面的應用。如Qi X等通過對PubMed、Embase和Cochrane Library進行檢索,指出在循證醫學系統評價中應采用自動和手動相結合的檢索方法來查找重復項[10]。二是通過設置搜索過濾器,分析數據庫能否識別出相關醫學領域的文獻。如Hildebrand AM等[11]在PubMed、Ovid MEDLINE和Embase中設置“慢性腎病”搜索過濾器,并對其進行了驗證和分析。
綜上所述,國內學者對PubMed和Embase的研究主要集中在數據庫的收錄范圍、數據標引、專指度等方面,對檢索功能和檢索效果的對比分析也僅停留在主題檢索和基本檢索的方法上,對具體循證醫學證據的檢索功能和檢索效果的對比分析較少,且這些研究時間較早,對數據庫升級后新增加的檢索途徑及功能方面少有提及。國外學者雖偏重于具體醫學領域的試驗性研究,但是對比分析通過PubMed和Embase檢索循證醫學證據的途徑和效果較少,對數據庫所使用的醫學主題詞表的分析也比較少。
PubMed(http://www.ncbi.nlm.nih.gov/PubMed/)是美國國立醫學圖書館(National Library of Medline,NLM)建立和維護的基于Web平臺的生物醫學文獻檢索系統,使用《醫學主題詞表》(Medical Subject Headings,MeSH)作為主題標引工具。在檢索功能區,其提供的基本檢索、高級檢索以及主題檢索均可以檢索到臨床問題的相關文獻,但檢索入口不直觀,且檢索策略要不斷調整方能做到檢索結果精準而較少遺漏,操作相對復雜。隨著循證醫學的發展,PubMed也做了相應調整,如將“Randomized Controlled Trails”和“Evidence-Based Medicine”提升為主題詞,而不再歸于“Clinical Medicine”,從而能夠全面準確地反映臨床醫學研究成果和數據。在PubMed的輔助功能區,還提供了針對專門主題進行檢索的選項,如“Clinical Queries”,專門為臨床醫生和臨床試驗工作者設計的檢索服務,能夠有效地提高檢索的目的性和準確性,主要包括臨床研究分類(Clinical Study Category)、系統評價(Find Systematic Reviews)和醫學遺傳學(Medical Genetics)。其中Clinical Study Category可通過內置的“過濾器”查詢疾病的病因(etiology)、診斷(diagnosis)、治療(therapy)、預后(prognosis)以及臨床預測指南(clinical prediction guides)等5個方面的文獻,Find Systematic Reviews用于檢索系統評價(systematic reviews)、Meta分析(meta-analyses)、臨床試驗評論(reviews of clinical trials)以及循證醫學(evidence-based medicine)方面的文獻,Medical Genetics提供檢索醫學遺傳學方面的文獻[12]。PubMed還提供了Clinical Trials數據庫作為輔助工具配合PubMed查詢使用。
Embase是Elsevier推出的生物醫學和藥理學文摘數據庫,使用Emtree醫學主題詞表進行標引。Embase的生物醫學記錄與MEDLINE特有的記錄相結合,覆蓋了95個國家和地區的8 500多種期刊論文的文摘信息,尤其收錄了大量歐洲和亞洲的生物醫學和藥理學期刊。其中藥物檢索(Drug Search)、疾病檢索(Disease Search)以及設備檢索(Device Search)是Embase的特色檢索功能,直觀的檢索途徑有助于用戶更有針對性地進行醫學文獻檢索。2017年Embase對檢索途徑及功能方面做了調整和升級,新增加了循證醫學(PICO)和藥物安全警示導引(PV Wizard)兩種檢索途徑,其模塊化的檢索步驟不僅操作簡單,更為用戶檢索相關臨床文獻提供了檢索思路以及檢索策略。
雖然PubMed和Embase均支持循證醫學證據的查詢,但在功能設計、檢索途徑設置等方面還是體現出了不同思路。PubMed的檢索框架是固定的、傻瓜式的,其實質是在固定主題類目文獻檢索的基礎上通過文獻類型等過濾器而得到檢索結果;而Embase的設計思路與之不同,將臨床問題中的疾病、藥物和設備檢索單獨列出處理,還新增了針對性更強的循證醫學(PICO)和藥物安全警示導引(PV Wizard)等檢索途徑,為用戶提供了更多的選擇性,其模塊化、可視化的檢索步驟更易操作。
筆者以“成年女性如何通過HPV的檢查來預測宮頸癌”為例在PubMed和Embase數據庫中分別進行檢索,檢索日期為2019年1月20日。由于自由詞的主觀性強,且數據庫標引方式及標引時間各有不同,因此筆者通過主題詞對以上循證醫學實例進行主題檢索操作。根據PICO原則將檢索實例分解為:宮頸癌患者(指“研究人群P”,Population)、人乳頭狀瘤病毒(指“干預措施I”,Intervention)、活組織檢查(指“對照干預措施”C,Comparison)以及診斷試驗準確性(指“干預后患者的情況O”,Outcome)。在PubMed數據中選擇MeSH詞庫,將所選詞輸入即可查詢相關主題詞,本例中宮頸癌患者的主題詞為“Uterine Cervical Neoplasms”。PubMed主題檢索還為用戶提供了款目詞,如“Cervical Neoplasm,Uterine”“Cervical Neoplasms,Uterine”“Neoplasm,Uterine Cervical”等,幫助用戶更全面地檢索相關文獻。在主題檢索界面,系統還顯示與該主題詞相關的詳細信息,包括詞義注釋、可組配副主題詞以及樹形結構等,用戶可通過樹形結構圖直觀看到該主題詞的上位詞和下位詞關系。為提高檢準率,還可通過主題詞與副主題詞進行組配,進一步限定檢索文獻的指向。復述以上檢索步驟,分別將PICO選定的檢索詞輸入進行主題檢索,最后將檢索結果用邏輯“與”進行合并即完成檢索。
而改版后的Embase數據庫直接為用戶提供PICO檢索模塊,幫助用戶通過最直觀的檢索途徑進行全面的文獻檢索。打開PICO檢索界面,在Population檢索框中輸入檢索詞,本例中主題詞為“uterine cervix cancer”,與PubMed中的主題詞不一致。Embase會自動為該主題詞添加同義詞,如該主題詞有18個同義詞,包括“cancer”“uterine cervix”“cervical cancer”“cervix cancer”以及“cervix cancer”“recurrent”等,這些同義詞可以根據具體的檢索需要進行手動添加和刪除。而后依次在Intervention、Comparison和Outcome的檢索框中輸入相應的主題詞,同時選擇添加和刪除系統自動匹配的同義詞,一鍵式進行檢索。
就循證醫學證據的檢索過程而言,Embase具有明顯優勢。其提供的PICO、PV等檢索途徑在循證醫學檢索過程中能更好地匹配用戶的需求,模塊化的檢索步驟方便用戶更直觀地開展文獻檢索,自動匹配與該主題詞相關的同義詞有助于提高文獻的查全率,檢索操作流程方面更為合理。PICO檢索途徑的潛在功能是為用戶提供恰當的檢索式,當用戶不能準確地按照PICO原則分析臨床課題時,則模塊化檢索后在檢索結果界面的檢索歷史(History)中篩選并調整檢索式。而用戶在PubMed中進行循證醫學證據主題檢索時,操作簡單快捷,但靈活調整以適應不同需求的操作空間很小。
PubMed所用的MeSH詞表最早可追溯至1940年《醫學索引》的季度累積主題索引,1960年隨著《醫學索引》新專輯的出版,《醫學主題詞表》首版正式發行,當時共收錄4 400個主題詞[13]。Embase使用詞表為Emtree,創建于1988年,其前身為MALIMET(Master List of Medical Indexing Terms),在規范控制方面借鑒了MeSH的樹狀層級結構[14]。所以二者有共同之處,但區別也很明顯,其最大的不同是專指度有差異。專指度是指主題詞與文獻主題概念的切合程度,揭示主題詞在表達文獻主題的深度和精度方面的能力[15]。醫學主題詞表的專指度對查準率有直接影響,詞表的主題詞數量則直接決定專指度,主題詞越多表明詞表的專指度越高。MeSH收錄的主題詞數量大約為29 000個,而Emtree收錄的主題詞數量超過82 000個,約是MeSH的2.8倍,且Emtree覆蓋所有MeSH詞匯[16],還有部分詞匯作為同義詞處理,所以Emtree的專指度更高,在檢索過程中能獲得更高的查準率。
副主題詞作為進一步限定主題某方面的詞匯,其數量遠沒有主題詞的數量多,如PubMed中有80個副主題詞,Embase中有82個副主題詞,二者在副主題詞的數量上大致相當。但不同的是,在PubMed中,各類主題詞均有可與之匹配的若干副主題詞;而在Embase中僅有藥物、疾病和設備類主題詞才搭配副主題詞,如在82個副主題詞中疾病類副主題詞有14個,藥物類副主題詞有64個,設備類副主題詞僅有4個。值得一提的是,藥物類副主題詞包括了17個核心藥物關聯詞和47個給藥途徑關聯詞,其中22個給藥途徑關聯詞是Emtree詞表獨有的,加強了檢索的深度[17]。
MeSH詞表由主題詞(即敘詞,Descriptors)、副主題詞(即限定詞,Qualifiers)以及增補概念(Supplementary Concept Records,簡稱SCRs)3類記錄構成。Emtree在詞表構成上與MeSH相似,包括主題詞(即優先詞,Preferred Terms)、副主題詞(Subheadings)以及候選詞(Candidate)3類術語。當標引人員不能找到合適的主題詞標引文獻時,如罕見疾病等,則將其作為增補概念/候選詞添加到MeSH/Emtree詞表中作為補充。此外,二者在副主題詞標引方面具有明顯差異,PubMed采用先組式標引方法,而Embase采用浮動或是自由浮動副主題詞的標引方法。由于副主題詞的獨立標注,使得Embase的數據結構更有利于循證醫學證據的檢索實現,但須注意Embase的后組式主題標引方法會產生不同程度的檢索噪音。
在PubMed和Embase數據庫中分別對實例“成年女性如何通過HPV的檢查來預測宮頸癌”進行檢索,發現同一檢索詞在兩個數據庫中對應的主題詞不完全一致,系統自動給出的與主題詞相關的同義詞數量也有較明顯差距,檢索結果數量以及更多字段信息都存在差異(表1)。

表1 PubMed和Embase檢索結果及字段信息顯示
從表1可以看出,從Embase數據庫檢索得到該實際臨床問題的文獻260篇,而從PubMed中檢出的文獻數量則相對較少。究其原因,首先是收錄范圍不同。兩個數據庫雖然都側重生物醫學領域,但Embase對疾病和藥物信息的覆蓋率更全面,且收錄了大量歐洲和亞洲的生物醫學及藥學期刊。其次是標引方式不同。二者的核心檢索途徑都是主題詞檢索,PubMed采用先組式標引方式,主題詞與副主題詞之間具有較緊密的邏輯關系,而Embase采用自由浮動副主題詞的方式進行主題標引。最后是同一臨床醫學領域的專業術語在兩個數據庫中的地位有所差異。由于Emtree覆蓋了所有的MeSH詞匯,因此在PubMed數據庫使用的主題詞,在Embase數據庫中有可能被當做入口詞使用。
對于檢索結果的顯示,兩個數據庫各有側重。PubMed檢索結果缺省顯示方式為Summary格式,包括文獻標題、作者、出處以及PMID號。此外,還提供了MeSH database,Journal database,Single citation matcher,Clinical queries,Topic-specific queries等滿足用戶特殊需求的檢索服務鏈接。Embase數據庫中,對于一條特定的檢索結果,系統會給出該條記錄的文摘信息、藥物、疾病和其他類主題詞以及通信作者地址信息等。兩個數據庫均對主題詞進行了標引,但Embase特別強調了主要主題詞(Major Focus)、檢索詞以及主要副主題詞。其中主要主題詞以加粗加黑的字體顯示,主要副主題詞可以繼續查看與其相關的術語列表或其他副主題詞列表。對這些詞語的標引,不但能夠幫助用戶快速準確地了解文獻所涉及的主要內容,更可以作為入口詞更精確地檢索該臨床問題的某一方面或是幾個方面的相關文獻,提高相關性。
PubMed和Embase對循證醫學證據相關文獻的查詢各有特點。從檢索途徑上看,Embase提供更多可視化和模塊化的檢索,PubMed雖有專門針對臨床問題的檢索途徑,但界面不直觀,易用性不高;從檢索過程看,Embase數據庫中關于藥物、疾病、設備以及循證醫學的檢索途徑都是一鍵式檢索,可隨時調整檢索策略,可以說,在循證醫學的原始研究證據的檢索支持方面,Embase做得更好;從其數據結構上分析,二者所用詞表均是層級結構,但Emtree體量更大,PubMed標引更規范;從檢索結果看,Embase的標引粒度更細,專指度更高,提供的入口詞更多。因此,PubMed和Embase檢索各有優勢,建議廣大臨床醫生和臨床試驗者在進行循證醫學證據檢索時,同時檢索這兩個數據庫,以保證信息的完整性。