摘要:目的 在文獻的檢索過程中,通常使用主題詞或者自由詞等進行檢索,本節就檢索詞的有效選擇進行探討。方法 對檢索過程匯總所用到的兩種\"詞\",包括:主題詞以及自由詞兩種,的區別進行分析;針對兩種選此,利用實例法對其檢索的效果和結果進行探討,檢索在Medline和CBM數據庫中進行。結果 在Medline數據庫中,以主題詞的方式進行檢索,其文獻結果明顯的好于自由詞的檢索方式;在CBM 數據庫中,以主題詞的方式進行檢索,文獻檢索效果較好,但對于最新的文獻,自由詞的檢索方式的作用更好。結論 由于檢索系統存在的技術問題及文獻標引問題,在檢索過程中,主題詞檢索方式和自由詞檢索方式的檢索過程都有著各自的優缺點。因此,采用主題詞和自由詞聯合的方法達到最佳的檢索效果。
關鍵詞:文獻檢索;主題詞;自由詞;Medline和CBM數據庫
在信息高度發達的今天,人們可以通過信息檢索的方式來獲得所需要的資料。信息檢索在當前檢索的方式和性質來看主要課分為三類。其中,學術文獻的檢索和信息數據的檢索是檢索中最主要的兩個方面,此外還有事實的檢索。在學術文獻的檢索過程中,檢索的語言決定這檢索的過程和方法。比較常用的兩種語言檢索方式為主題詞檢索法以及自由詞檢索法。本文首先對主題詞檢索法以及自由詞檢索法進行了分析,并在此基礎上以實例對兩種方式的效果進行了探討。
1主題詞檢索方式
主題詞在文獻檢索中也被稱作敘詞和受控詞兩種,\"詞語\"在選擇時有明確的規定,以達到\"詞語\"和檢索中概念具有很好的吻合度。美國NLM制定了當前通用的主題詞表-MeSH。MeSH中的主題詞,是由NLM職員在對各種文獻進行統計分類并將其主題進行標引來制定的。主要用做對文獻進行規范話處理。MeSH在當前的醫學文獻檢索過程中是最常用的一種方式。MeSH 的這種對文獻內容進行標引和揭示的特點,應用于文獻檢索過程中,能有效的提升檢索的準確性和快速性。在文獻檢索的過程中,還有著副主題詞以及特征詞,這兩者對于文獻檢索的范圍以及準確率都有很好的幫助。比如:我們在查找\" APC和MCC的DNA缺失在胃癌臨床生物學中的作用\"時,可就下列主題詞進行文獻的搜索,包括:APC、MCC、DNA缺失、胃癌以及基因等主題詞。檢索中的特征詞可定義為人類。當然也可以就物種、雌雄、文獻性質等進行限定。特征詞和限定詞在檢索的過程中,都是對檢索的內容進行選擇和限定,已達到提升檢索的準確率的目的。
2自由詞檢索方式
自由詞檢索方式也常被稱作關鍵詞檢索法,該方式是基于電腦編制索引目的出現的。文獻檢索中的關鍵詞,通常是說那些在文獻的題目、摘要以及全文中,對文獻的內容進行概括性表達的詞語。比如:文獻\"癌DNA以及抑癌DNA在大腸癌臨床研究中的現狀和展望\"中,\"癌DNA\"、\"抑癌DNA\"、\"大腸癌\"這三個詞可以從整體上對該文獻進行詮釋,因此,能夠作為關鍵詞進行使用。而\"研究\"、\"現狀\"、\"展望\"是對該文獻的輔助性描述,無法被當做檢索入口使用,所以不能被用做關鍵詞。關鍵詞在形式上沒有特定的規范,通常出現和存在于文獻的摘要中。當前,基本上全部的期刊文獻都對文中的摘要進行了要求。所以,從這一點來看,從摘要中以關鍵詞來進行文獻的建設,其檢索的全面性比僅從主體中進行檢測要全面。此外,相比于從全文內容進行檢索的方式,關鍵詞檢索的速度較快且失誤率低。在關鍵詞檢索過程中,要注意詞及其符號間的改寫,比如:α也可被寫為Alpha。
3實例1及分析
以實例對兩種檢測方式的效果進行分析。在CBM數據庫中檢索\"手術方式臨床對原發性肝癌的價值\"。采用主題詞方式進行檢索:主題詞為肝腫瘤和外科學,檢索到文獻有8610篇;采用關鍵詞方式進行檢索:關鍵詞為原發性肝癌以及手術,共檢索到文獻3571篇。由此結果可以看到,檢索中以關鍵詞方式進行檢索,會造成大量文獻漏檢的狀況。這主要是在一些文獻中,會以\"肝癌\"或者其他概念來代替\"原發性肝癌\",這也造成了這種方式檢索的查全率較低的狀況。此外,在關鍵詞的檢索方式中,存在著一發生重大誤檢的狀況。比如上述的關鍵詞檢索就檢索到了\"藥物化療方式在臨床治療原發性肝癌的價值\"以及\"AFU 聯合AFP在原發性肝癌檢測及診斷中的價值分析\"等完全沒有任何聯系的一些文獻。
4實例2及分析
在數據庫中對課題\"HP 感染胃癌易感基因多態性檢測芯片的研發和應用\"進行檢索。該課題的研究內容主要是對IL-1B, IL-10, TNF-α等的多態性進行研究,并進行基因芯片的檢測,以此對HP感染的胃癌患者進行篩查。在檢索的過程中應從下述方式進行。
首先,以主題詞方式和關鍵詞方式在國內數據庫中進行檢索。其中,主題詞檢索方式中,主題詞為胃腫瘤;副主題詞包括:幽門菌,DNA,基因片段、生物芯片、白介素、腫瘤壞死等。關鍵詞檢索方式中,關鍵詞為:胃癌;幽門菌(Hp);基因芯片;白介素;腫瘤壞死因子。
對于國內文獻的檢索,通常是在CBM 數據庫中進行。對于\"基因芯片\"這種全新的概念,數據庫中還未進行標引。因此,在進行該類文獻的檢索過程匯總,通常僅以相近、類似或上一級的主題詞來代替進行檢索。該研究題目的檢索中,可以DNA, 互補; 基因序列以及基因表達等作為相應的主題詞進行檢索。從檢索的結果看,雖然能檢索的一些相應的關于基因芯片方面的研究文獻,但是也存在著嚴重的漏檢狀況。而采用關鍵詞的方式進行檢索,就能夠獲得較好的檢索結果。該檢索的對比結果表明,對于非前沿的研究,主題詞方式的檢索得到的文獻遠比關鍵詞式的檢索結果。但對于前沿的研究或者全新的領域,在檢索的過程中,采用關鍵詞式的檢索方式能得到較好的檢索效果。
其次,以主題詞方式和關鍵詞方式在國外數據庫中進行檢索。檢索的主題詞:explode \"stomach- neoplasms\"/all subheadings; oligonucleotide- array- sequence- analysis; tumor- necrosis -factor; interleukin- 1; interleukin- 10; Helicobacter pylori。檢索的關鍵詞:Gastric cancer; gene chip; dna array; gene polymorphish;interleukin-1B(IL-1B);interleukin-10(IL-10);tumornecrosis-factor-α(TNF-α);H·pylori(HP)。
對于外文文獻的檢索,通常是在Medline 數據庫中進行。對該課題相關內容:基因芯片進行檢索。對于主題詞檢索方式,主題詞為\"oligonucleotide- array- sequence- analysis\",經檢索共得到24713篇文獻;對于關鍵詞檢索方式,關鍵詞為genechip和dna array,經檢索共得到3691篇文獻。所以,關鍵詞的檢索方式中,文獻的概念及關鍵詞間并不是相對應的,比如檢索中的\"基因芯片\"在檢索時,gene chip和dna array都可以對其進行表示。由此,采用關鍵詞檢索方式在檢索的過程中就會發生漏檢的現象,也就無法得到全部的文獻。
5結論
綜上,在文獻的檢索中,主題詞檢索方式以及關鍵詞檢索方式是當前兩種最常用的檢索方法,兩種檢索的方法各有優缺點,在具體檢索的過程中,應依據檢索的內容和深度來確定所采用的檢索方法。并且最好選用一種檢索方式作為主要方式,一種作為輔助檢索方式。對于自己熟悉的領域以及內容,在檢索時采用主題詞檢索方式能得到較好的效果;對于研究較為前沿的文獻,或者專業詞匯不明確的,采用關鍵詞檢索方式能得到較好的效果。
當前,相比與國內的數據庫(CBM),國外數據庫(Medline) 的檢索狀況更好,文獻的主題詞具有更新迅速以及標引規范的特點。而國內的數據庫(CBM)中,主題詞的更新則不快,標引也有待提高。因此,相比于CBM,在Medline中使用主題詞方法進行檢索,能夠得到較好的檢索結果。
總之,在檢索的過程中,將兩種檢索方式進行聯合使用能得到最佳的檢索效果。
參考文獻:
[1]邢春國,于雙成.國外醫學科技論文摘要的內容形式分析[J].中國醫學文摘·外科學,2006, 25(2):190-192.
[2]霍仲厚,劉胡波.醫藥衛生科技查新教程[M].北京:軍事醫學科學出版社,2005:33-36.
[3]邢春國,徐桂香,田冬梅.醫學文獻檢索中檢索詞的選擇[J].現代情報,2007,27(1):136-137.
[4]葉晨,鄭家偉,徐菱.如何利用自由詞、主題詞進行醫學文獻檢索[J].上海口腔醫學,2005,14 (3):306-310.
[5]董建成,周曉政.醫學信息檢索教程[M].南京:東南大學出版社,2002:4-5.
編輯/哈濤