石蕾
〔摘要〕采用4種檢索方式(無過濾布爾邏輯、過濾布爾邏輯、無過濾自然語言和過濾自然語言)對7個常見數據庫ASP、GS、JSTOR、LexisNexis、ProQuest Central、PubMed、Scopus和Web of Science檢索測試,最后分析了在目前技術環境下,布爾邏輯和自然語言檢索相比,哪種方式更加有效。
〔關鍵詞〕布爾邏輯檢索;自然語言檢索;過濾
DOI:10.3969/j.issn.1008-0821.2018.09.011
〔中圖分類號〕G2549〔文獻標識碼〕A〔文章編號〕1008-0821(2018)09-0070-04
A Comparative Study of Boolean Logic Retrieval and
Natural Language RetrievalShi Lei
(Library,Xian Jiaotong University,Xian 710049,China)
〔Abstract〕Four retrieval methods(without filtering Boolean logic,filtering Boolean logic,filtering natural language and filtering natural language)were used to test seven common databases ASP,GS,JSTOR,LexisNexis,ProQuest Central,PubMed,Scopus,and Web of.Finally,it analyzed that in the current technology environment,Boolean logic and natural language search were more effective than those in natural language retrieval.
〔Key words〕Boolean retrieval;natural language retrieval;filter
2000年,ACRL發布了《ACRL高等教育信息素養能力標準》,其中指出學生使用布爾操作符是信息素養能力的一個關鍵績效指標[1],在過去15年時間里,這項標準對信息素養教育產生了深遠的影響,館員在信息素養教育中把布爾邏輯檢索作為一個非常重要的知識模塊。2016年ACRL發布了《高等教育信息素養框架》。在這個框架中沒有涉及2000年標準中的布爾邏輯檢索,僅僅提到控制詞、關鍵詞和自然語言。框架降低了布爾邏輯的重要性,強調更為廣泛的檢索策略,而不是狹義地布爾運算。標準更多地強調固定檢索模型(如布爾邏輯),框架允許圖書館員采用概念方法教授檢索策略[2-3]。自從2000年ACRL發布標準后,檢索算法發生了翻天覆地的變化,這些系統提供給用戶更加方便的自然語言檢索。在這些檢索系統中,布爾邏輯檢索和自然語言檢索哪種效果更好,目前還沒有這方面相關研究。如果自然語言檢索能夠完全滿足檢索要求,圖書館員在信息素養教學過程中就可以把布爾邏輯檢索占用的大量時間節約下來,轉而講解其他更重要的知識模塊(如問題進展、信息源評價等),另外布爾邏輯檢索也不符合新的框架,更多的是概念化方法和非常低的可操作性。本文擬對比自然語言和布爾邏輯在7個主流數據庫中的檢索效果。
1布爾邏輯檢索面臨的問題
11檢索接口的變化
布爾邏輯檢索步驟為,首先將研究主題分解為幾個主要概念,一般為3個或更多,例如A、B、C,然后確定每一個主題概念的同義詞(A1、A2、A3;B1、B2、B3;C1、C2、C3),再用布爾邏輯符號組成檢索式(A1 OR A2 OR A3)AND(B1 OR B2 OR B3)AND(C1 OR C2 OR C3)。2010年前,大部分數據庫都符合這種檢索模式,如Ebscohost、JSTOR、Engineering Village、ProQuest平臺等。到了2014年,許多數據庫檢索接口發生了很大變化,默認搜索僅僅為一個盒子(因為用戶更喜歡類似于google一樣的單盒搜索),如果點擊“Add Field”會回到從前的檢索接口[4],Scopus和Web of Science等數據庫都采用了這種樣式。
12檢索方式的改變
原有數據庫檢索主要有以下特點:1)元數據(包括主題詞)+摘要,不包括全文;2)精確檢索,輸入的內容就是要檢索的內容;3)低水平聚合,沒有超過一百萬條條目以上的數據庫。在這種環境下,由于僅匹配元數據,檢索只返回少量的結果,有些情況下甚至檢索結果為零。如果檢索“Youth”,如果作者剛好在標題和摘要中使用“Teenager”,檢索結果將不包括這個結果。也沒有自動包含單詞的變體(包括英式或美式拼寫),為了保證查全率用戶必須盡可能包含檢索詞的所有變體,如復數、名詞、形容詞等形式。還有像Dialog按照檢索次數或時間收費的系統,構建精確的搜索語句以執行高效的檢索式非常必要。
現在的檢索環境發生了很大的變化,出現大量全文數據庫,搜索全文數據庫和索引數據庫存在很大的差距,如一個論文討論“Teenagers”,論文或書的全文中可能出現“Teenager”、“Youth”、“Adolescence”等同義詞,這種情況下不必要構造含有同義詞的檢索策略。更為重要的是受Google的影響,越來越多的數據庫提供更多的智能,自動詞根、增加相關同義詞,因此現實情況中不需要增加關鍵詞的變體,如“Color”和“Colour”或者任何關鍵詞的復數形式。即使做一個最基本的檢索“A AND B AND C”,由于自動詞根、全文匹配,仍能夠得到合理的召回率。
類似于Google Scholar現代搜索工具具有三大特征:全文搜索、高度聚合、自動詞根。
在這種環境下,使用復雜的邏輯嵌套、錯誤的選擇同義詞、過度使用截詞符會使檢索結果變得更差[5]。使用合適的關鍵詞是保證檢索敏感度和精確度的關鍵,如用邏輯OR連接某個藥物的名稱列表,但許多研究人員開始并不熟悉該領域的關鍵詞列表,如果告訴他們列出關鍵詞列表時,他們可能會過度延伸使用關鍵詞,從而使檢索結果變得更加糟糕。如(A1 OR A2 OR A3)AND(B1 OR B2 OR B3)AND(C1 OR C2 OR C3),可能A3、B3、C3不是確切的,而僅僅是為了防止萬一的情況。另外為了使檢索詞更全面匹配而過多地使用截詞符,從而導致匹配錯誤的檢索詞。A3、B3、C3在特定的上下文環境中是合適的,但在不同學科表達的意思完全不同,如“Migration”在醫學學科通常表示“腫瘤的轉移”,在社會科學中表示“移民”的意思。現在許多檢索系統與典型數據庫不同,如Summon、GS沒有學科限制。由于資源發現系統有非常大的索引系統,A3 AND B3 AND C3很可能匹配到大量不相關記錄。即使A3 AND B3 AND C3是非常合理的關鍵詞組配方式,但3個關鍵詞在全文中匹配也可能帶來不相關的結果。當檢索系統有自動詞根匹配時,問題會變得更加嚴重。
14邏輯檢索在不同檢索平臺檢索測試
為了測試邏輯檢索在不同檢索系統中的檢索效果,選擇了西安交大EDS、MIT EDS、GS、Scopus、PubMed,這5個數據庫包括了發現系統、學術搜索引擎和傳統索引數據。EDS發現系統提供了4種檢索模式,相關詞+全文范圍檢索、僅全文檢索、僅相關詞檢索和關閉相關詞和全文檢索[6],其中第4種方式和傳統的索引數據庫檢索模式相同。檢索式選擇要求查全率非常高的系統評價檢索式,第1個檢索式包含各關鍵詞的同義詞“Depression Treatment Placebo AND(Antidepressant OR“Monoamine Oxidase Inhibitors”OR“Selective Serotonin Reuptake Inhibitors”OR“Tricyclic Drugs”) (“General Practice”OR“Primary Care”)AND(Randomized OR Randomised OR Random OR Trial)”;第2個檢索式不包括關鍵詞的同義詞,“Depression Treatment Placebo AND Antidepressant AND General Practice AND Randomized”。
從表中的結果可以看到,選擇關鍵詞的同義詞和相關詞用OR邏輯組配檢索對發現服務和GS影響很小,兩者的檢索結果基本相同。同義詞、相關詞布爾邏輯檢索對GS沒有作用。運用同義詞、相關詞后Scopus增加了4條記錄,PubMed增加了20條記錄,表明同義詞和相關詞OR邏輯組配方式對傳統索引數據庫的影響也越來越小。
2布爾邏輯檢索和自然語言檢索測試
自然語言檢索指的是使用短語或句子檢索,布爾邏輯檢索是指使用AND/OR/NOT構造的檢索式。通過對常用的7個數據庫進行布爾邏輯和自然語言檢索測試,分析兩種檢索方式在當前檢索環境下的差異。
21數據庫和檢索主題
為了保證研究問題的多樣性,在設計問題時盡可能覆蓋更多學科,本文設計的檢索主題如表3。在數據庫方面選擇常用的7個數據庫,ASP、GS、JSTOR、LexisNexis、ProQuest Central、PubMed、Scopus、Web of Science。每個數據庫采用4種檢索方式,無過濾布爾邏輯、過濾布爾邏輯、無過濾自然語言和過濾自然語言。ASP過濾采用限制學術/同行評審、GS使用The Closest Equivalent When Available、JSTOR使用“Article”過濾、LexisNexis使用“Law Reviews”過濾、ProQuest Central采用“Peer Reviewed”、 PubMed采用“Journal Article”、Scopus和Web of Science采用“Article”。根據檢索主題選擇相應的數據庫。
22方法
將每次檢索前25個結果導入Endnote文獻管理軟件,根據評分標準為每條記錄打分,記錄過濾和沒有過濾記錄的重疊數量,采用快速瀏覽標題和摘要評價每條記錄得分,評分原則采用表的0~3分原則,每個分數的具體描述見表4。
23結果
每種檢索方式都返回大量的檢索結果。除了JSTOR和LexisNexis數據庫,其他數據庫自然語言檢索比相應的布爾邏輯檢索返回的結果少(如無過濾自然語言和無過濾布爾邏輯),JSTOR和LexisNexis得到相反的結果(表5)。
231不同數據庫檢索結果相關度
4種檢索的平均得分198~208(最高為3),穩定在2相關。最高平均分208是無過濾自然語言,最低平均分198為過濾布爾邏輯。如果只看第一頁的檢索結果,范圍上升到203~211,無過濾自然語言再次得到最高分(第1頁的結果數量根據不同數據庫從10~50范圍),說明第1頁的結果比全部25個相關結果稍微多一些。也間接說明數據庫內部相關算法獲得相關結果優于布爾邏輯檢索(圖1)。
為了更深入理解檢索結果的相關性,將檢索結果的第1頁分成3部分,得分結果隨著頁面下降逐漸降低。
結果(1~8)最相關,后2/3結果稍微下降。整體來說,ASP在所有搜索中最好,平均分數256,GS分數25第二,這兩個數據接近非常相關(3分)。最低的是ProQuest Central(125),LexisNexis(139),這兩個數據庫接近不圖1檢索結果平均分
相關(1分)。中間部分2分(相關)包括JSTOR(234)、Web of Science(218)、Scopus(212)、PubMed(194)。同一數據庫中4種檢索方式的一致性方面,ASP和GS最好,ProQuest Central相關度分數差異最大,無過濾布爾邏輯192分,過濾自然語言052分。綜合數據庫ASP、GS得分超過ProQuest Central。單因素相關分析同一個數據庫不同主題檢索得分之間沒有明顯差異性。
由于不同數據庫每頁顯示記錄數不同(ASP=50、JSTOR、LexisNexis=25、ProQuest Central、PubMed、Scopus=20;GS、Web of Science=10),當只計算第一頁的平均分時,大多數數據庫平均分數都有所提高,其中GS增加最多,從25增加到27,PubMed是唯一平均分降低的數據庫,從194降到191。單因素回歸分析不同主題間無明顯差異。
232不同檢索方法檢索結果重疊度
每個數據庫不同檢索方法的檢索結果的重疊百分比,過濾和無過濾重疊百分比表示不同檢索方法獲得的結果之間的差異程度,也能夠反映數據庫內容的穩定性。重疊百分比低表示檢索結果差異較大,用戶能夠使用兩種檢索方法得到更多的結果。ASP重疊率為12%,所以用戶同時利用布爾邏輯和自然語言檢索能夠得到更多相關結果。所以如果重疊率較低,建議研究人員應該做布爾邏輯和自然語言兩種檢索,以增加查全率。對比無過濾自然語言和無過濾布爾邏輯最相關重疊記錄(3分),大多數數據庫重疊率超過50%,ASP達到90%,這表明無論哪種檢索類型(自然語言和布爾邏輯)最相關結果之間沒有差異。也就是說對于只想獲得最相關結果的研究人員,不需要構造復雜的布爾邏輯檢索。
通過對比過濾和無過濾檢索結果,評價過濾檢索的有效性。重合百分比高表示過濾和無過濾之間差異性較小,重疊百分比低意味著過濾器產生更多獨特的相關結果,7個數據庫中GS沒有論文相應的過濾器,所以過濾結果和未過濾結果相同。PubMed、Scopus和Web of Science有非常高的重疊百分比,表明過濾器對結果影響非常小。在ProQuest Central和ASP中采用過濾器效果非常明顯,過濾器在JSTOR和LexisNexis Academic中也有一些效果,在ASP中,過濾布爾邏輯比過濾自然語言效果更明顯。
233不同檢索方法檢索精確度
精確度是指相關(2分)或非常相關的論文(3分)與整個論文數量(n=25)的比值。無過濾布爾邏輯和無過濾自然語言結果相似。3個數據庫自然語言檢索比布爾邏輯精確度高,另外3個數據庫中布爾邏輯比自然語言精確度,而PubMed兩個檢索樣式精確度相等。從以上分析可以認為采用4中檢索方式的任何一種都能獲得非常相關的記錄結果。
3結論
本文測試的7個數據庫中,布爾邏輯和自然語言檢索結果高度相關,同一個數據庫兩種類型檢索精確度高度相似(除了ProQuest Central)。ASP和GS兩種檢索相似度最高,平均相關度和精確度在ProQuest Central數據庫中的變化說明在這個數據庫中布爾邏輯優于自然語言檢索,其他數據庫中布爾邏輯檢索和自然語言檢索無論是相關度和精確度沒有明顯差異。
同一個數據庫布爾邏輯和自然語言得到不同的檢索結果。在每個數據庫的前25個檢索結果中,不論結果相關度如何,如果布爾邏輯和自然語言檢索重疊結果非常低。即使平均相關度非常接近,布爾邏輯和自然語言存在較大的差異。GS、Scopus和Web of Science分別用布爾邏輯和自然語言檢索能夠得到更多相關結果,ASP、ProQuest Central和PubMed兩種檢索方法得到的相關檢索結果相同。
使用過濾器后,PubMed、Scopus和Web of Science檢索結果重疊度達到95%以上,所以過濾器對這3個數據庫基本沒有影響。JSTOR和LexisNexis Academic中過濾器有一些影響,在ProQuest Central和ASP中,過濾器對布爾邏輯檢索影響非常高。ASP數據庫中,4種檢索類型檢索結果重疊度都非常高,所以在ASP中可以使用任何一種檢索方式得到相關檢索結果。
自然語言比布爾邏輯檢索有明顯的優勢,圖書館館員在信息素養教育過程中應該把大量時間留給信息素養概念,如主題和問題的發展(搜索術語)和資源評價等內容,這部分也正是學生難掌握的。圖書館員應該聚焦更為復雜的問題,如選擇檢索詞的思考過程而不是使用錯綜復雜的方法將他們連接起來。但對于高水平學術或更復雜的研究需求,例如文獻綜述時需要高的敏感度(檢索到所有可能的相關論文),或者一些特殊的學科如商業需要考慮許多相互關聯因素(工業、股東、NAICS Code)等情況下,布爾邏輯檢索還是一個非常重要的檢索方式。
參考文獻
[1]陸光華.對美國高等教育信息素養能力五大標準的分析與思考[J].圖書館學研究,2003,(4):86-89.
[2]韓麗風,王茜,李津,等.高等教育信息素養框架[J].大學圖書館學報,2015,(6):118-126.
[3]秦小燕.美國高校信息素養標準的改進與啟示——ACRL《高等教育信息素養框架》解讀[J].圖書情報工作,2015,(19):139-144.
[4]翟中會.資源發現系統存在的問題及其對策[J].圖書館建設,2015,(3):63-66.
[5]翟中會.Google與Google學術及圖書館傳統數據庫差異性研究[J].圖書館工作與研究,2015,(12):31-33.
[6]鄭雯.國外發現系統分面過濾功能比較——EDS、Summon、Primo[J].大學圖書情報學刊,2016,(1):26-30.
(責任編輯:陳媛)2018年9月第38卷第9期現代情報Journal of Modern InformationSep.,2018Vol38No92018年9月第38卷第9期農村民間圖書館眾籌項目社交媒體應用對其成功的影響Sep.,2018Vol38No9
收稿日期:2018-04-16