姚克宇,陳超,朱蘭,朱彥,楊坤杰,劉麗紅*
·信息技術與中醫藥·
數據庫技術輔助的文獻檢索與篩選方案研究
姚克宇1,陳超1,朱蘭2,朱彥1,楊坤杰1,劉麗紅1*
1.中國中醫科學院中醫藥信息研究所,北京 100700;2.國家藥品監督管理局藥品評價中心,北京 100037
為解決目前文獻檢索與篩選中存在的問題,提出一種基于數據庫技術的文獻檢索與篩選方案。以“中藥引起的藥物性肝損傷”文獻檢索與篩選為例,利用Access數據庫結構化查詢語言(SQL)的查詢視圖功能,通過關鍵詞查詢文獻標題,按照不同層次、主題以及步驟,逐層遞進篩選文獻。人工復核篩選結果,同時完成關鍵詞迭代,獲得最終篩選結果。與傳統基于關鍵詞的文獻檢索和篩選相比,基于數據庫技術的文獻檢索與篩選方案擴大了檢索范圍,提高了文獻檢索的查全率,關鍵詞迭代完善了關鍵詞表,借助Access數據庫查詢視圖功能提高了文獻篩選的效率、靈活性和準確度,減少了研究人員的工作量。應用數據庫技術輔助的文獻檢索與篩選方案可以更加全面、準確、靈活、高效、便捷地篩選文獻。
數據庫技術;文獻檢索;文獻篩選
文獻檢索與篩選是科學研究過程中必不可少的一項基礎性工作,是研究結果可靠性的基本保障之一。以不良反應領域研究為例,不良反應檢測、分析、報告等是該領域主要研究內容之一[1],文獻檢索與篩選是研究不良反應報告文獻質量、要素、問題、規范等的基礎[2-5]。檢索獲得的“軼事報告(anecdotal reporting)可作為自發報告的補充”,同時還可以“提高不良反應報告的規范等級”[6]。學術文獻作為高質量的藥品不良反應信息來源之一,也是持有人藥品不良反應報告的重要來源[5]。2018年,國家藥品監督管理局發布《個例藥品不良反應收集和報告指導原則》,明確要求“持有人應定期對文獻進行檢索”,“首次上市或首次進口五年內的新藥,文獻檢索至少每兩周進行一次”[7],以保證獲得全面、準確的個例不良反應文獻。
傳統的基于關鍵詞的文獻檢索和篩選,盡管可以獲得準確信息,但仍存在一些問題:第一,各主題因素的標引或組配的結果所表達的概念,與文獻的實際內容有一定的差異,從而在文獻檢索時造成誤檢或漏檢,形成標引誤差[8],導致檢索詞往往無法全面涵蓋目標文獻;第二,文獻篩選占用大量的人力,效率不高。
數據庫作為信息系統的一個核心組成部分,能高效實現數據的獲取、組織、存儲和處理,已成為醫藥信息化不可或缺的基礎工具[9]。數據庫中的表用來存儲數據,而視圖則是基于一個或幾個基本表(或視圖)使用結構化查詢語言(Structured Query Language,SQL)定義的虛擬表,具有簡化用戶理解和操作、保證數據安全等優點。針對藥物不良反應文獻篩選的實際需要,合理地使用視圖等功能,能實現對大量不良反應文獻數據進行快速、有效地篩選、組合查詢等功能。
基于此,本文提出一種結合Access數據庫的SQL視圖功能的文獻檢索與篩選方案,其優勢在于:⑴提高了文獻的查全率。通過關鍵詞迭代,包容了標引誤差;減少人為文獻篩選工作量,可以制定涵蓋更大檢索范圍的檢索策略。⑵提高了文獻篩選的效率。數據庫查詢代替了部分人工篩選,加快了篩選進度;當篩選過程出現錯誤時,可以隨時溯源并快速糾正篩選結果。研制本方案的目的是為研究人員提供高效、可擴展的文獻檢索和篩選方法,使其更高效、快速地查找文獻信息。
基于SQL查詢視圖功能,設計中藥不良反應個例報道文獻檢索篩選方案,可以代替部分重復的人工閱讀標題、摘要、全文的過程性工作,并為擴大檢索范圍、提高文獻檢出率提供了可能。根據現有研究,不良反應報告類文獻多以散發的個案報道發表,一般病例數在10例以下,因此文獻檢索主要以病例數小于10例的臨床個案報道為主。該方案將不良反應個案報道文獻檢索篩選的復雜過程按目的和主題抽象為若干步驟,并制定出相應的關鍵詞表,再基于SQL語法建立查詢視圖,最后對篩選結果進行人工復核審查。概括為四步:⑴確定篩選層次。根據研究目的,按照邏輯關系確定篩選層次。⑵制定關鍵詞表。確定每個篩選層次的關鍵詞,制定關鍵詞表。⑶SQL篩選。通過SQL查詢視圖功能,實現對文獻按步驟的篩選。⑷人工復核。人工復核篩選結果,同時修正關鍵詞,修正結果;確定納入文獻。人工復核過程也是關鍵詞迭代的過程,可以逐步地修正完善篩選結果。
基于Access數據庫技術檢索流程與常規檢索流程對比見圖1。
不良反應個案報道文獻包含了不良反應、個案報道2個要素,按照要素進行篩選層次細化。不良反應要素可以遵循因果邏輯,細化為由哪類或哪種藥品導致的什么不良反應,即藥品和不良反應2個層次。例如,中藥引起的肝損傷案例中,不良反應要素的篩選層次為中藥及肝損傷。個案報道要素可以細化為個案和報道2個層次,其中個案需要明確納入文獻中病例數的范圍。根據細化篩選層次,制定相應的關鍵詞表。
根據篩選層次制定相應的關鍵詞表。關鍵詞表是結果準確的重要保障。一般情況下,關鍵詞主要有術語集或詞典等官方表述、檢索關鍵詞和檢索文獻3個主要來源,其中文獻也是關鍵詞迭代的源頭。

圖1 2種文獻篩選方式的流程對比
如圖1所示,制定好相應的關鍵詞表后,對導入Access數據庫中的文獻標題進行SQL自動篩查。通過篩選題目中是否包含相應的關鍵詞,研究人員按照順序層層篩選文獻。基于對應關鍵詞表的篩選,研究人員可以按照自己的邏輯分步驟完成,使篩選的過程更加明晰。通過具體、明確的篩選詞和邏輯關系,在出現錯誤或遺漏時可以快速溯源,消除錯誤,完善結果。其中,主題篩選可以依據具體情況進行擴展,仍以中藥引起的肝損傷文獻為例,需要進行中藥和肝損傷2個主題的篩選。這意味著,該方案不僅可以應對主題相對復雜的文獻篩選,還可以隨時修正結果。
復核主題篩選后擬納入的文獻,對于不符合納入標準的文獻強制排除;復核主題篩選后排除的文獻,有些目標文獻因題目等未包含篩選關鍵詞而被遺漏,需要人工復核后強制納入。人工復核保證了篩選結果的準確性。
關鍵詞表的更新是一個與人工復核互動的過程,二者同時進行。復核文獻過程中,當發現強制納入或排除文獻時,分析其是否包含了新的關鍵詞,以便對關鍵詞表進行補充。一些有代表性的關鍵詞,可以一次篩選出較多的文獻,從而減少人工復核文獻數量,使用者可以根據自身經驗判斷是否更新篩選結果,也可以每次發現新的關鍵詞后都進行查詢。
雖然這一工作量仍然較大,但是由于這些關鍵詞表可以應用到后續相似或相關主題的文獻篩選中,從長遠發展角度,能夠為科研人員或團隊的文獻檢索和篩選帶來便利,減少工作量。
以“中藥引起的藥物性肝損傷”相關文獻的檢索與篩選為例,對本方案進行詳細說明。
2.1.1 納排標準 中藥是指在中醫藥理論和臨床經驗指導下用于防治和醫療保健的藥物,包括中藥材、飲片、中藥配方顆粒和中成藥[10]。因此,本研究中的中藥包括中藥材、飲片、中藥配方顆粒、中成藥、民族藥等各種類型以及中藥提取物等。
納入標準:由中藥單獨引起或與其他藥聯合應用(懷疑用藥包括中藥)引起的肝損傷個案報道期刊文獻。
排除標準:由西藥、保健品等非中藥引起的肝損傷個案報道,文獻綜述、文摘、科普文獻等。
2.1.2 文獻來源 檢索中國生物醫學文獻數據庫(CBM)、中國學術期刊數據庫(萬方數據)、中國知識資源總庫(CNKI)發表的“中藥引起的藥物性肝損傷”期刊文獻。檢索時限均從建庫至2021年5月。
2.1.3 檢索策略 CBM數據庫作為專業的生物醫學數據庫,與中文科技期刊數據庫(維普)、萬方數據和CNKI比較,其收錄醫學類期刊更全、標引質量更高[11-12],所以,在檢索CBM時未對學科進行限制。
檢索CNKI時,學科勾選中醫、中藥、中西醫結合;檢索萬方數據時,學科勾選中國醫學。
以CBM為例,檢索表達式為:("藥物性肝損傷"[常用字段:智能]OR"藥源性肝損傷"[常用字段:智能]OR"藥物性肝損害"[常用字段:智能]OR"藥源性肝損害"[常用字段:智能]OR"DILI"[常用字段:智能]OR "肝損傷"[常用字段:智能]OR"肝損害"[常用字段:智能]OR"肝毒素"[常用字段:智能]OR"肝毒性"[常用字段:智能]OR"肝功能損害"[常用字段:智能]OR"藥物性肝病"[常用字段:智能]OR"藥物性肝炎"[常用字段:智能]OR"肝功能損傷"[常用字段:智能]OR"藥源性肝病"[常用字段:智能]OR(("致"[中文標題]OR"引"[中文標題])AND"肝"[中文標題])AND(("例"[中文標題]OR"報告"[中文標題]OR"報道"[中文標題]OR"不良反 應"[中文標題]OR"副作用"[中文標題]OR"毒性"[中文標題])NOT"鼠"[中文標題])。
2.2.1 檢索結果 萬方數據檢索到7 336篇文獻;CNKI TKA(題名關鍵詞摘要)檢索得到1 445篇,SU(主題)檢索得到1 172篇;CBM檢索到24 377篇。刪除重復文獻4 877篇,納入29 453篇。
2.2.2 文獻篩選流程 將文獻導入Access數據庫,以藥典、術語集、詞表等為參考,分別制定肝損傷相關和中藥相關的關鍵詞,按照個案報道、肝損傷、中藥的順序,將篩查分為個案報告篩查、主題1肝損傷文獻篩查、主題2包含中藥關鍵詞的肝損傷文獻篩查。依次建立基于SQL語法的查詢視圖篩選,并對篩選結果進行人工復核。具體篩選流程見圖2。

圖2 中藥引起的藥物性肝損傷文獻篩選流程
2.2.2.1 肝損傷文獻篩選 如圖2所示,將查重后的文獻數據以Excel 2016格式導入Access2017,對關鍵詞進行提煉,分步驟依次完成肝損傷文獻的標題篩選,以下關鍵詞及文獻數量為關鍵詞迭代后的最終結果。
Step1:對納入文獻29 453篇,以“例”“報告”“報道”“致”“引”“誘發”為檢索詞,排除題目中不含有上述檢索詞的文獻,得到22598篇;
Step2:以“肝”“毒”“致”“引”“誘發”為檢索詞,對Step1篩選后的文獻進行篩選,排除與肝無關的文獻2 741篇,得到19857篇;
Step3:以“治療”“肝*報告”“致*肝”“治愈”為檢索詞,排除Step2結果中以治療為主的文獻4 979篇,得到14878篇;
Step4:排除Step3結果中病例數≥10例的文獻3 366篇,得到11512篇;
Step5:以“肝*引”“引*肝”“引*反應”“引*過敏”“引*黃疸”“引*中毒”“引*死”“肝*致”“致*肝*”“致*反應”“致*過敏”“致*黃疸”“致*中毒”“致*死”為關鍵詞,排除Step4結果中由肝病引起其他問題的文獻2 360篇,得到9152篇文獻;
Step6:排除不相關文獻,以“紫癜致”“變性致”“病致”“征致”“飲酒致”“毒蕈致”“蕈中毒所致”“豬肉致”“菌致”“化療導致”“疫苗致”“照射致”“治療致”“感染致”“出血致”“環境致”“缺陷*致”“化療致”“基因*致”“獻血致”“變異致”“排卵致”“壞死致”“梅毒致”“呃逆致”“抽搐致”“缺失致”“HBV致”“IL-11致”“術后*致”“檢查致”“失敗致”“術致”“病毒所致”“氨氣中毒致”“創傷應激導致”“外傷所致”“皰疹致”“型致”“傷致”“過速致”“復合物致”“結石致”“診斷致”“按摩致”“術后致”“牙刷致”“衰竭致”“輸血所致”“方案致”“紫癜引起”“變性引起”“病引起”“征引起”“飲酒引起”“毒蕈引起”“蕈中毒引起”“豬肉引起”“菌引起”“化療引起”“疫苗引起”“照射引起”“治療引起”“感染引起”“出血引起”“環境引起”“缺陷*引起”“化療引起”“基因*引”“獻血引”“寄生蟲引”“污染引”為關鍵詞,排除Step5結果中其他原因導致的肝損傷文獻843篇,得到8309篇文獻;
Step7:以“黃疸”“黃膽”“肝性昏迷”“轉氨酶”“膽紅素”“肝*損”“肝*功*異常”“肝*功*不良”“肝功能惡化”“肝炎”“肝病”“肝竇阻塞”“肝*衰”“肝小靜脈閉塞”“肝*酶”“肝*生化”“肝性腦病”“肝壞”“肝硬化”“脂肪肝”“肝脂肪變性”“肝內淤膽”“肝內膽汁”“肝纖維化”“肝昏迷”“肝毒性”“肝腎綜合征”“多臟器”“中毒”“不良反應”“過敏反應”“中毒”“布-加”為檢索詞,排除Step6結果中非肝損傷文獻2 315篇,得到肝損傷相關文獻共計5994篇。
2.2.2.2 中藥文獻篩選 按照制定的中藥關鍵詞表(包括中藥飲片、中成藥等),從肝損傷文獻中篩選出包含中藥的文獻1 252篇。
2.2.2.3 人工復核及關鍵詞表的迭代更新 對不包含中藥關鍵詞的肝損傷文獻4 742篇進行人工復核,閱讀摘要、全文后,強制納入符合“由中藥引起的藥物性肝損傷”文獻104篇。對包含中藥關鍵詞的肝損傷文獻結果進行人工復核,閱讀摘要、全文后,強制排除不符合“由中藥引起的藥物性肝損傷”文獻770篇,納入482篇。
進行以上兩項人工篩選的同時完善關鍵詞表:將“強制納入文獻”中未包含在“中藥關鍵詞表”或“肝損傷關鍵詞表”中的中藥關鍵詞或肝損傷關鍵詞分別補充進“中藥關鍵詞表”和“肝損傷關鍵詞表”中,即對關鍵詞表進行迭代更新,并更新納入文獻。例如,原中藥關鍵詞表中不包含“腰痛寧”這類無法從名稱判斷是否為中成藥的藥品,查詢確認其為中成藥后,添加進中藥關鍵詞表,再次運行,更新篩選結果,增加腰痛寧致肝損害文獻2篇。類似的還有可達靈(增加1篇)、淋必清(增加2篇)等。
2.2.3 篩選結果 人工復核篩選后,強制納入符合“中藥引起的藥物性肝損傷”文獻104篇;強制排除不符合“中藥引起的藥物性肝損傷”文獻770篇,納入482篇。最終篩選出符合納入標準的文獻586篇。
使用數據庫技術輔助檢索,保證了文獻的檢全率和檢準率,篩選過程更加靈活,與常規文獻檢索策略相比,具體優勢見表1。

表1 2種文獻檢索與篩選方案對比
使用數據庫技術輔助檢索主要依據關鍵詞篩選文獻,關鍵詞表涵蓋的范圍直接影響納入文獻是否準確、全面。肝損傷案例中關鍵詞表以最新版國家藥典、國家標準及中藥學教材等為依據,囊括了絕大部分詞匯,但由于版本更新的時間差等原因,仍然會有遺漏。通過人工復核獲得來自文獻的關鍵詞,可以實現關鍵詞表的迭代。豐富的關鍵詞增加了目標文獻的數量,新的文獻又為篩選出新的關鍵詞提供了可能。運行數據庫的視圖查詢功能,即可按照迭代后的關鍵詞表更新篩選結果,減少工作量。
人工篩選與關鍵詞表不斷互動、迭代,使文獻篩選具有一定程度的“自我完善”功能。
利用Access數據庫進行文獻篩選時,可以按照研究人員的邏輯,自由設定篩選層次、主題數量及篩選步驟。其優勢在于,當發現問題或錯誤而需要回溯、檢驗矯正結果時,可以按照篩選的層次、步驟回推,精確定位錯誤點,更加準確、方便地修正結果。
修訂或進行類似主題的相關文獻篩選時,只需要調整篩選詞,再次運行即可,減少工作量。
本文討論了基于數據庫技術的不良反應個案報道檢索與查詢方案的設計與實現,擴大檢索范圍提高了文獻檢索查全率,借助數據庫查詢視圖功能提高了文獻篩選的效率和準確度,實現全面、準確、靈活、高效、便捷地篩選文獻。篩選方案邏輯清晰、操作簡便,減少了研究人員的工作量。該方案還可應用于其他主題文獻檢索與篩選。例如,篩選“A藥物治療B疾病的療效及安全性”,可以確定篩選包括A藥物、B疾病、療效、安全性4個層次,后續可以根據不同的層次、主題進行文獻篩選。
盡管使用數據庫技術減少了文獻篩選工作量,但在強制納入/排除時,仍需要較多的人工參與。因此,本文方案得到的文獻檢索和篩查結果,可以作為后續深度學習的訓練數據,設計、開發基于文本分類技術的自動檢測模塊,利用優質文本進行分類算法的學習,以便進一步開展基于深度學習實現自動分類的相關研究。
[1] 焦嬌,韓玲革,李崇經.我國藥物不良反應研究文獻計量分析[J].醫學信息學雜志,2012,33(12):49-52.
[2] 卞兆祥,田皓瑤,高琳,等.提高中藥注射劑不良反應/不良事件文獻報告質量[J].中國循證醫學雜志,2010,10(2):176-181.
[3] 冉姍,方忠宏,黃海茵,等.中藥藥物性肝損傷報告中存在的問題及建議[J].中醫雜志,2021,62(7):581-584.
[4] 吳泰相,商洪才,卞兆祥,等.中藥不良反應/不良事件報告規范建議[J].中國循證醫學雜志,2010,10(2):215-219.
[5] 朱蘭,朱彥,劉麗紅,等.文獻來源的上市后藥品不良反應報告常見問題分析[J].中國藥物警戒,2021,18(12):1155-1158.
[6] 畢玉俠,吳春福.藥品不良反應文獻檢索與藥品不良反應報告評價[J].中國藥房,2011,22(2):166-168.
[7] 國家藥品監督管理局.國家藥監局關于發布個例藥品不良反應收集和報告指導原則的通告(2018年第131號)[EB/OL].(2018-12-21)[2021-12-22].https://www.nmpa.gov.cn/xxgk/ggtg/qtggtg/20181221172901438.html.
[8] 戴行德.文獻主題因素的常見標引誤差分析[J].圖書館建設,2004(1):38-39,47.
[9] 馮天亮.數據庫原理及其醫學應用[M].北京:電子工業出版社,2014: 10.
[10] 中華人民共和國國家質量監督檢驗檢疫總局,中國國家標準化管理委員會.中藥編碼規則及編碼:GB/T31774-2015[S].北京:中國標準出版社,2015.
[11] 李艷超,朱康玲.中國生物醫學文獻數據庫與三大中文期刊全文數據庫的對比分析[J].情報探索,2013(9):62-64.
[12] 周曉政.SinoMed與三大中文文獻網絡檢索平臺的對比分析[J].中華醫學圖書情報雜志,2019,28(10):63-69.
Study on Literature Retrieval and Screening Scheme Assisted by Database Technology
YAO Ke-yu1, CHEN Chao1, ZHU Lan2,ZHU Yan1, YANG Kun-jie1, LIU Li-hong1*
(1. Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China; 2. Center for Drug Reevaluation, National Medical Products Administration, Beijing 100037, China)
To propose a literature retrieval and screening scheme based on database technology to solve the problems existing in the current literature retrieval and screening.Taking the literature retrieval and screening of “drug-induced liver injury caused by Chinese materia medica” as an example, the query view function of the structured query language (SQL) of the Access database was used. Literature titles were searched by keywords, and literature was screened progressively layer by layer according to different levels, topics and steps. Manual review was conducted for the screening results and the iteration of keywords/words was complete, and the final screening results were obtained.Compared with the traditional keyword-based literature retrieval and screening, the literature retrieval and screening scheme based on database technology expanded the scope of retrieval and improved the recall rate of literature retrieval. Keyword iteration improved the keyword table, promoted the efficiency, flexibility and accuracy of literature screening with the help of the Access database query view function, and reduced the workload of researchers.The literature retrieval and screening scheme assisted by database technology can screen literature more comprehensively, accurately, flexibly, efficiently and conveniently.
database technology; literature retrieval; literature screening
G252.7;R2
A
2095-5707(2022)03-0001-06
10.3969/j.issn.2095-5707.2022.03.001
姚克宇,陳超,朱蘭,等.數據庫技術輔助的文獻檢索與篩選方案研究[J].中國中醫藥圖書情報雜志,2022,46(3):1-6.
國家重點研發計劃(2018YFC1707409);中國中醫科學院科技創新工程(CI2021A05409);中國中醫科學院基本科研業務費優秀青年科技人才(傳承類)培養專項(ZZ13-YQ-126);中國中醫科學院基本科研業務費自主選題(ZZ150314、ZZ150316、ZZ150329JY)
姚克宇,E-mail: yao_keyu@163.com
通訊作者:劉麗紅,E-mail: 28499503@qq.com
(2022-01-29)
(2022-03-11;編輯:魏民)