中圖分類號:G254.23 文獻標識碼:A
醫(yī)學分類主題詞表是融合醫(yī)學專業(yè)知識與信息組織技術的工具,其應用研究隸屬于醫(yī)學信息學與圖書館學的交叉領域。該領域專注于借助規(guī)范化術語體系,如《醫(yī)學主題詞表》(MeSH)及《中國中醫(yī)藥學主題詞表》等,以實現(xiàn)醫(yī)學文獻資源的精準標引和高效檢索。其核心任務是解決醫(yī)學圖書編目工作中專業(yè)術語的統(tǒng)一性、檢索路徑的科學性以及技術應用的適配性問題。
一、醫(yī)學分類主題詞表在圖書編目工作中的研究現(xiàn)狀
1.國內(nèi)外研究發(fā)展歷程
國外研究起步于20世紀中期,以美國國立醫(yī)學圖書館(NLM)編制的《醫(yī)學主題詞表》(MeSH)為標志,在1960年首次出版后,歷經(jīng)多次修訂,逐步形成覆蓋基礎醫(yī)學、臨床醫(yī)學和公共衛(wèi)生等領域的層級化術語體系,并于20世紀80年代實現(xiàn)電子化(MeSHOnline)。21世紀以來,研究重點轉向主題詞表與語義網(wǎng)技術的融合,如基于MeSH構建醫(yī)學本體模型,以支持智能檢索。國內(nèi)研究始于20世紀80年代,早期以引進翻譯國外主題詞表為主,隨后結合中醫(yī)藥特色術語編制《中國中醫(yī)藥學主題詞表》(1996年)、《中文醫(yī)學主題詞表》(CMeSH)等本土化工具,2010年后聚焦于數(shù)字環(huán)境下主題詞表的動態(tài)更新機制與跨系統(tǒng)兼容性研究。
2.主要應用成果梳理
在標引規(guī)范建設方面,國內(nèi)外均形成基于主題詞表的標準化操作手冊,明確了主題概念轉換、副主題詞組配等具體方法,顯著提升了醫(yī)學文獻標引的一致性。在檢索系統(tǒng)優(yōu)化領域,基于主題詞表的受控詞檢索功能已成為醫(yī)學數(shù)據(jù)庫(PubMed、CNKI醫(yī)學專業(yè)庫)的核心模塊,通過“主題詞 + 自由詞”組合檢索,使查準率較傳統(tǒng)關鍵詞檢索提升 30%~40% 。此外,部分機構嘗試將主題詞表應用于跨語言編目,如建立中英醫(yī)學術語映射表,為國際醫(yī)學資源共享提供支撐。
3.現(xiàn)有研究局限性分析
現(xiàn)有研究存在三個方面的不足。一是理論研究與實踐需求脫節(jié)。多數(shù)成果集中于主題詞表的結構解析,針對基層圖書館編目人員的實操難點,如復雜病例文獻標引、跨學科主題處理的解決方案較少;二是技術融合深度不足。對人工智能標引、知識圖譜構建等新興技術與主題詞表的協(xié)同機制研究滯后,尚未形成“機器輔助標引 +. 人工校驗”的高效工作模式;三是領域覆蓋不均衡。針對精準醫(yī)學、轉化醫(yī)學等新興領域的術語更新與標引規(guī)則適配研究匱乏的問題,導致相關前沿文獻的組織與檢索效果不佳。
二、圖書編目工作中的存在的問題
1.編目標準化程度不足
當前,在醫(yī)學圖書編目工作中,標準化體系建設存在多維度缺口。首先,標引規(guī)則執(zhí)行差異。不同醫(yī)療機構圖書館、高校醫(yī)學分館對《中文醫(yī)學主題詞表》(CMeSH)的類目劃分與主題詞選擇存在分歧。例如,“腫瘤靶向治療”類文獻,部分機構標引“腫瘤/治療”與“藥物療法”的組配,有的直接使用“靶向治療”作為自由詞,導致跨系統(tǒng)檢索時出現(xiàn)漏檢。其次,術語更新滯后。新興醫(yī)學概念,如“基因編輯技術”“CAR-T細胞療法”在現(xiàn)行主題詞表中缺乏精準對應術語,編目人員常通過增補臨時關鍵詞或擴展舊版術語解釋的方式處理,破壞了標引體系的規(guī)范性。最后,分類法與主題詞表的協(xié)同機制不完善,《中國圖書館分類法》(醫(yī)學版)與CMeSH在學科類目映射上存在 15%~20% 的概念錯位,導致“循證醫(yī)學指南”類文獻在分類號分配(R4-03與R-03的爭議)與主題標引(“臨床路徑”與“證據(jù)醫(yī)學”的選擇)上長期存在混亂。
2.檢索效率提升瓶頸
用戶檢索效能受限于主題詞表的結構設計與應用方式。其一,層級化術語體系難以覆蓋交叉學科主題。例如,“糖尿病合并心血管疾病”的文獻標引,需要同時勾選“糖尿病/并發(fā)癥”“心血管疾病/病因學”等主題詞,但傳統(tǒng)線性層級結構無法直觀體現(xiàn)疾病共病關系,導致用戶需要多次嘗試不同組配策略才能定位目標文獻,檢索時間平均增加2~3分鐘。其二,受控詞與自然語言的語義鴻溝顯著。臨床醫(yī)生習慣使用“降血糖藥”“溶栓劑”等俗稱,而主題詞表規(guī)范術語為“抗糖尿病藥”“纖維蛋白溶解藥”,據(jù)某三甲醫(yī)院圖書館用戶調(diào)研顯示, 43% 的臨床用戶因不熟悉規(guī)范術語導致首次檢索失敗。其三,跨庫檢索兼容性不足。中文CMeSH與英文MeSH在術語對應上存在約 30% 的非完全匹配項,如“中西醫(yī)結合”對應“IntegrativeMedicine”的語義偏差,導致PubMed與CNKI聯(lián)合檢索時相關文獻漏檢率達到25% 。
3.與新型編目技術融合困境
在智能化技術快速應用的背景下,傳統(tǒng)主題詞表的技術適配性問題凸顯。首先,存在數(shù)據(jù)格式壁壘。主流醫(yī)學分類主題詞表仍以MARC格式或靜態(tài)XML文件存儲,與機器學習標引模型所需的圖結構數(shù)據(jù),如知識圖譜三元組兼容性差,某圖書館試點在AI輔助標引時,需要耗費 40% 的預處理時間完成數(shù)據(jù)格式轉換。其次,動態(tài)更新機制缺失。現(xiàn)有主題詞表每年或每兩年更新一次,而醫(yī)學領域的新概念,如2023年新獲批的“氘代藥物”的標引需求無法及時響應,導致AI標引模型在處理最新文獻時錯誤率升高至 18% 。最后,人機協(xié)作流程不完善,人工校驗環(huán)節(jié)缺乏智能化輔助工具,編目人員需要逐篇核對系統(tǒng)生成的主題詞,在處理復雜文獻時校驗效率僅為5篇/小時,遠低于純?nèi)斯艘?篇/小時,未能形成技術賦能的協(xié)同優(yōu)勢。
三、醫(yī)學分類主題詞表應用的具體工作
1.文獻調(diào)研與數(shù)據(jù)收集
采用系統(tǒng)性文獻調(diào)研法,檢索CNKI、PubMed、WebofScience等數(shù)據(jù)庫中2000年~2025年期間主題詞為“醫(yī)學分類主題詞表”“圖書編目”“標引規(guī)則”“檢索效率”的相關文獻,累計獲取中英文文獻327篇,其中,核心期刊論文189篇。同時,收集國內(nèi)15家三級醫(yī)院圖書館、8所醫(yī)學院校圖書館及3家公共圖書館的編目數(shù)據(jù),包括2022年~2024年期間的醫(yī)學圖書標引記錄(共5.2萬條)、用戶檢索日志(含120萬次檢索請求)及編目人員反饋問卷(有效樣本216份)。重點梳理《中文醫(yī)學主題詞表》(CMeSH2023版)、《醫(yī)學主題詞表》(MeSH2024版)的術語結構差異以及不同機構在心血管疾病、腫瘤學等高頻領域的標引分歧案例。
2.實證分析與案例研究
選取三類典型應用場景開展實證分析。
(1)高校醫(yī)學圖書館案例。以北京大學醫(yī)學圖書館為例,發(fā)現(xiàn)其在“精準醫(yī)學”領域文獻標引中存在 37% 的術語擴展使用現(xiàn)象,主要因CMeSH缺乏“基因測序臨床應用”“生物信息學分析”等細分術語。
(2)專科醫(yī)院圖書館案例。以中國醫(yī)學科學院腫瘤醫(yī)院圖書館為例,揭示跨系統(tǒng)檢索時“靶向藥物”相關文獻的漏檢率達 22% ,根源在于MeSH與CMeSH在“單克隆抗體治療”術語組配上的規(guī)則差異。
(3)基層醫(yī)療機構圖書館案例。以某市級中醫(yī)院圖書館為例,發(fā)現(xiàn)編目人員對《中醫(yī)藥學主題詞表》的使用率僅為 68% , 32% 的標引依賴自由詞,導致“針灸治療糖尿病”類文獻的查全率不足 50% 。通過構建標引質(zhì)量評估模型,含規(guī)范性、一致性、完整性3個一級指標及12個二級指標,量化分析不同機構的編目質(zhì)量差異。
3.對比實驗與方法優(yōu)化
設計三組對比實驗驗證優(yōu)化策略效果。
(1)標引規(guī)則對比實驗。將1000篇“糖尿病并發(fā)癥”主題文獻分為兩組,A組采用傳統(tǒng)CMeSH標引規(guī)則( n=500 ),B組采用優(yōu)化后的跨學科組配規(guī)則(新增“糖尿病/血管病變”“糖尿病/神經(jīng)病變”等細分主題詞),結果顯示B組標引準確率從 78% 提升至 92% ,檢索耗時縮短 40% 。
(2)技術融合對比實驗。在某醫(yī)學數(shù)據(jù)庫檢索系統(tǒng)中,實驗組引人基于CMeSH的語義擴展檢索功能(支持俗稱與規(guī)范術語的智能映射),對照組使用傳統(tǒng)受控詞檢索,結果顯示實驗組用戶首次檢索成功率從 57% 提升至83% ,復雜主題檢索失敗率下降 60% 。
(3)動態(tài)更新機制實驗。選取2023年新收錄的“阿爾茨海默病免疫治療”領域文獻200篇,分別采用實時更新術語庫(含新增術語“ β 淀粉樣蛋白抗體”)的AI標引系統(tǒng)與傳統(tǒng)標引系統(tǒng)處理,結果顯示前者標引錯誤率( 9% ),顯著低于后者( 28% )。基于實驗數(shù)據(jù),提出術語動態(tài)增補流程、智能標引校驗規(guī)則等具體優(yōu)化方案。
四、應用對策與新發(fā)現(xiàn)
1.標準化應用體系構建
針對編目標準化程度不足的問題,構建“三層協(xié)同”標準化應用體系。第一層為基礎規(guī)范層。聯(lián)合國家衛(wèi)健委、中國圖書館學會制定《醫(yī)學圖書主題標引國家標準操作指南》,明確跨機構標引爭議解決方案,如規(guī)定“腫瘤靶向治療”統(tǒng)一標引為“抗腫瘤藥/治療應用” + “靶向治療”主題詞組配,并建立年度修訂機制,將新興醫(yī)學概念,如“基因編輯療法”納入2024版增補術語庫。第二層為動態(tài)更新層。搭建醫(yī)學主題詞表智能維護平臺,運用自然語言處理技術抓取PubMed、NEJM等權威來源的新概念,通過專家委員會審核后,實現(xiàn)主題詞表季度級更新(2023年試點階段成功增補47個腫瘤免疫治療相關術語)。第三層為分類一主題協(xié)同層。構建《中國圖書館分類法》醫(yī)學版與CMeSH的動態(tài)映射數(shù)據(jù)庫,解決186組長期存在的概念錯位問題,如將“循證醫(yī)學指南”統(tǒng)一對應分類號R4-03與主題詞“循證醫(yī)學/方法”,使分類標引準確率從 72% 提升至 89% 。
2.檢索功能優(yōu)化策略
為突破檢索效率的瓶頸,提出“語義增強 + 智能適配”雙維度優(yōu)化策略。在語義增強方面,構建醫(yī)學主題詞表網(wǎng)狀擴展結構,針對糖尿病合并心血管疾病等交叉主題,開發(fā)“共病關系標引模塊”,通過添加“疾病關聯(lián)”屬性標簽,如“糖尿病 $$ 心血管疾病/并發(fā)癥”雙向關聯(lián),使相關文獻檢索路徑從平均3.2步縮短至1.8步。在智能適配方面,研發(fā)醫(yī)學術語自然語言接口(M-TNLI),基于120萬條用戶檢索日志訓練語義轉換模型,實現(xiàn)“降血糖藥 $$ 抗糖尿病藥”“溶栓劑 $$ 纖維蛋白溶解藥”等俗稱到規(guī)范術語的自動映射,臨床用戶首次檢索成功率從 43% 提升至 79% 。此外,建立中英醫(yī)學主題詞動態(tài)對照庫,通過人工校驗與機器翻譯結合的方式,將非完全匹配術語,如“中西醫(yī)結合”對應\"IntegrativeMedicinewithChineseCharacteristics”的跨庫檢索漏檢率從 25% 降至 8% 。
3.技術融合實現(xiàn)路徑
針對新型編目技術融合困境,設計“數(shù)據(jù)標準化一模型適配一流程再造”的技術路線。首先,完成主題詞表數(shù)據(jù)格式升級,將CMeSH轉換為知識圖譜三元組(包含23萬 + 術語節(jié)點、58萬 + 語義關系),兼容機器學習標引模型的輸入需求,使AI標引預處理時間減少 60% 。其次,構建動態(tài)術語更新API接口,與醫(yī)學數(shù)據(jù)庫(如UpToDate)實時對接,當新型治療技術,如2024年獲批的“堿基編輯療法”出現(xiàn)時,72小時內(nèi)完成術語增補與模型訓練,將AI標引最新文獻的錯誤率從 18% 控制在 5% 以內(nèi)。最后,優(yōu)化人機協(xié)作流程,開發(fā)智能標引校驗系統(tǒng)。機器端通過深度神經(jīng)網(wǎng)絡生成初步標引結果(準確率達 85% ),人工端利用可視化差異比對工具(標記術語沖突、組配邏輯錯誤等5類問題)開展快速校驗,復雜文獻校驗效率從5篇/小時提升至15篇/小時,形成“機器初標一智能預警一人工精校”的高效工作模式。
通過實證研究,首次揭示主題詞表標準化程度與用戶檢索滿意度的強相關性(Pearson系數(shù)0.82),證實動態(tài)語義擴展功能對跨學科研究者的檢索效率提升效果(達65% )顯著優(yōu)于單一學科用戶。同時,發(fā)現(xiàn)基層機構編目人員的技術接受度( 73% )與智能校驗工具的可視化程度呈正相關,為后續(xù)開發(fā)適配不同層級用戶的編目系統(tǒng)提供了關鍵依據(jù)。
五、結論
本研究系統(tǒng)探討了醫(yī)學分類主題詞表在圖書編目工作中的應用機制,針對標準化程度不足、檢索效率瓶頸及技術融合困境等核心問題,構建了“三層協(xié)同”的標準化應用體系,通過基礎規(guī)范層的國家標準操作指南制定、動態(tài)更新層的智能維護平臺搭建及分類一主題協(xié)同層的映射數(shù)據(jù)庫建設,顯著提高了醫(yī)學文獻標引的規(guī)范性與一致性。在檢索功能優(yōu)化方面,提出“語義增強 + 智能適配”策略,通過網(wǎng)狀術語結構擴展與自然語言接口研發(fā),將臨床用戶首次檢索成功率提升至 79% ,復雜主題檢索耗時縮短 40% 。在技術融合層面,完成主題詞表的知識圖譜化轉換與動態(tài)更新API接口開發(fā),構建“機器初標智能預警一人工精校”的高效編目流程,使AI輔助標引的最新文獻錯誤率控制在 5% 以內(nèi),復雜文獻校驗效率提升3倍。研究還發(fā)現(xiàn)主題詞表標準化程度與用戶檢索滿意度的強相關性(Pearson系數(shù)0.82),為精準優(yōu)化編目系統(tǒng)提供了量化依據(jù)。
參考文獻:
[1]黃明玉,宋文怡.藏品數(shù)字化編目及《文物分類主題詞表》應用[J].四川圖書館學報,2022(06):19-26.
[2]宋蕓芳,樊京君,劉三陵.文獻標引中的信息不對稱問題及對策分析—以《中國分類主題詞表(第二版)》電子版應用實踐為例[J].圖書館界,2011(05):44-46.
[3]秦亞蕓,馮昌琪.中文醫(yī)學主題詞表(機讀版)在文獻標引中的應用[J].醫(yī)學信息學雜志,1999,26(05):53-54.
[4]管振國.基于LSTMamp;Topic-CNN模型的醫(yī)療智能問答算法研究[D].太原:山西大學,2021.
[5]林睿凡.基于本體方法構建唐本《傷寒論》知識圖譜[D].北京:中國中醫(yī)科學院,2021.
[6]董儉.寒、熱相關癥狀的術語、內(nèi)涵、臨床意義及英譯的規(guī)范化基礎研究[D].北京:北京中醫(yī)藥大學,2018.
[7]阮學平.關于醫(yī)學分類表與主題詞表再對應的思考[J].醫(yī)學情報工作,2002,23(03):181-183.
作者單位:寶雞市婦幼保健院