王正山 朱建平
(中國中醫科學院中國醫史文獻研究所,北京 100700)
中醫藥術語的規范化,是中醫藥學一項重要的基礎性的系統工程。它對于中醫藥知識的傳播,國內外醫藥交流,中醫藥科技成果的推廣,中醫藥書刊和教材的編輯出版,乃至中醫藥現代化、國際化都具有十分重要而深遠的意義。由于中醫藥術語形成的歷史性和特殊性,中醫術語規范成為中醫現代化、國際化的關鍵問題之一[1]。
在3部《中醫藥學名詞》審定發布之后,用戶反饋積極,同時也有一種困惑,即淘汰了一些不規范術語,一時又不知道該用哪個規范術語。為此,2012年國家科技基礎性工作專項重點項目“中醫藥基礎學科名詞術語規范研究”啟動了中醫藥術語同義詞查詢數據庫建設,以解決這一問題,促進規范術語的推廣。
2000年,全國科學技術名詞審定委員會中醫藥學名詞審定委員會成立,開展中醫藥名詞規范化工作,先后審定、發布了《中醫藥學名詞》之基本名詞、內科婦科兒科、外科皮膚科肛腸科眼科耳鼻喉科骨傷科等3部國家規范名詞,推動了中醫藥的標準化、現代化、國際化。規范內容之一是根據“單義性原則”[2],在遇到“多詞一義”時,只選取一個為規范詞,其他為淘汰詞。例如,“大頭瘟”為規范詞,而“大頭風、大頭痛、時毒、大頭傷寒、蝦蟆瘟、捻頭瘟、大頭天行、疫毒、瘟毒喉痹、瘟疫紅喉、蝦蟆瘟”等為同義詞,規范后被廢棄,在規范術語數據庫里不再出現。
從2003年以來發布的《中醫藥學名詞》3部國家規范名詞使用反饋情況來看,一些已經廢棄的術語仍在被使用。比如:“肺痿”為規范術語,“肺萎”則是應該被廢棄的同義術語,但一些期刊中仍然使用“肺萎”。如楊淦等《特發性肺纖維化與肺痹、肺萎關系淺析》[3]一文中就使用非規范術語“肺萎”。又如“下消”為規范術語,“腎消”則是應該被廢棄的同義術語,而期刊中仍然出現“腎消”。如張嬋娟《〈外臺秘要〉論消渴》”[4]一文中就使用非規范術語“腎消”。又如“肺癆”為規范術語,“肺勞”則是應該被廢棄的同義術語,而期刊中仍然出現“肺勞”。如劉繼民等《王檀教授應用中醫康復療法治療咳嗽、肺勞經驗總結》[5]一文中就使用的是非規范術語“肺勞”。
總之,非規范術語仍在中醫藥期刊、書籍中使用。進一步的研究表明,其原因主要有以下兩個方面:(1)不少從業者、研究人員對中醫藥術語規范工作了解甚少,不知道哪些術語已被廢棄;(2)部分從業人員,雖然對中醫藥術語規范工作有所了解,也愿意使用規范術語,但缺乏相關的檢索平臺,檢索相關規范術語的過程有些麻煩,或者不知道當前使用的是被淘汰的術語,或者雖然知道是淘汰詞,卻一時找不到對應的同義規范術語。
針對上述存在的問題,國家科技基礎性工作專項重點項目“中醫藥基礎學科名詞術語規范研究”的任務之一就是建設中醫藥術語同義詞查詢數據庫。中醫藥術語同義詞查詢數據庫的建設內容是:(1)確立中醫藥的規范術語,及其對應的同義詞(淘汰詞)。計劃收錄全國科技名詞委公布的規范詞約1.3萬條,以及基于《中醫大辭典》等辭書的同義詞數萬條[6]。(2)提供檢索平臺,方便用戶查詢,以便推廣應用規范詞,廢棄淘汰詞。其意義在于使用者即使查詢的是已被廢棄的術語(提示“不是規范術語”),也可通過該數據庫關聯到已經公布的同義規范術語,從而為推廣中醫藥規范術語提供技術支持;將來還可以廣泛應用于各種中醫藥數據庫中,實現按同義詞的擴展檢索等。
在構建中醫藥術語同義詞查詢數據庫之前,需要先獲取所有中醫藥規范術語的同義詞集。其中包括幾個關鍵的環節:
1. 工具書抓取。提取同義詞,需要依賴比較權威的工具書,如《中醫大辭典》《中醫辭海》《中藥大辭典》等,其中的部分書籍可以從一些網站上獲取。因此針對不同的網站,需要編寫不同的抓取程序,保證抓取結果的正確性。這一步是準備工作。如果能夠從其他渠道獲取工具書文本,則此步可以省略。
2.同義詞提取。這是整個工作中核心的一步。傳統上,一般只能依靠人工進行,耗時耗力,且容易出錯。為此,項目組創建并使用了基于模式識別的中醫藥術語同義詞自動提取方法,利用計算機技術自動提取同義詞。該方法包括準備辭典、編寫提取程序、提取抽取和過濾規則、按規則提取同義詞、結果審核、有效性評價等步驟。統計數據表明,該方法提取同義詞,準確率約為94%,召回率約為94.5%。作為一種輔助方法,基于模式識別的中醫藥術語同義詞自動提取可以大大提高同義詞提取工作的效率。
3. 人工審核同義詞。這是整個過程中非常關鍵的一步,并最終決定同義詞提取的質量。人工審核主要有三個方面的作用:
(1)同義詞審核。機器提取同義詞,無論其算法如何可靠,都有可能產生錯誤(誤提或者漏提),因此需要人工對提取的同義詞進行審核。
(2)文本校對。網上抓取到的文本,其文本質量也會存在問題。文本質量問題也是制約同義詞提取效果的一個關鍵因素。這也需要在人工審核時予以發現和校正。
(3)模式發現。同義詞提取的模式和規則,并非提前設定的,這些規則需要在審核同義詞的過程中發現并完善。
4. 人工審核的工具支持。由上可見,人工審核同義詞的工作非常煩瑣而容易出錯。為了提高效率,保證工作質量,項目組開發了輔助工具。
5. 同義詞歸并。在《中醫大辭典》《中醫辭海》等工具書中,對一組同義詞,一般選擇其中之一進行詳細解釋,其他同義詞詞條則通過關聯專用詞指向該詞條。如果用人工的方式,要找到詞條A的所有同義詞,理論上講,就至少需要把辭典中所有的詞條都查閱一遍,看看是否與A同義。這是費時費力又很難完成的一項工作。在本項目中,因為有計算機的輔助,只需要制定規則,把所有詞條的同義詞利用程序自動提取出來,再人工審核一遍,之后就可以利用計算機自動進行歸并,把所有與A同義的詞條加入A的同義詞集即可。
在中醫藥名詞審定工作中,對于“一詞多義”的處理,采取了分化不同義項、保留不同學科之間的一詞多義現象等措施[2]。因此本項目在歸并同義詞后,需要人工審核,避免將不同義項的同義詞歸并到同一個術語的同義詞集中。
6.專家評估。由于本項目的目標,是制定中醫藥術語的同義詞規范,建立同義詞查詢數據庫,因此所產出的所有結果,最終都需要提供給領域專家進行人工審核,審核通過后方能入庫,向社會開放,供業界查詢。
對中醫藥術語的同義詞考證完成后,就可以在此基礎上構建中醫藥同義詞數據庫。
1.選擇數據庫管理系統(DBMS)
數據庫管理系統的選擇,主要考慮其性能、安全性、易用性等。本研究中所涉及的問題比較簡單,數據量比較小,大約5萬~10萬條記錄,50~100M級存儲量,因此可以利用Access這樣簡單易用的數據庫管理系統進行存儲。
目前市場上存在的各種關系數據庫,相互之間可以比較方便地進行數據遷移,因此,在研究階段,數據庫的選擇應以簡單易用為原則,不需要耗費過多的精力。
2.設計數據存儲結構
數據存儲結構,主要包括邏輯存儲結構和物理存儲結構。在此簡單介紹一下邏輯存儲結構。中醫藥術語同義詞查詢數據庫主要包括圖1的3個數據表。

圖1 主要數據表結構
(1)中醫藥工具書表,存放需要抓取和分析的工具書基本信息。
(2)中醫藥術語同義詞表,用于存儲從各工具書中提取的所有詞條及其解釋,也包括該詞條在工具書中的具體頁碼,便于人工核對。“正名”字段用于存儲該詞條所在工具書中對應的正名。“同義詞列表”字段用于存儲計算機自動提取的同義詞列表。“同義詞匯總”字段用于存儲每個詞條的歸并后的同義詞列表。
(3)中醫藥術語規范表,用于存儲本項目組擬定的所有中醫藥學規范名詞術語,約13 000條。這里需要注意的是,一個規范名,有可能分屬多個學科,因此對應不同的術語編碼和規范解釋。“同義詞”字段用于存儲該術語最終審定后的同義詞列表。
3. 開發前端檢索工具
到上一步為止,數據庫構建的主體工作就完成了。但是,如果沒有相應的接口,用戶就不能查看數據庫,也無法查詢到規范術語、翻譯及其同義詞。為此需要開發一個Web檢索平臺,作為最終用戶的使用接口,一方面可以方便使用,另一方面也能屏蔽底層數據,防止數據資料泄露。
Web檢索平臺后臺的主要邏輯如下:
第1步:啟動后臺程序,初始化數據,啟動監聽程序。
第2步:監測客戶端發來的查詢請求,直到收到客戶端請求,然后轉第3步。
第3步:處理客戶端請求。
當收到客戶端發來的查詢后,首先檢索“中醫藥術語規范表”。
a)如果找到對應的詞條,則說明該詞條為已經定義過的規范術語,返回該術語的標準英譯、同義詞列表、定義、版本信息等。
b)如果沒有找到對應的詞條,則說明該詞條不是已經定義過的規范術語,需要進一步查詢同義詞列表,看是不是某個規范術語的同義詞,如果是,則返回提示信息,說明該詞條不是規范術語,對應的規范術語為×××;如果不是,則說明該詞條不是規范術語,也不是淘汰詞,需要進一步查找“中醫藥術語同義詞表”,看看該詞條是否在某個工具書中有定義,如果有則返回相關定義,沒有則提示用戶查詢結果為空。
第4步:組裝查詢結果,并發送給客戶端。
第5步:跳轉到第2步,繼續監聽請求。
現在扼要介紹一下中醫藥術語同義詞查詢數據庫用戶端使用的方法。用戶可以通過手機或者電腦使用本項目開發的中醫藥術語查詢工具。
當用戶查詢“瘟疫”時,因為這是一個規范術語,所以返回的是規范的定義、英文翻譯、同義詞、版本信息等,如圖2所示。
當用戶查詢“溫疫”時,因為這是一個淘汰詞,所以返回的是相關提示信息。手機端界面如圖3所示。
隨著中醫藥術語同義語查詢數據庫向社會開放,將會收到用戶的反饋意見,屆時再加以改進,不斷完善,使該數據庫在中醫藥學規范術語的推廣中發揮更大的作用。

圖2 手機查詢規范術語結果

圖3 手機查詢非規范術語結果
[4] 張嬋娟.《外臺秘要》論消渴[J].河南中醫,2018,38(4):521-523.
[5] 劉繼民, 李萌, 劉通,等.王檀教授應用中醫康復療法治療咳嗽、肺勞經驗總結[J].世界最新醫學信息文摘,2018,18(91):11-12.
[6] 朱建平.中醫藥名詞術語規范的實踐與思考.中國科技術語, 2017,19(6):11-14.