歷代中國醫學家在探索瘟疫防治理論與技術的實踐中遺存了寶貴的疫病古籍, 它們是中醫古籍的重要組成部分。中醫藥全面介入新冠肺炎疫情等重大突發公共衛生事件并發揮出傳統醫學的獨特優勢, 再次表明, 中醫古籍特別是疫病古籍是新時代護佑人民健康、建設健康中國戰略的文化瑰寶。國務院辦公廳印發的《“十四五” 中醫藥發展規劃》提出: “實施中醫藥古籍文獻和特色技術傳承專項”, 為中醫古籍煥發新光彩提供了行動指南。以此為契機, 在廣泛搜集組織整理中醫疫病古籍數字資源基礎上, 綜合利用知識組織、知識管理和知識挖掘等技術, 發現疫病古籍中蘊含的防病治病經驗和用藥規律, 進而利用自然語言處理、語義網、信息可視化等技術, 構造文化傳承驅動下可提供疫病知識服務、技術發展驅動下可發揮疫病知識宣傳和科研需求驅動下可滿足疫病知識挖掘的智慧化中醫疫病知識服務平臺, 實現疫病古籍的活化再現與智能計算, 是促進中醫文明創造性轉化和創新性發展的重要路徑。
在推動中醫古籍傳承與保護的政策驅動下, 立足于新文科建設背景, 專題圍繞著中醫古籍中的疫病古籍整理、知識組織與智慧化建設的長期研究方向, 旨在從學科交叉視野出發, 結合信息資源管理一級學科知識管理與服務專長, 為中醫疫病古籍傳承和活化提供新的工具與方法, 在深化學科交流合作的同時, 形成一套標準化、語義化、可視化的, 面向中醫疫病古籍數字資源的智慧化知識服務平臺和整體解決方案。為此, 本專題包含以下3 篇文章:
在中醫文本相關研究中, 命名實體識別(NER)作為一種重要的自然語言處理技術, 能夠有效提取出文本中的藥物、疾病、癥狀等實關鍵信息, 進而為中醫知識的整理與挖掘提供支持。《中醫文本命名實體識別研究綜述》聚焦于中醫文本中命名實體識別技術的創新與應用。通過系統性綜述中醫文本的特征與NER 挑戰, 研究梳理了中醫文本NER 在語料構建、技術算法及評估指標等方面的研究現狀, 指出了目前存在的問題, 并提出未來的研究方向。在語料層面, 建議制定標注規范并構建高質量數據集; 在算法層面, 探索針對小樣本問題的數據優化和復雜實體的識別模型, 以提高模型的準確性和解釋性。這一綜述旨在推動中醫NER 技術的發展, 為后續中醫知識抽取與知識組織研究提供參考。
先前基于知識圖譜的中醫知識演化研究忽視了疫病知識的動態發展變化規律, 降低了中醫疫病學發展過程中的知識完整性以及知識動態演變規律的系統研究。融合動態元素實現疫病知識組織基礎上的隱性疫病知識發現為中醫疫病古籍利用提供了新視角。鑒于此, 《基于動態知識圖譜的中醫疫病古籍知識演化研究》以溫病學派古籍為例, 通過構建融合動態元素的知識元語義描述模型, 對溫病學派古籍進行了涵蓋時間和屬性特征的全面知識組織。在構建并可視化展示溫病學派疫病知識動態演變過程的動態知識圖譜基礎上, 借助知識計算方法對該學派各發展階段的知識內容進行了深層次的演化分析, 通過挖掘用藥偏好、方劑演變和辨證理論發展等隱性知識的動態變化規律, 一定程度上厘清了中醫疫病的知識發展脈絡、中醫知識創造規律, 為據此更新中醫用藥診療創新思路提供了支持。
中醫疫病古籍文本擁有疫病術語的專業性和古籍表達的特殊性, 導致通用分詞模型工具無法實現疫病古籍文本的精確分割, 阻礙了疫病古籍中蘊含的用藥規律和防病治病經驗的挖掘利用。因此,《基于中醫疫病古籍文本自動分詞的藥物規律挖掘研究》提出了一個包含數據獲取層、序列標注層、自動分詞層和應用服務層的中醫疫病古籍文本自動分詞及藥物規律挖掘框架, 通過將提出的框架應用于疫病古籍語料庫, 實驗結果表明, 深度學習算法在中醫疫病古籍文本自動分詞任務中性能良好。分詞提供了準確的數據基礎, 而深入分析這些數據則進一步揭示了中醫藥物使用的內在規律和治療原則, 二者相輔相成, 共同推動著中醫學的傳承和發展。在分詞基礎上, 通過方劑中的各類劑型統計、部分常用中藥統計和部分常用藥對統計, 文章實現了中醫疫病領域古籍文本詞匯級藥物規律挖掘初步應用, 這為日后疫情防控、診療決策輔助和人文計算工具的智慧化開發提供了參考。
李 賀吉林大學商學與管理學院教授、博士生導師