文/鄭懿鳴 翟潔 胡曉龍 施軼劼 劉浩
在現有的自然語言處理技術、知識圖譜構建相關研究的基礎上,結合各種方式的優勢,同時利用盡可能豐富的數據源,專門針對中醫藥的查詢提出了較為適合的用于本系統的句式分析規則;同時,提供了知識圖譜與知識卡片相結合的方式更清晰地展示一種中藥實體的具體信息。
將知識圖譜與知識卡片相結合,用戶既可以閱讀文字以獲取詳細解釋,又可以通過視覺的圖形來感知知識本體之間的相關性。文字與圖形相輔相成,豐富了系統內涵,使得系統為用戶提供的資源不再單調,提高了系統的感知性。
2.1.1 中醫藥知識庫的構建
本系統采用自頂向下的策略,依次經過模式圖定義、知識抽取、知識融合三個步驟完成基礎知識庫的構建。模式圖包含知識庫擁有的概念、概念的屬性,以及概念之間的層次關系。知識抽取主要包括現有醫學文獻、醫療健康網站、中醫藥百科站點的知識抽取中醫藥相關的實體、實體類型、同義詞關系和“屬性-值”關系。知識庫的模式圖常用中醫藥知識庫主要包括中藥材、中醫證候、中醫疾病等上層概念及概念的屬性,構建模式圖。基于雙向LSTM-CRF模型的中醫藥實體識別方法。常用中醫藥知識庫構建中,需要從專業中醫藥文獻文本中識別藥品相關實體。
采用基于特征模板的方法,利用大規模語料學習出標注模型,進而對語句進行標注,特征模板通常是人工定義的一些二值特征函數,挖掘命名實體內部以及上下文的構成特點。采用基于雙向LSTM-CRF模型的中文實體識別方法來識別專業醫學典籍文檔中的中醫藥等實體。與傳統LSTM不同,雙向LSTM同時考慮了過去的特征和未來的特征,結果更具準確性。
2.1.2 基于自然語言處理技術的中醫藥智能問答
自然語言的處理通常采用自然語言技術(如命名實體識別等)對問題進行深層次的分割、理解。智能問答系統按照對數據的處理方式可以分為多種,盡管不同類型的問系統對于系統整體模塊的分工和實現存在一定差異,在一般情況下,依據Q&A系統的數據流程處理過程中,處理問題的框架都包括了問題理解、信息搜索和答案生成三個功能模塊。
2.1.3 基于KK算法和節點生成算法的中醫藥知識圖譜可視化
知識圖譜是一種以"語義網絡"為骨架而搭建起來的巨型網絡知識系統。它能夠能捕獲并展現領域概念之間的語義關系,使得各種知識資源中零碎、松散的知識本體互相聯系。將數據圖形化是生成知識圖譜的核心之一。作為一個可視化系統,界面必須清晰易懂,因此需要過濾部分次要信息,提取主要信息,并對結果隨機排序。
KK算法作為力導引圖布局算法,由一個雙層循環構成。外層循環改變當前正在選擇最佳位置的節點,內層循環控制此節點可改變位置的次數。實則就是在微小移動一個節點的同時,固定其他所有節點。KK算法將迭代次數的限制致力于內循環上。控制所有節點的移動次數上限,保證了即便無法達到最完美布局,但整體效果依然呈現出平衡、穩定的效果。
(1)中文語言與其他的語言最大的不同的地方在中文的詞匯之間沒有空格使其分隔開,這加大了語言處理算法對語句分割、語義理解的難度。
(2)由于本系統是以中醫藥為核心,必須格外注意源數據的權威性。同時在建立中醫藥知識庫的構建過程中,會存在詞典需求特殊的問題,需要進行特別的詞性標注。
(3)在帶有歧義詞語的句子中,經常會出現非期望的結果。在對用戶輸入的自然語言進行處理時,需要通過調用HanLP的相應方法來實現對分詞進行整合。但是,在帶有歧義詞語的句子中,仍會不可避免地出現非期望的結果。
(4)可視化的知識圖譜布局平衡問題。需要使用相應算法來實現知識圖譜布局的美觀和易讀性。否則圖譜節點連線會出現互相交叉的現象,降低圖譜的閱讀性。
基于對用戶自然語言處理接受的需要,必須對用戶輸入的自然語言進行處理。處理的方法采用了CRF++技術對用戶輸入進行基本分割,并根據基本名詞短語識別(BaseNP)的4tag模式。通過對已經標注好的每個單字,根據它的BaseNP標記進行整合。這一部分通過調用HanLP的相應方法來實現。經過多次實踐發現,CRF對于陌生的詞匯具有較高的識別率,但也不可避免地出現少數非期望的結果,特別是在帶有歧義詞語的句子中。此時需要調用其他的分詞器來進行校正。
通過CRF獲得分詞結果之后,需要對結果進行整理,并標注詞性。采用了人民日報2014年詞性標注庫進行詞性標注。針對該系統的特殊需求,新增了中藥、疾病、信號詞、疑問詞等詞性的特殊詞性標注,方便了該系統通過此行來過濾關鍵詞、信息詞的提取。
由于用戶時常不能準確定位所需檢索的問題的關鍵詞信息,所以有必要進行同義詞匹配的處理。本系統所采用的詞典是根據哈工大信息檢索研究中心的《同義詞詞林(擴展版)》而修訂的同義詞詞典。其為原詞典的簡化版,并且加入了很多專用于中藥特性的詞語,以更好地進行同義詞匹配。
當用戶輸入的詞語是疾病或者是癥狀類型詞時,系統將對應的癥狀與數據庫進行匹配,檢索出與之相關的中醫藥品類,按照相關程度給出適合該癥狀或疾病的中醫藥列表作為用藥的輔助依據。
本系統實現了依照用戶輸入的書面或者口語化語言,進行漢語言標注;根據信號詞進行句式模板匹配,根據一定的匹配原則,產生相應的查詢語句,在已有的中醫藥知識庫中檢索需要提供給用戶的信息,并通過知識卡片、可視化圖譜、用藥推薦的方式呈現出來。