, ,
我國正致力于以全面維護和增進人民健康,提高健康公平,實現社會經濟與人民健康協調發展為目標,以公共政策為落腳點,以重大專項、重大工程為切入點的國家戰略。例如,中國衛生政策支持項目(HPSP項目)的目的是提高依靠證據建立并提高新政策的決策能力,通過合作機制,努力建立一個高效、公平和高質量的衛生政策支持系統,使各級衛生決策者能以合適方式及時地獲得,從而為決策和管理服務。“健康中國2020”戰略也提出了推動衛生事業發展的8項政策措施,其中包括建立與經濟社會發展水平相適應的公共財政投入政策與機制。
國內已有的醫療衛生政策法規是衛生政策決策者制定新政策的重要依據之一,但相關政策法律又相當復雜,包括憲法、法律、行政法規、地方性法規、規章及規范性文件,其法律效力、層次、適用范圍都不同。因此,衛生政策制定者在制定一項政策之前往往要查閱大量相關政策法規。
醫療衛生知識管理的主要內容是對現有證據進行有效收集、分析、綜合和傳播,以保證相關衛生政策制定是以知識或證據為基礎。有效的知識管理系統能及時全面地從各知識源獲取所需要的知識并分析整合,形成醫療衛生政策相關的證據,通過合適的方式發布,提高國家和省級政策制定者利用健康和醫療相關知識的能力,使決策者在選擇政策時獲得全面系統的知識以幫助和支持相應的決策過程。
任何知識管理解決方案都應包含一種知識組織模型的思路,其具體技術實現有本體(RDF/OWL)[1]、主題地圖(Topic Maps)[2]、Prolog[3]等多種方式。它們在知識表示能力、推理能力等方面各有優劣(見表1),可根據具體應用的需要進行選擇。

表1 主流知識管理技術特點比較
在W3C聯盟提出的語義網結構藍圖中,本體作為URL、XML之上知識表示層有著非常重要的地位。W3C聯盟在2001年提出RDF(資源描述框架)技術標準和2004年提出的OWL(Web本體語言)技術標準[4]都是本體描述語言的具體國際標準。隨著語義網的發展,本體被廣泛應用于醫療衛生、國防、制造業、生物學、歷史學、情報學等領域。例如,浙江大學計算機學院與中國中醫藥研究院(China Academy of Traditional Chinese Medicine ,CATCM)合作開發的Dartgrid[5],通過擁有70多個類及800多個屬性的中醫藥正式本體從語義上整合了70多個遺留中藥數據庫。其中,中醫藥本體是作為單獨的語義層存在的,其作用在于彌合遺留異構關系數據庫之間的差異,從而從語義上將它們整合到一起,并且提供對中醫藥團體的一體化語義提問、查詢和導航服務。國外最早研究醫療衛生法律本體的是2000年Despres等提出的Medical Law Ontology[6],它利用已有的法律核心本體和來自醫學專業人士訪談為基礎,并采取文本挖掘技術從法律文本中抽取領域詞表,最終設計了一套醫療衛生法律本體,并提供統一的醫療衛生法律檢索系統。Alessio等在2014年擴展了Eunomos法律知識管理系統[7],并構建了醫療法律本體映射,其目的是利用本體打通法律領域和醫療領域的知識鴻溝,主要用于診療臨床路徑推理和醫療法律服務輔助等方面[8]。
主題地圖是用來組織和表示專業領域知識的一種ISO標準,是為了方便人們對于海量知識的管理及導航。一個主題地圖是一些人們感興趣的具體科目的主題,一些表示這些科目間關系的關聯,以及一些作為這些科目相關信息資源。主題地圖因其在知識與資源關聯的描述上的優勢而被廣泛應用于檔案管理、數字圖書館、教育等領域。它的局限性在于知識描述能力沒有本體強,且沒有推理機制。例如,挪威Cerpus AS公司BrainBank產品[9]是一款基于概念的學習的教育工具,利用主題地圖技術使知識得以文檔化,還可以將不同用戶的主題地圖融合用來表征一個組織的知識結構。
Prolog是當代最有影響的人工智能語言之一,由于該語言很適合表達人的思維和推理規則,在自然語言理解、機器定理證明、專家系統等方面得到了廣泛的應用,已經成為人工智能應用領域的強有力的開發語言。Prolog是陳述性語言,一旦提交必要的事實和規則之后,Prolog就使用內部的演繹推理機制自動求解程序給定的目標,而不需要在程序中列出詳細的求解步驟。例如,Basic Medical Knowledge (BMK)[10]使用Prolog作為邏輯規則來建立不同條件下診療臨床路徑推薦目錄。
綜上所述,從研究內容來看,國內外相關研究主要是通過提供統一的框架,使用本體減少知識整合過程中在概念上和術語上的混淆,從而使醫療衛生法律知識整合更有效。本文選擇本體技術作為醫療衛生政策法律知識管理系統的核心,主要是利用本體對知識的描述來檢索知識庫,從而提高檢索的效率和精確度。從用戶角度來看,國內外相關研究主要是針對使用者,如醫療工作者、醫院管理人員和醫患糾紛律師,幫助他們解決法律實施過程中的具體問題。本文則是針對醫療衛生政策決策者,提供醫療衛生政策法律的制定、修改和廢止的決策支持。
現行《國家行政機關公文處理辦法》規定國家行政公文有13種:命令(令)、決定、公告、通告、通知、通報、議案、報告、指示、批復、意見、函、會議紀要等。可以按照上行文、下行文和平行文將公文分為三類。其中議案兼有上行文和平行文的雙重特征,通知同時屬于平時文和下行文之列,會議紀要可以是下行文,也可以是平行文。
醫療衛生政策法律種類繁多,主要包括醫政類政策法規、藥政類政策法規、婦幼類政策法規、防預類法規、衛生監督類法規、計劃生育類政策法規、醫院檢疫類政策法規、血液制品管理的規定等。但由于國家對紅頭文件的格式有一定的顯性的限制,并且長期以來,紅頭文件的書寫也產生了一定的潛在的規律。這些限制和規律為信息管理工作和醫療衛生領域本體構建提供了一定的便利。從某種程度上講,電子檔案介于純文本和元數據結構之間。電子政務檔案一般由文件頭、正文和文件尾組成,某些文件可能有附件。正文標題由主送機關、原由和事項組成;原由有依據和目的兩種,事項的書寫方式一般有并列式和遞進式兩種。其結構如圖1所示。

圖1 醫療衛生政策法律文件電子檔案結構
醫療衛生政策法律文件檔案的載體多種多樣,有些是Word文檔,有些是tiff格式的掃描文件,還有一些是檔案數據庫,醫療衛生政策法律文件以掃描圖片的方式進行存放居多。對于這種不同載體的數據的加工,需要對Word、PDF、tiff等各種形式的數據進行本文識別和抽取。本文采取基于XML的半自動方式進行本體知識提取。
對于新制定的政策,知識管理模型應該能夠指引出它和已有的政策法規之間的關系。以醫療衛生政策法律文件關系為例,從時間線來看存在著多種聯系。如一旦上級召開某些醫療衛生政策會議,作為會議成果一般會產生一些新的思想和會議精神,一段時間后相關部門便會發布公文組織下屬各級政府進行學習。
政府會承辦一些活動,會組織各方面的人力物力來完成這些任務。具體來說,主要包括等價關系:新政策與已有的某個政策法規完全相同,那么就沒有必要制定新的政策;矛盾關系:新政策與已有的某個政策法規完全相矛盾,那么需要考慮兩個政策法規的法律效力的大小,即保留法律效力較大的那一個;包含關系:新政策的內容包含了已有的某個政策法規的內容,那么需要考慮新政策其他方面的內容;被包含關系:已有的某個政策法規的內容包含了新政策的內容,那么就沒有必要制定新的政策;相關關系:新政策與已有的某個政策法規內容相關,那么可以做為相關參考。
由于本文主要研究目的是讓相關醫療衛生政策決策方便地使用醫療衛生政策法律文件,并將文件中所隱含的知識抽取出來建立本體知識庫,使用戶容易獲取和利用。這些文件中的知識包羅萬象,包括醫學知識、診療規范和法律問題等,因此不太可能將其中所有的領域知識和常識知識全部抽取出來。
本文主要側重于構建文件生命周期相關的知識,例如文件發布、文件修改、文件關系以及同一個法律問題的不同文件,它們也是醫療衛生政策決策者最關心的并在決策過程中希望搜索到的相關信息。搜索到之后,再根據文件內容進一步決策。
根據以上原則,本文選取OWL作為本體知識表示建模語言,用于構建知識分類樹和知識關系。如表2所示,在領域專家的幫助之下設計了5個主要的本體知識分類,并用OWL語言進行了編碼。

表2 主要的本體知識分類
醫療衛生政策法律文件并不是孤立存在的,它們之間存在著補充、修改、轉發、印發、貫徹、集合各種關系,如表3所示。

表3 主要的本體知識關系
由于國內外環境的變化,我國各種醫療衛生政策創建、修改甚至廢止非常常見,導致了醫療衛生政策法律文件相應的演變。不同版本的文件在不同時間節點上生效,涉及同一個醫療衛生社會問題而來自不同的政府部門頒布的文件也可能同時生效。這些醫療衛生政策決策者所無法回避的現實問題在本體知識庫中都有相關定義。
由于醫療衛生政策法律文件特征非常明顯,本文采取基于自然語言處理的方法,包括3個步驟。
3.2.1 文本提取
醫療衛生政策法律文件是tiff格式的掃描圖片,包含若干個頁面。本文利用微軟的Office Document Imaging (MODI)來進行OCR文字識別,所有文件抽取的文本保存在txt文件中。如果醫療衛生政策法律文件是doc或者純文本文件,那么不需要此步驟。
3.2.2 本體知識的正則表達式[7]抽取
由于文件都是按照特定格式嚴格撰寫的,領域專家可以總結出基于正則表達式的本體知識抽取規則。例如,以下是兩個文件之間“印發”關系的正則表達式:“([[[]&&[u4e00-/9fa5]][|<|(][u4e00-u9fa5》]])印發”。
文件可以通過書名號“《》”識別,還包括兼容OCR錯誤識別出來的“<>”和“<<>>”等標點符號。這個步驟的產物是被識別出來的XML格式的本體知識以及本體知識關系本體編碼:被抽取的本體知識通過Dom4j和Jena[11]來編碼成OWL格式,最終被存儲到Allegrograph[3]服務器中。
后臺知識管理系統是通過Protégé[7]實現的,可以在知識庫中錄入數據或者修改數據。庫中主要建立了“政策法規”“法律條文”“頒發單位”“專題”“事件”“時間”“衛生知識”“問題”“反映”等本體知識分類,圖2為后臺知識管理系統截圖。
4.1.1 政策法規類
主要是描述國內衛生方面的政策法規。“政策法規”類具有一系列的屬性來表示與該政策法規相關的一些知識:“發行時間”“實施時間”“失效時間”“標題”“所包含條文”“頒發組織”“文件編號”“前序法律”“后序法律”,其中“所包含條文”用來包含“法律條文”類的實例,“頒布組織”的取值范圍為“頒發組織”類的實例。
政策法規類下面又分有8種子類:“衛生基本法”“ 公共衛生服務法”“ 醫療保障法”“ 健康促進法”“ 公共衛生監督法”“ 環境保護法”“ 公共衛生危機管理法”、“ 國際公共衛生法”,每個子類具有一系列的實例與其對應。如圖2所示,“衛生基本法”就對應“中華人民共和國傳染病防治法”“中華人民共和國衛生檢疫條例”等8個本體實例。
4.1.2 法律條文類
用來表示政策法規中的每個條文,該類具有“所屬法律”“全文”“編號”“細化法律”“相關知識”“關系”等屬性。
“所屬法律”表示該條文屬于哪一個法律,“編號”表示該條文在其所屬法律中是第幾條,“細化法律”則是用來表示哪部法律有對該條文的進一步解釋;“相關知識”用來表示跟該條文相關的一些知識,它的取值范圍是“衛生知識”類的實例;“全文”則是表示該條文的全文;“關系”屬性用來表示條文之間的關系,其下還有“細化”“包含”“沖突”“等價”4個屬性,“細化”屬性表示一系列屬性是一個屬性的細化說明,“包含”屬性表示一個條文包含另一個條文,“沖突”屬性表示一個條文與另一個條文相沖突,“等價”屬性表示兩個條文之間的等價關系。
4.1.3 專題類
用來表述一些人們特別關系的法律專題知識,該類具有“所包含的條文”“發布時間”“相關知識”。下面分有一系列子類:“藥政”“醫政”“防疫”“衛生監督”“中醫藥”“婦幼”“醫藥管理局”“愛國衛生”“衛生檢疫”“計劃生育”“地方法規”“其它”,每個子類又有一系列實例。如 “衛生防疫”具有“狂犬病”“血吸蟲”“非典”等實例。“狂犬病”專題的“所包含的條文”屬性值為一系列“法律條文”實例。
4.1.4 衛生知識類
用來描述與健康相關的知識或支持衛生系統的信息、技術、專業知識和經驗等,具有“相關條文”“相關專題”“全文”等屬性。
“相關條文”或“相關專題”用來表示與該知識相關的條文或專題,“全文”則表述該衛生知識的全文。“衛生知識”類有三個子類:“疾病信息”“ 健康危險因素信息”“ 基本衛生信息”,均含有一系列的實例。例如,“傳染病”類對應于“SARS”“新生兒破傷風”“流行性疾病”“猩紅熱”“ 血吸蟲病”“瘧疾”等實例。

圖2 后臺知識管理系統截圖
系統前臺提供基于關鍵詞的法律法規全文檢索功能。如圖3所示,用戶以“傳染病”為檢索關鍵詞,將法律法規頒布時間限定在1976年1月至2007年1月之間。頒布部門限定在國務院,法律法規類型選項將檢索結果限定在法律范圍之內。滿足以上條件的法律很多,返回結果有《中華人民共和國食品衛生法》等,證明用戶對該法最為感興趣。用戶選擇該法律之后,有關該法律的簡要信息,包含用戶關鍵字的條款等被返回給用戶。

圖3 法規檢索系統功能
專題演變提供用戶所選法律專題的不同時間段、不同行政級別所頒布的法律條文變化情況。如圖4所示,在左欄的“專題演變”分類列表中用戶選定“非典”專題,而在右上的“條件設置”欄目中,用戶設定開始時間段和結束時間段以及頒布法律的行政級別及機構,比如選“部級”和“衛生部”,點擊“提交”,在下面的欄目中將呈現圖中的變化圖片,圖片中粉藍色部分是2003年5月衛生部所頒布的法律條文,而粉紅色部分是2003年6月頒布的法律條文,這兩部分的重疊部分是5、6月頒布的法律中語義相同的法律條文。將鼠標移至某一條文,將在圖中顯示該條文所屬法律文本的名稱和頒布時間。

圖4 專題演變系統功能
本文提出了基于本體的知識組織模型具體實現機制,并以國內衛生政策法規為突破口,建立國內衛生政策方面知識庫,使得決策者在制定政策時便捷地充分地獲取相關政策法律知識以幫助和支持相應的政策制定過程,能夠較好地解決衛生政策制定的知識組織、知識檢索和知識服務等問題,達到提供給衛生政策制定領導并作為輔助決策的依據的目標。
在實踐過程中,該系統在數據更新和發布方面有一定滯后性,主要原因在于知識管理后臺系統在體系結構上屬于單機系統,暫無法滿足多用戶快速更新維護數據的要求。未來將進一步研發和完善基于Web架構、網絡版本的知識管理后臺系統。