GSGD：一種基于BERT與本體推理的自動分級系統

2020-08-12 02:32:50王珊珊劉汪洋蔡惠民

計算機技術與發展 2020年8期

王珊珊，鄒佳，程序，劉汪洋，蔡惠民

(1.中電科大數據研究院有限公司，貴州貴陽 550022；2.提升政府治理能力大數據應用技術國家工程實驗室，貴州貴陽 550022)

0 引言

政府數據分級管理，能夠明確政府數據的范圍邊界和使用方式，是政府數據治理的關鍵性工作，為數據共享開放提供依據[1-2]。國務院2015年9月5日印發的《促進大數據發展行動綱要》(國發〔2015〕50號)的主要任務中明確提出要大力推動政府部門數據共享，穩步推動公共數據資源開放。國務院辦公廳于2017年5月18日印發并實施《政務信息系統整合共享實施方案》(國辦發〔2017〕39號)，提出了加快推進政務信息系統整合共享。2018年1月12日，貴陽市發布《貴陽市政府數據共享開放實施辦法》，用以協調解決政府數據共享開放有關重大問題。

根據《政務信息資源共享管理暫行辦法》、《貴州省政務數據資源管理暫行辦法》、《貴陽市政府數據共享開放實施辦法》，政府數據分級主要是對數據在開放和共享兩個方向進行分級；共享級別分別為無條件共享、有條件共享、不予共享三大等級，開放級別分別為無條件開放、依申請開放和不予開放三大等級。

目前，政府數據分級工作多為人工操作，然而，隨著政府數據的增長，人工標注已不能滿足分級工作要求，帶來了很多問題。由于分級政策法規條款較多，人工對大量的數據進行分級時需不停查閱相關規定導致工作量大、效率低；同時人為理解政策法規具有較強的主觀性，導致現有人工分級工作精確性差、較為主觀等。由于分級工作涉及領域較廣，例如：安全生產、健康保障、信用體系等，且需要政策法規依據支撐結果，因此傳統的分類方法不足以支撐分級工作。

法律本體能夠對法律法規進行條理的梳理、描述；還可通過自定義規則，以滿足個性化推理需求。Valente從法律的社會角色和功能出發，提出了FOLaw(functional ontology for law)[3]法律本體。Breuker[4]創建了LRI-Core法律本體模型。湯庸等結合了許多研究，提出了新的本體模型DOLegal[5]。賈君枝[6]等以專業人員參與為核心，提出了一種新的法律框架網絡知識本體模型。盧明純[7]在結合國內外研究成果的基礎上,提出了一種新的本體模型，并設計了原型系統。佘貴清等[8]基于歷史案例本體知識庫構建了刑事審判案例推理模型。姜贏等[9]構建了醫療衛生政策法律知識庫，以方便對政策法律進行管理。Thammaboosadee等[10]根據泰國刑法典提出了一個判決系統。上述研究大多針對《刑法》等法律且推理規則多關注于行為處罰措施，涉及法律內容較為單一。

本體的語義匹配技術較多，有基于模式的匹配、基于概念圖的匹配，以概念分類為基礎的學習策略等；賈君枝等在充分考慮法律語言的模糊性上，結合了相關技術，提出了基于法律框架網絡本體的語義匹配的基本思路；但基于框架網絡的語義匹配更適合應用于范圍界限較為清晰的領域[11]。

隨著大數據等技術的發展，采用大數據、人工智能等方法對政府數據自動進行分級已成必然趨勢。因此，文中以《中華人民共和國政府信息公開條例》、《政務信息資源共享管理暫行辦法》以及貴州省、貴陽市地方法規、標準等作為政策法規依據，以某些省市開放平臺中的典型案例作為案例數據，設計并實現了政府數據自動分級系統—GSGD，以解決現有人工分級支撐依據不足、主觀性強、精確性差的問題。

1 系統框架

GSGD由輸入數據、基礎能力、算法模型、結果輸出四個部分構成，系統框架如圖1所示。分級輸入數據格式為xx市政府各委辦局“行政區委辦局名稱系統名稱表名稱字段名稱”目錄，輸入數據樣例見表1。

圖1 分級系統框架

表1 輸入數據樣例與分級結果

基礎能力以及算法模型板塊完成了數據中間處理過程。基礎能力板塊主要是政策法規庫、典型案例庫、推理規則庫，文中分級結果以《中華人民共和國政府信息公開條例》、《政務信息資源共享管理暫行辦法》以及《貴州省政務數據資源管理暫行辦法》、《貴陽市政府數據共享開放條例》、《貴陽市政府數據共享開放實施辦法》等貴州省、貴陽市地方法規、標準作為依據，構建政策法規庫；以某些省市開放平臺中的典型案例作為依據，構建典型案例庫；根據政策法規庫以及典型案例庫中本體概念以及框架，設計自定義推理規則構成推理規則庫。將政策法規庫以及典型案例庫中的關鍵詞(例如：人事任免、健康保障等)提出作為分級關鍵詞。算法模型板塊由BERT[12]模型、相似度計算、Jena推理機[13]以及SPARQL查詢[14]構成；BERT與相似度計算完成輸入數據到政策法規庫/典型案例庫中關鍵詞的映射過程；Jena推理機以及SPARQL查詢完成政策法規庫/典型案例庫中關鍵詞到分級結果的推理分析過程。結果輸出模塊將對算法模型模塊的結果進行整理，并格式化輸出，輸出內容包括：開放結果、共享結果以及結果依據。系統整體流程如圖2所示。

圖2 系統整體流程

2 系統模塊設計

2.1 本體構建

文中采用Protégé作為構建本體工具，Protégé是由斯坦福大學開發的本體編輯器，具有眾多的插件。Protégé能夠直觀地以樹形層次目錄結構顯示本體，且操作簡便，是目前使用最廣泛的本體編輯器之一[15-16]。

圖3 政策法規庫本體框架

文中參考許多已有的研究，并結合分級工作的特性，構建了分級政策法規庫以及典型案例庫。政策法規本體庫頂層劃分為兩大概念：抽象實體和物理實體。抽象實體的子類有主題、分級、涉敏類別以及秘密類別，物理實體的子類有物理對象。根據貴陽市政府信息公開目錄對政策法規進行概念提取，例如，組配分類中的子類有：人事信息、總結公報、規劃計劃等。規范文件可分為：憲法、法律、行政法規、地方性法規、部門規章、其他規范文件，規范文件子類中各概念之間的效力級別采用“效力高于”這一對象屬性進行描述[17]，詳細的分類如圖3所示。典型案例庫采用與構建政策法規庫相似的方式進行構建，典型案例庫的本體框架如圖 4所示。構建數據為某些省市政府開放數據平臺上獲得的典型案例，例如：機動車駕駛證滿分名單等。

圖4 典型案例庫本體框架

2.2 基于BERT的相似度計算

BERT(bidirectional encoder representations from transformers)是基于深度雙向Transformer的預訓練模型，BERT在訓練任務中關注詞前后的信息，生成融合了上下文信息的語義向量，因此，BERT可以用于問答系統、命名實體識別、文本挖掘等任務中[12,18-20]。文中利用BERT獲得精準的語義向量，并將語義向量用于輸入數據以及分級關鍵詞的相似度計算中。

圖5 求詞/句向量流程

通過計算輸入數據中委辦局名稱、系統名稱、表名稱、字段名稱部分分別與分級關鍵詞的詞/句向量相似度，選取輸入數據每個部分所對應相似度較高的關鍵詞作為查詢推理的輸入。詞/句向量采用BERT進行計算，將BERT模型的輸出，即模型最后一層的輸出，作為輸入數據/關鍵詞中每個字的字向量；對輸入數據/關鍵詞的字向量求平均，得到輸入數據/關鍵詞的詞/句向量，流程如圖5所示。

計算輸入數據各部分的詞/句向量與每個分級關鍵詞的詞/句向量的余弦相似度，并取輸入數據各部分對應相似度最大的前兩個關鍵詞組成的關鍵詞集合作為查詢推理的輸入。余弦相似度用兩個向量夾角的余弦值作為衡量兩個個體間差異的大小，更加注重兩個向量在方向上的差異，較多地應用于文本相似度計算[21-22];假設有文檔x=,y=,其余弦相似度為[23]：

(1)

2.3 推理規則

文中使用Jena推理機完成本體查詢以及推理模塊。Jena是由HP Labs開發的Java開發，是一種開源的產生式規則的前向推理系統，可通過自定義規則完成個性化推理，通過Jena提供的OWL API接口、SPARQL查詢接口和本體推理機接口，可以實現基于本體智能應用程序[13,24-25]。

文中通過自定義的推理規則對通用規則進行擴展，滿足對實際應用的個性化需求，本體中有間接關系的概念可通過規則的制訂，經過推理最終被查詢到。Jena的推理規則分為前向規則和后向規則，文中使用的是前向規則，規則分為前提和結論，形式如下，其中term和hterm是三元組或擴展三元組[26-27]。

term,…,term->hterm,…,hterm

(2)

表2列出了部分推理規則及其功能。由于一些政策法規條款內容較為相似，例如，貴陽市政府數據共享開放實施辦法第二十五條與貴州省政務數據資源管理暫行辦法第二十八條。因此文中采用規則對條款之間的關系進行處理，使得某一條款“繼承”與其內容相似條款的關系，減輕人工構建本體時的工作量。雖然，文中所涉及的政策法規沒有沖突，為防止隨著政策法規增加，存在條款沖突的情況，給出了沖突檢測的推理規則，若兩條條款反映的是同一關鍵詞，但兩條條款涉及的分級結果不一致，則兩條條款沖突，此時效力較低的政策法規服從效力較高的政策法規，分級以效力較高的政策法規作為分級依據。表中還給出了獲得分級結果的推理規則，若某條款反映某一關鍵詞，條款涉及某個分級內容(這里以無條件開放為例)，則涉及這一關鍵詞的領域數據應當無條件開放；若某案例屬于某一平臺，此平臺涉及某個分級內容(這里以無條件開放為例)，則此案例應當無條件開放。

表2 部分推理規則及其功能

2.4 查詢實現

文中基于自定義規則，采用SPARQL查詢語句實現推理查詢功能[14，28]。對查詢推理的每個輸入詞進行分級結果查詢，輸出與輸入詞相關的政策法規條例，并檢測是否有與條例相沖突的其他條例；同時根據政策法規條例所屬類別，按其效力進行從高到低的排序，并選取效力最高的結果作為每個輸入詞對應的中間結果；若在政策法規庫中查找不到結果，則去典型案例庫中查找，將輸入詞與案例所屬平臺、案例名稱作為參考依據給出。

根據上述中間結果，開放以不與開放、依申請開放、無條件開放的從高到低的級別等級，共享以不予共享、有條件共享、無條件共享的級別等級，輸出開放和共享最高等級的結果，并輸出所有對應的法律法規條例作為參考依據。

3 系統實現與結果評估

圖6為所創建的GSGD系統，輸入擬分級數據后，上述模塊會對數據進行計算、推理、分析，最終系統會自動給出分級結果及其依據，點擊依據條例，系統會顯示詳細的條例信息。

圖6 系統測試示例

為驗證所實現系統的效果，文中采用歐氏距離(Euclidean distance)作為相似度計算對比方法進行實驗。實驗數據為xx市若干委辦局“行政區委辦局名稱系統名稱表名稱字段名稱”目錄，共500條，涉及衛計委、國稅局、城管局、公安局等委辦局數據目錄；由于數據是無標簽的，因此對數據分別從開放與共享兩個方向進行人工標注，以方便對比實驗結果。實驗結果也分別從開放與共享兩個方向進行對比，由表3可看出，不論是開放還是共享方向，文中方法相比于對比方法在準確率、F1值上更高，驗證了該方法的有效性。

表3 兩種方法對比結果(對共享、開放方向進行分級)

4 結束語

針對政府數據分級工作數據資源規模大，支撐依據不足、主觀性強、精確性差等問題，提出了采用政策法規庫以及典型案例庫對數據進行自動化分級，設計并實現了基于BERT以及本體構建推理的政府數據分級系統—GSGD。通過BERT以及相似度計算獲取本體推理查詢的輸入關鍵詞，再通過Jena推理機進行推理查詢，實現對政策法規沖突檢測、效力級別分析等功能，最終獲得分級結果以及依據；最后通過對比實驗分析，驗證了該方法的有效性。未來在以下幾個方向有待探索：一、采用人工構建本體，但隨著政策法規/案例的增加，應嘗試采用自動化方法構建政策法規庫以及案例庫；二、調整相似度計算方法，將多種相似度計算方法融合以得到更精確的結果。