姜 贏, 莊潤鈸, 吳燁凡, 朱玲萱(北京師范大學珠海分校 管理學院, 珠海 519087)
基于描述邏輯本體推理的語義級中文校對方法①
姜 贏, 莊潤鈸, 吳燁凡, 朱玲萱
(北京師范大學珠海分校 管理學院, 珠海 519087)
近年來中文校對技術雖然在字詞級和語法級層面取得了較好效果, 但是對于語義級層面研究相對薄弱,目前相關研究都有一定局限性. 提出利用本體技術將中文文本中的語義內容提取出來轉換為結構化本體, 再與正確的領域背景本體庫融合, 通過描述邏輯推理機來判斷提取的語義內容的邏輯一致性, 并將檢測出的邏輯一致性錯誤映射為中文語義錯誤. 此方法在政治敏感錯誤等領域進行了測試, 與其他相關研究相比, 具有語義查錯的透明性、語義模型的完整性、語義推理的智能型等優勢.
中文校對; 語義校對; 本體推理; 描述邏輯; 推理機
隨著計算機技術的不斷發展, 報刊、圖書等傳統媒體的文字錄入、編輯、排版、校對和印刷已經電子化了. 包括辦公室和家庭在內的各種互聯網用戶在中文文字處理及校對軟件上的需求量也非常大. 現有的中文校對軟件(例如, 黑馬校對系統、金山WPS)可以根據中文詞法關系和語法結構, 自動分析中文文本中的詞句并將疑問處標紅, 可以一次濾掉大量的文字錄入錯誤, 包括丟字、多字、錯字和語句不通等, 特別適合二、三連校中的而校及終校把關[1]. 但是目前中文校對軟件還不能完成替代人工校對, 其中一個重要原因在于, 雖然其字詞級和語法級層面取得了較好效果,但是語義級層面中文校對技術研究相對薄弱[2]. 例如,“馬英九在臺灣的職務是總統”這個句子既沒有字詞錯誤, 也沒有語法錯誤, 但是其語義錯誤的原因在于:“由于臺灣不是一個國家, 所以它不能有總統”, 需要在“總統”前添加“所謂”, 但這樣的背景知識只有專業校對人員來進行人工判斷, 而中文校對軟件通過簡單的關鍵詞過濾是無法準確處理的: 如果只是簡單判斷同時包含“馬英九”和“總統”的句子為錯誤語句, 將導致“馬英九給美國總統致電”這樣的正確句子錯判.
由于英文文本的詞與詞之間是以空格符為分隔符的, 所以英文自動校對基本以詞的校對為核心, 是在非詞錯誤和真詞錯誤這兩個層次上進行的. 研究發現英文文本中非詞錯誤占60%, 真詞錯誤占40%[3]. 其中,非詞錯誤即字串不是詞典中存在的; 真詞錯誤即字串是詞典中存在的詞[4], 但它與上下文搭配不當, 引起句法的語義錯誤, 故真詞錯誤也是語義錯誤的一種.國內也一般認為語義錯誤是指一些語言錯誤是體現在語義的層面上, 即在字詞層面和語法搭配上不存在問題, 而是在語義層面上的搭配有誤[2], 包括一些表達的內容在某個具體的語境中不該出現的搭配(例如,“聰明的手”). 文本校對類型分為字詞級、語法級和語義級3類[5]. 綜上所述, 本文研究的語義級中文校對是指針對漢語文本中上述語義錯誤而進行的文本校對,簡稱中文語義校對.
中文語義校對研究始于2003年, 鄭逢斌教授在2003年指出: “辨識一個語句的意義首先要了解其中每一個詞素或詞的語義, 積詞成句, 再了解句子的語義,然后按上下文的語義來理解全篇. 讓機器能完全理解和表示自然語言當然是一條求之不得的途徑, 但由于自然語言的復雜性, 這條途徑困難很大. ”[4]. 2003年羅振生教授指出文本自動校對中的語義錯誤檢查仍相當困難, 但不是無從著手[3], 張仰森教授于2006年也提出同樣觀點, 并指出在未來這方面仍需深入研究, 呼吁加強句法、語義層次的校對策略研究[6]. 根據各個專家研究內容和思路的不同將國內外語義校正研究劃分成以下三類.
2.1 模糊語義對比方法(黑箱模型)
2003年鄭逢斌等給出了用句子語義骨架表示句子語義的具體方法和表示形式, 然后計算文本中語句與知識庫中相關知識進行模糊匹配而得出語句的錯誤程度[4]. 2010年Kai A. Olsen等也提出通過模糊比較目標句子與大型文本庫中相似句子的方法來鑒別文本拼寫、語法甚至語義錯誤的方法[7]. 以上兩種都屬于模糊語義對比方法, 他們的出發點在于認為完全精確的理解句子語義可行性不高, 因此采取繞過精確語義理解的思路, 通過建立某種模糊語義模型, 將知識庫或文本庫中的正確句子與目標句子進行模糊匹配來判斷語義錯誤. 這種方法本質上是一種黑箱模型, 雖然知道有語義錯誤, 也可以計算語義錯誤程度值并選擇性的糾正錯誤, 但是其局限性在于不知道具體有什么語義錯誤, 語義錯誤類型是什么, 為什么是語義錯誤, 以及為什么糾錯之后的是正確的語義.
2.2 精確語義匹配方法(白箱模型)
2009年程顯毅教授提出基于HNC的中文文本校對系統模型[5]. HNC 是由中科院聲學研究所的黃曾陽先生專門針對漢語的特點而提出來的一種用于自然語言理解的理論[8], 該理論由語言概念空間考察自然語言空間, 以概念聯想脈絡為主線, 建立一種模擬大腦語言感知過程的自然語言表述模式和計算機理解處理模式. 但是由于HNC本身并沒有語義推理機制, 需要通過窮舉57種句式語義來判斷語義錯誤, 不適合大規模語義校對應用. 此類屬于精確語義匹配方法, 即使用某種語義知識表示模型提取文本中的語義對象以及語義對象之間的關系, 精確判斷文本的語義錯誤類型和錯誤原因. 這是基于白箱模型思路的一種解決語義錯誤的方法[5].
2.3 語義搭配校對方法
2003年羅振聲等提出統計和規則相結合的校對策略, 既能檢查局部語義限制, 也能檢查長距離的語義搭配[4]. 2010年張仰森等提出了一種基于《知網》義原搭配的有效的自動查錯方法[9]. 2012年張仰森等進一步提出基于知識庫的多層級中文文本查錯推理模型[2].對于此類研究, 羅振聲教授明確指出: “這里的語義檢查同傳統的語義分析是兩個完全不同的概念, 它并不試圖建立句子的語義框架, 只是從成分的搭配關系上加以考察”[4]. 也就是說此類方法只能檢查單一的語義搭配錯誤, 而無法處理其他語義錯誤.
自2004年OWL第1個版本被W3C聯盟推薦為國際標準以來, 基于描述邏輯的本體一致性推理理論研究非常熱門, 目前其推理算法研究已相對成熟. OWL本體能夠描述各個領域常見語義對象及其語義關系, 是解決各個領域語義問題廣泛應用的理論模型,被認為是下一代語義網技術基石[10]. OWL建立在嚴格的描述邏輯基礎之上, 只要語義推理規則制定正確,其推理結果準確度可達100%. 利用本體推理技術分析和診斷本體中的邏輯不一致性, 最終使之成為邏輯上一致的本體, 成為本體論的一個重要理論任務.
本文提出基于描述邏輯本體推理的中文語義校對方法總體思路如下: 利用本體學習技術將中文文本中的語義內容提取出來轉換為結構化本體, 再與正確的領域背景本體庫融合, 通過描述邏輯推理機來判斷提取的語義內容的邏輯一致性, 并將檢測出的邏輯一致性錯誤知識映射為中文語義錯誤. 此方法的基本假設和基本觀點如下:
(1) 基于本體論的中文語義校對模型, 發揮了本體論在語義描述、語義推理、語義演化等方面的優勢,是白箱模型思路的一種徹底解決中文語義錯誤的根本辦法, 是中文語義校對技術發展趨勢之一.
(2) 隨著本體論、語義Web和語義技術的不斷發展, 各種領域本體庫將會越來越多, 獲取方式的開放化和數量的規模化是領域本體庫未來發展趨勢. 即使沒有可以通過免費協議獲取或商業途徑購買的特定領域本體庫, 也可以通過人工方法或半自動方法自行構建特定領域本體庫, 以滿足不同中文語義校對應用場景的需求, 相關工具軟件和技術方法也將越來越成熟.
(3) 中文語義提取是中文語義校對的核心步驟之一, 但它不需要對中文語句進行完全的語義分析, 只需針對特定領域本體庫提取關鍵三元組語義信息用于中文語義查錯即可, 可以通過不斷提高中文語義錯誤的召回率和準確率來逐步完善中語義提取算法, 這比進行完全的語義分析可行性要高.
(4) 近幾年基于描述邏輯的本體一致性推理, 其瓶頸在于對海量數據的大規模推理算法優化問題上.而中文語義校對一般用于文字處理軟件編輯環境, 一般針對的特定領域中文文本數據量也不會大(篇幅較大的中文文本也可先做切割處理), 因此對于邏輯一致性驗證推理性能要求不高. 此方法將中文語義校對問題轉換為OWL本體一致性驗證推理的邏輯問題, 充分利用了后者語義查錯準確度高的優勢, 而其性能上的劣勢也不是大問題.
4.1 基于本體學習的中文語義提取實現方法
利用自然語言處理和本體學習技術, 從非結構化的中文自然語言中提取語義內容, 進而轉換成基于RDF三元組的本體結構化形式, 提供給下一步語義查錯處理. 中文語義內容的提取包括語義對象(類和個體)和語義關系(語義屬性以及語義關聯). 具體來說, 有以下兩種實現方法.
(1) 基于規則的中文本體學習: 2006年研發了一個中文本體學習Protégé插件: OntoLTCn[11], 它將中文文本進行詞法、句法分析, 通過總結語義模式XML規則, 使用XPath匹配的方法抽取出語義對象和語義關系. 第一步, 利用ictclas4j中文詞法分析API對中文文本進行中文自動分詞和自動詞性標注. 第二步, 定義XML模式匹配規則(Mappings). 每一個匹配規則都包含兩個部分: XPath模式匹配條件(Conditions)和自動創建本體的操作(Operators). OntoLTCn能夠通過XML模式匹配的方式將這些特征詞匯和關聯映射到領域本體庫中的類、個體和屬性等等語義內容.
(2) 基于機器學習的中文本體學習: 基于規則的本體學習技術在語義對象提取效果較好, 而對于語義關系效果一般. 2011和2012年在基于機器學習的語義關系提取這個瓶頸問題上有重大突破. 基本思路是,利用DBpedia等LOD關聯數據和語料庫作為背景知識庫, 對于給定語義關系從LOD中提取實例并從語料庫中抽取中文本特征進行模式學習, 再通過模式檢索、排序、篩選等步驟, 從語料庫中匹配文本獲得新的語義關系實例, 轉而再回饋輸入LOD關聯數據, 這樣形成迭代循環機器學習過程.
4.2 基于本體一致性驗證推理的中文語義查錯實現方法
對于被檢測的中文文本采取基于段落掃描緩沖區的逐段處理模式來處理, 而不是傳統中文語法校正的逐句處理模式. 將每個段落中提取的若干RDF三元組與正確的領域本體庫進行融合, 利用選取的本體一致性驗證推理規則在推理機中進行推理, 兩者產生一致性邏輯矛盾即為檢測出來的中文語義錯誤. 實驗可供選擇的推理機包括Pellet或Jena等等. 針對備選本體一致性驗證推理規則, 可以利用本體修正增量式驗證推理機制, 即采取基于緩沖區和時間窗口的互動式推理排序方法對進行推理性能進行優化. 具體來說, 為每條推理規則建立影響度關聯機制, 在推理緩沖區之內調度語義錯誤所映射的一致性驗證邏輯錯誤, 使影響度高的先進性推理運算, 影響度低的根據前者運算采取跳過或簡化等方法提高效率, 完成一輪排序之后,時間窗口向后移動, 最終完成所有的一致性驗證推理.
以政治敏感語義錯誤及其語義校對作為例子來闡述具體實現方法, 主要包括以下兩個技術步驟:
(1) 政治敏感信息本體庫構建: 構建領域本體庫之前, 首先要搜集政治敏感信息. 由于政治類信息的敏感性和特殊性, 難以通過百度搜索等常規途徑在國內一般網絡上調研相關內容. 例如, 直接在關鍵字搜索框輸入“政治類敏感信息”, 這樣是收集不到想要的信息. 那么就需要具備查找信息的一些技巧, 可以委婉一點輸入“如何避免政治類敏感信息”或“如何避免政治性錯誤”. 在涉及政治性問題的用語規范方面,參考了新華社新聞報道中的禁用詞. 另外, 還通過使用谷歌收集完善了相關政治敏感信息.
其次, 在領域專家的協助之下, 使用OWL對中文政治敏感信息進行語義建模, 構建相應的OWL領域本體庫. 對政治敏感信息本體庫語義內容進行調研和歸納總結, 在借鑒政治敏感信息監測實驗基礎之上,建立了知識分類, 包括“機構”、“人物”, “職務”, 其他一切“國家”級別的稱謂和內容, 如“國歌”、“國旗”; 建立的具體的實例涉及黨政機構名稱, 國家領導人姓名職務, 涉及領土主權、對外關系問題、港澳臺問題等; 建立的實例關系主要是政治概念的邏輯關系, 如“總統是”的源代碼如圖1所示, 共和制國家和政治人物之間的邏輯關系, 只有“共和制國家”才有“總統”(Domain語義約束).

圖1 “總統是”實例關系本體OWL源代碼
(2) 政治敏感錯誤本體一致性推理
使用Protégé 4.1進行實驗, 綁定Pellet的 OWL推理機, 并提供一致性驗證推理解釋功能. 差分算法實驗的基準詞庫可以選用《人民日報》公開的1998年1月份語料庫. 一般來說, 詞和某領域的相關度, 與它在基本詞庫統計表的詞頻成反比, 而與它在OntoLTCn的XML模式匹配得到的詞頻成正比. 例如, 通過OntoLTCn中文語義提取文本“馬英九在臺灣的職務是總統”獲得RDF三元組“臺灣->總統->馬英九”. 如圖2所示, Protégé能夠通過可視化方式展示語義錯誤的解釋: “臺灣是(rdf:type)一個地區而不是一個共和制國家,國家和地區是語義不想交的(DisjointWith語義約束),只有“共和制國家”才有“總統”(Domain語義約束), 所以作為地區的臺灣不能有總統馬英九(Inconsistency語義錯誤)”.

圖2 “馬英九在臺灣的職務是總統”本體一致性推理校對結果
中文語義糾正首先需要本體推理回溯, 即通過SPARQL語句查詢知識庫中正確語義內容, 例如, “臺灣->當局領導人->馬英九”. 再將正確語義內容與語義錯誤對比, 進而自動形成中文語義糾正建議提供給用戶選擇修改: 將文本中的“總統是”糾正為“當局領導人是”即可.
在攻克上述關鍵技術問題的基礎之上, 利用一系列開源軟件和自研軟件, 使用Java 語言完成了基于描述邏輯本體推理的語義級中文校對方法的計算機系統實現, 使得計算機能夠自動運行中文語義校對.
5.1 相關軟件介紹
如表1所示, 利用了本體處理引擎Jena和語法校對LanguageTool等開源軟件, 極大提高了研發效率.另外, 對于三元組抽取等關鍵技術的核心算法, 采取自主研發或二次開發的策略.

表1 計算機系統實現所使用的相關軟件
在進行軟件架構設計的時候, 采取面向接口的原則, 避免依賴于某個具體的軟件工具. 也就是說, 如果今后能找到替換相應功能的、更好的軟件工具, 可以按照相應接口要求進行研發, 嵌入到系統中即可,其他模塊程序不需重寫代碼. 例如, ictclas4j可替換為Stanford NLP, Jena可替換為Pellet等.
5.2 具體實現過程
首先, ictclas4j進行初始化加載SegTag類(一次性加載). 利用SentenceSeg類的getSens()方法對中文文本分句. 利用SegTag. Split()方法對分句之后的每個句子進行中文自動分詞和自動詞性標注.

圖3 計算機系統實現過程流程圖
其次, 三元組提取采取基于規則的中文本體學習思路, 利用自主研發的OntoLTCn的XML模式匹配工具進行自動提取. 另外, 加入了一些算法優化: (1)索引優化: 對正確的本體庫中的類Class、實例Instance、關系ObjectProperty和屬性DatatypeProperty等文字Literal建立索引, 每次提取之前掃描一下索引, 至少保證被提取的三元組包含一個本體庫中的文字Literal才進行下一步推理(如果一個都不包含, 表明句子與本體庫領域完全無關, 則可以跳過推理); (2)差分優化:采取差分算法(chi-square)將詞頻低而領域相關度高的詞抽取出來、將詞頻高領域相關度高的詞剔除(一般來說, 詞和某領域的相關度, 與它在基本詞庫統計表的詞頻成反比, 而與它在OntoLTCn的XML模式匹配得到的詞頻成正比)
然后, 使用Jena將正確的本體庫讀取到OntModel中, 并將本體語言設置為OWL_DL_MEM_RULE_INF (其中, DL表示使用Disctiption Logics描述邏輯推理).將提取的三元組利用OntModel.addStatement()方法加入到正確的本體庫OntModel中. 調用OntModel的validate()方法, 獲得描述邏輯推理結果ValidityReport類對象, 如果它的isValid()結果是false則表明有語義錯誤. 利用ValidityReport.getReports()方法獲得語義錯誤列表, 然后使用迭代器循環輸出到LanguageTool錯誤報告中.
最后, 在LanguageTool傳統的語法校對功能上擴展XML語義錯誤規則解析模塊, 即在其語法檢查工具org.languagetool.rules包中添加類似于針對語語義錯誤規則patterns包, 其中包括(1)XML語義錯誤規則數據結構類SemanticRule及其(2)解析匹配算法類PatternRuleHandler. 然后研發繼承于語法檢查工具org.languageTool.rules.Rule類的語義校對規則解析的子類, 覆蓋其getMatches()方法. 然后增加OWL推理機調用程序模塊、OWL領域本體庫加載解析模塊, 使得語義錯誤在能夠映射到OWL描述邏輯推理.
6.1 實驗測試步驟
實驗是基于LanguageTool中文本語法校對XML規則定制方法[12], 主要利用上下文的字、詞或詞性等特征信息的提取的方法來實現. 在XML規則中使用有可能出現語義錯誤的關鍵字詞進行搭配模型, 來檢測一個句子是否存在錯誤.
首先選擇一個適當的生語料庫1(生語料庫1選取“搜狗實驗室的文本分類語料庫”), 用所編寫的本體庫進行推理來檢測里面所存在的語義錯誤. 然后對所檢測出的語義錯誤結果再進行計算機自動判斷與統計, 那么出現的結果會有三種情況: ①檢測出句子錯誤的內容正是預期想要的語義錯誤內容; ②檢測出句子錯誤的內容不是預期想要的語義錯誤內容;③存在的語義錯誤沒有被檢測出. 然后對所收集到的三類數據分別進行計數統計, 計算第一次檢測生語料庫1的正確率A1和覆蓋率B1. 接著根據所得到的檢測結果修改規則內容, 把修改好的規則拿來重新檢測生語料庫1, 統計第二次結果的準確率A2和覆蓋率B2較第一次統計是否有所提高. 換n個(本次測試取n=2, 生語料庫2選取“新浪微博積極、消極、矛盾數據”)生語料庫在進行循環測試, 不斷的修改和完善本體庫和推理規則, 從而有效提高檢錯的覆蓋率和正確率. 正確率是: ①/(①+②), 覆蓋率為①/(①+③).
6.2 實驗測試結果分析

表2 實驗測試數據結果表

配不當政治類 涉及港澳臺問題 2 5 1 2涉及領土主權問題 5 4涉及黨政名稱問題 1 0 5涉及前蘇聯問題 1 1涉及黨和國家方針問題 2 1涉及民族宗教問題 1 4 9涉及國際組織提法 1 3 8涉及法律問題 6 2涉及重要人物史實問題 4 1總計 1 6 1 7 1
將政治類和通識類語義錯誤利用本體推理分別對生語料庫1和生語料庫2進行檢測, 其中由于生語料庫2的數據內容過于龐大, 于是在其中隨機抽取一部分內容, 其數據量在175MB的內容來進行檢測. 如表2所示, 第一次檢測生語料庫1時, 通識類和政治類所得到的正確率都比較低, 主要的原因是第一次編寫本體庫時, 沒有意識到一些符合推理錯誤條件的文本內容但是正確句子的情況, 導致檢測的結果中存在較多的誤檢結果. 通過具體實例來實現修改完善本體庫,將一些誤檢結果最大程度的排除. 于是在修改后的本體庫第二次檢測生語料庫1, 通識類與政治類的正確率得到了明顯的提升, 都在78%以上. 生語料庫2是“新浪微博積極、消極、矛盾微博數據”. 由于在微博上人們的言論相對自由, 故會存在比較多的語義級錯誤.并且是基于生語料庫1的本體庫已較為完善, 第一次檢測生語料2庫兩類都取得了較高的正確率. 但通過計算機進一步的自動比對, 還是存在一些誤檢的結果,通過修改本體庫正確率都得到了一定的提升, 但是無法做到100%正確率, 原因是一些檢測的語句需要判斷具體語境的語義錯誤, 而所選擇的語料庫內容中一些是不符合該語境于是無法排除該校對錯誤的檢測結果, 這也是實驗的局限性所在.
綜上所述, 與其他現有方法相比, 此方法在以下三個方面具有明顯的優勢: (1)語義查錯的透明性: 此方法利用OWL本體提取文本中的語義對象以及語義對象之間的關系, 精確判斷文本的語義錯誤類型、錯誤原因以及如何糾錯, 不存在模糊性和不可知性. 這種白箱模型的透明性是模糊語義對比方法無法比擬的. (2)語義模型的完整性: 選擇的OWL本體, 是一個體系結構非常完整的語義知識表示和語義推理模型模型. OWL本體能夠描述包含語義搭配校對在內的各種常見語義對象及其關系(語義搭配校對可以使用“對象定義域/值域”建立映射). (3)語義推理的智能性; 語義推理基于描述邏輯, 它內置一致性邏輯推理機制, 其本體推理算法相對成熟, 可以直接利用Pellet或Racer等描述邏輯推理機進行智能自動語義查錯, 無需額外窮舉句式或者建立模糊語義骨架. 未來擬將此方法整合到現有的面向詞法和語法的中文校對軟件中, 使其提供語義級中文校對增值服務; 另外, 還將進一步測試此方法在其他不同領域中的應用情況并加以改進.
1 吳明.最新版黑馬校對軟件在新聞出版單位使用. http://data.chinaxwcb.com/epaper/2011/2011-06-20/11589. html. [2015-12-18].
2 吳林,張仰森.基于知識庫的多層級中文文本查錯推理模型.計算機工程,2012,20:21–25.
3 駱衛華,羅振聲,龔小謹.中文文本自動校對的語義級查錯研究.計算機工程與應用,2003,12:115–118.
4 鄭逢斌,陳志國,姜保慶等.語義校對系統中的句子語義骨架模糊匹配算法.電子學報,2003,8:1130–1140.
5 程顯毅,孫萍,朱倩.基于HNC的中文文本校對系統模型的研究.微電子學與計算機,2009,10:49–52.
6 張仰森,俞士汶.文本自動校對技術研究綜述.計算機應用研究,2006,6:8–12.
7 Olsen KA. A smart proofreader for all natural languages: Achieving semantic understanding by majority vote. ISRN Artificial Intelligence, 2012: 1–6.
8 史燕,程顯毅,楊天明,等.知網、HNC和框架網的語義知識表示異同.廣西師范大學學報(自然科學版),2009,1:173–176.
9 郭充,張仰森.基于《知網》義原搭配的中文文本語義級自動查錯研究.計算機工程與設計,2010,17:3924–3928.
10 Cuenca Grau B, Horrocks I, Motik B, et al. OWL 2: The next step for OWL. Journal of Web Semantics, 2008, 6(4): 309–322.
11 Jiang Y, Dong H, Xiong H. OntoLTCn: A chinese text oriented semi-auto ontology knowledge discovery tool. Proc. of International Conference on Computer Science and Software Engineering (CSSE 2008) Volume 6. Los Alamitos. IEEE Computer Society. 2008. 18–22.
12 姜贏,曾杰,林啟紅,郭穎珊,廖文生.LanguageTool中文本語法校對XML規則定制方法.圖書情報工作,2014,(3):86–91.
Semantic Level Chinese Proofreading Method Based on Description Logics Ontology Reasoning
JIANG Ying, ZHUANG Run-Bo, WU Ye-Fan, ZHU Ling-Xuan
(School of Management, Beijing Normal University(Zhuhai), Zhuhai 519087, China)
In recent years, the Chinese proofreading technology has achieved good results at the word-level and the grammar-level, while it’s relatively weak at the semantic level. This paper provides a new method of Chinese proofreading powered by the ontology technology. The semantic contents are firstly extracted from the Chinese texts and transformed into some kind of structured ontology, which is combined with the correct background ontology. The logical consistency of the extracted semantic content is determined by description logic reasoning machine, with the detected logical consistency error mapped into some Chinese semantic errors. This method is tested in the domain of political sensitive information. Compared with other methods, it has obvious advantages of the transparency of the semantic proofreading, the integrity of the semantic model and the intelligence of the semantic reasoning.
Chinese proofreading; semantic proofreading; ontology reasoning; description logics; reasoning machine
國家社會科學基金青年項目(14CTQ041)
2016-07-10;收到修改稿時間:2016-08-31
10.15888/j.cnki.csa.005680