基于描述邏輯本體推理的語義級(jí)中文校對(duì)方法①

2017-05-17 10:00:19莊潤(rùn)鈸吳燁凡朱玲萱北京師范大學(xué)珠海分校管理學(xué)院珠海519087

計(jì)算機(jī)系統(tǒng)應(yīng)用 2017年4期

姜贏, 莊潤(rùn)鈸, 吳燁凡, 朱玲萱(北京師范大學(xué)珠海分校管理學(xué)院, 珠海 519087)

姜贏, 莊潤(rùn)鈸, 吳燁凡, 朱玲萱
(北京師范大學(xué)珠海分校管理學(xué)院, 珠海 519087)

近年來中文校對(duì)技術(shù)雖然在字詞級(jí)和語法級(jí)層面取得了較好效果, 但是對(duì)于語義級(jí)層面研究相對(duì)薄弱,目前相關(guān)研究都有一定局限性. 提出利用本體技術(shù)將中文文本中的語義內(nèi)容提取出來轉(zhuǎn)換為結(jié)構(gòu)化本體, 再與正確的領(lǐng)域背景本體庫融合, 通過描述邏輯推理機(jī)來判斷提取的語義內(nèi)容的邏輯一致性, 并將檢測(cè)出的邏輯一致性錯(cuò)誤映射為中文語義錯(cuò)誤. 此方法在政治敏感錯(cuò)誤等領(lǐng)域進(jìn)行了測(cè)試, 與其他相關(guān)研究相比, 具有語義查錯(cuò)的透明性、語義模型的完整性、語義推理的智能型等優(yōu)勢(shì).

中文校對(duì); 語義校對(duì); 本體推理; 描述邏輯; 推理機(jī)

隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展, 報(bào)刊、圖書等傳統(tǒng)媒體的文字錄入、編輯、排版、校對(duì)和印刷已經(jīng)電子化了. 包括辦公室和家庭在內(nèi)的各種互聯(lián)網(wǎng)用戶在中文文字處理及校對(duì)軟件上的需求量也非常大. 現(xiàn)有的中文校對(duì)軟件(例如, 黑馬校對(duì)系統(tǒng)、金山WPS)可以根據(jù)中文詞法關(guān)系和語法結(jié)構(gòu), 自動(dòng)分析中文文本中的詞句并將疑問處標(biāo)紅, 可以一次濾掉大量的文字錄入錯(cuò)誤, 包括丟字、多字、錯(cuò)字和語句不通等, 特別適合二、三連校中的而校及終校把關(guān)[1]. 但是目前中文校對(duì)軟件還不能完成替代人工校對(duì), 其中一個(gè)重要原因在于, 雖然其字詞級(jí)和語法級(jí)層面取得了較好效果,但是語義級(jí)層面中文校對(duì)技術(shù)研究相對(duì)薄弱[2]. 例如,“馬英九在臺(tái)灣的職務(wù)是總統(tǒng)”這個(gè)句子既沒有字詞錯(cuò)誤, 也沒有語法錯(cuò)誤, 但是其語義錯(cuò)誤的原因在于:“由于臺(tái)灣不是一個(gè)國(guó)家, 所以它不能有總統(tǒng)”, 需要在“總統(tǒng)”前添加“所謂”, 但這樣的背景知識(shí)只有專業(yè)校對(duì)人員來進(jìn)行人工判斷, 而中文校對(duì)軟件通過簡(jiǎn)單的關(guān)鍵詞過濾是無法準(zhǔn)確處理的: 如果只是簡(jiǎn)單判斷同時(shí)包含“馬英九”和“總統(tǒng)”的句子為錯(cuò)誤語句, 將導(dǎo)致“馬英九給美國(guó)總統(tǒng)致電”這樣的正確句子錯(cuò)判.

1 語義錯(cuò)誤與語義校對(duì)的定義

由于英文文本的詞與詞之間是以空格符為分隔符的, 所以英文自動(dòng)校對(duì)基本以詞的校對(duì)為核心, 是在非詞錯(cuò)誤和真詞錯(cuò)誤這兩個(gè)層次上進(jìn)行的. 研究發(fā)現(xiàn)英文文本中非詞錯(cuò)誤占60%, 真詞錯(cuò)誤占40%[3]. 其中,非詞錯(cuò)誤即字串不是詞典中存在的; 真詞錯(cuò)誤即字串是詞典中存在的詞[4], 但它與上下文搭配不當(dāng), 引起句法的語義錯(cuò)誤, 故真詞錯(cuò)誤也是語義錯(cuò)誤的一種.國(guó)內(nèi)也一般認(rèn)為語義錯(cuò)誤是指一些語言錯(cuò)誤是體現(xiàn)在語義的層面上, 即在字詞層面和語法搭配上不存在問題, 而是在語義層面上的搭配有誤[2], 包括一些表達(dá)的內(nèi)容在某個(gè)具體的語境中不該出現(xiàn)的搭配(例如,“聰明的手”). 文本校對(duì)類型分為字詞級(jí)、語法級(jí)和語義級(jí)3類[5]. 綜上所述, 本文研究的語義級(jí)中文校對(duì)是指針對(duì)漢語文本中上述語義錯(cuò)誤而進(jìn)行的文本校對(duì),簡(jiǎn)稱中文語義校對(duì).

2 國(guó)內(nèi)外研究現(xiàn)狀

中文語義校對(duì)研究始于2003年, 鄭逢斌教授在2003年指出: “辨識(shí)一個(gè)語句的意義首先要了解其中每一個(gè)詞素或詞的語義, 積詞成句, 再了解句子的語義,然后按上下文的語義來理解全篇. 讓機(jī)器能完全理解和表示自然語言當(dāng)然是一條求之不得的途徑, 但由于自然語言的復(fù)雜性, 這條途徑困難很大. ”[4]. 2003年羅振生教授指出文本自動(dòng)校對(duì)中的語義錯(cuò)誤檢查仍相當(dāng)困難, 但不是無從著手[3], 張仰森教授于2006年也提出同樣觀點(diǎn), 并指出在未來這方面仍需深入研究, 呼吁加強(qiáng)句法、語義層次的校對(duì)策略研究[6]. 根據(jù)各個(gè)專家研究?jī)?nèi)容和思路的不同將國(guó)內(nèi)外語義校正研究劃分成以下三類.

2.1 模糊語義對(duì)比方法(黑箱模型)

2003年鄭逢斌等給出了用句子語義骨架表示句子語義的具體方法和表示形式, 然后計(jì)算文本中語句與知識(shí)庫中相關(guān)知識(shí)進(jìn)行模糊匹配而得出語句的錯(cuò)誤程度[4]. 2010年Kai A. Olsen等也提出通過模糊比較目標(biāo)句子與大型文本庫中相似句子的方法來鑒別文本拼寫、語法甚至語義錯(cuò)誤的方法[7]. 以上兩種都屬于模糊語義對(duì)比方法, 他們的出發(fā)點(diǎn)在于認(rèn)為完全精確的理解句子語義可行性不高, 因此采取繞過精確語義理解的思路, 通過建立某種模糊語義模型, 將知識(shí)庫或文本庫中的正確句子與目標(biāo)句子進(jìn)行模糊匹配來判斷語義錯(cuò)誤. 這種方法本質(zhì)上是一種黑箱模型, 雖然知道有語義錯(cuò)誤, 也可以計(jì)算語義錯(cuò)誤程度值并選擇性的糾正錯(cuò)誤, 但是其局限性在于不知道具體有什么語義錯(cuò)誤, 語義錯(cuò)誤類型是什么, 為什么是語義錯(cuò)誤, 以及為什么糾錯(cuò)之后的是正確的語義.

2.2 精確語義匹配方法(白箱模型)

2009年程顯毅教授提出基于HNC的中文文本校對(duì)系統(tǒng)模型[5]. HNC 是由中科院聲學(xué)研究所的黃曾陽先生專門針對(duì)漢語的特點(diǎn)而提出來的一種用于自然語言理解的理論[8], 該理論由語言概念空間考察自然語言空間, 以概念聯(lián)想脈絡(luò)為主線, 建立一種模擬大腦語言感知過程的自然語言表述模式和計(jì)算機(jī)理解處理模式. 但是由于HNC本身并沒有語義推理機(jī)制, 需要通過窮舉57種句式語義來判斷語義錯(cuò)誤, 不適合大規(guī)模語義校對(duì)應(yīng)用. 此類屬于精確語義匹配方法, 即使用某種語義知識(shí)表示模型提取文本中的語義對(duì)象以及語義對(duì)象之間的關(guān)系, 精確判斷文本的語義錯(cuò)誤類型和錯(cuò)誤原因. 這是基于白箱模型思路的一種解決語義錯(cuò)誤的方法[5].

2.3 語義搭配校對(duì)方法

2003年羅振聲等提出統(tǒng)計(jì)和規(guī)則相結(jié)合的校對(duì)策略, 既能檢查局部語義限制, 也能檢查長(zhǎng)距離的語義搭配[4]. 2010年張仰森等提出了一種基于《知網(wǎng)》義原搭配的有效的自動(dòng)查錯(cuò)方法[9]. 2012年張仰森等進(jìn)一步提出基于知識(shí)庫的多層級(jí)中文文本查錯(cuò)推理模型[2].對(duì)于此類研究, 羅振聲教授明確指出: “這里的語義檢查同傳統(tǒng)的語義分析是兩個(gè)完全不同的概念, 它并不試圖建立句子的語義框架, 只是從成分的搭配關(guān)系上加以考察”[4]. 也就是說此類方法只能檢查單一的語義搭配錯(cuò)誤, 而無法處理其他語義錯(cuò)誤.

3 總體思路

自2004年OWL第1個(gè)版本被W3C聯(lián)盟推薦為國(guó)際標(biāo)準(zhǔn)以來, 基于描述邏輯的本體一致性推理理論研究非常熱門, 目前其推理算法研究已相對(duì)成熟. OWL本體能夠描述各個(gè)領(lǐng)域常見語義對(duì)象及其語義關(guān)系, 是解決各個(gè)領(lǐng)域語義問題廣泛應(yīng)用的理論模型,被認(rèn)為是下一代語義網(wǎng)技術(shù)基石[10]. OWL建立在嚴(yán)格的描述邏輯基礎(chǔ)之上, 只要語義推理規(guī)則制定正確,其推理結(jié)果準(zhǔn)確度可達(dá)100%. 利用本體推理技術(shù)分析和診斷本體中的邏輯不一致性, 最終使之成為邏輯上一致的本體, 成為本體論的一個(gè)重要理論任務(wù).

本文提出基于描述邏輯本體推理的中文語義校對(duì)方法總體思路如下: 利用本體學(xué)習(xí)技術(shù)將中文文本中的語義內(nèi)容提取出來轉(zhuǎn)換為結(jié)構(gòu)化本體, 再與正確的領(lǐng)域背景本體庫融合, 通過描述邏輯推理機(jī)來判斷提取的語義內(nèi)容的邏輯一致性, 并將檢測(cè)出的邏輯一致性錯(cuò)誤知識(shí)映射為中文語義錯(cuò)誤. 此方法的基本假設(shè)和基本觀點(diǎn)如下:

(1) 基于本體論的中文語義校對(duì)模型, 發(fā)揮了本體論在語義描述、語義推理、語義演化等方面的優(yōu)勢(shì),是白箱模型思路的一種徹底解決中文語義錯(cuò)誤的根本辦法, 是中文語義校對(duì)技術(shù)發(fā)展趨勢(shì)之一.

(2) 隨著本體論、語義Web和語義技術(shù)的不斷發(fā)展, 各種領(lǐng)域本體庫將會(huì)越來越多, 獲取方式的開放化和數(shù)量的規(guī)模化是領(lǐng)域本體庫未來發(fā)展趨勢(shì). 即使沒有可以通過免費(fèi)協(xié)議獲取或商業(yè)途徑購買的特定領(lǐng)域本體庫, 也可以通過人工方法或半自動(dòng)方法自行構(gòu)建特定領(lǐng)域本體庫, 以滿足不同中文語義校對(duì)應(yīng)用場(chǎng)景的需求, 相關(guān)工具軟件和技術(shù)方法也將越來越成熟.

(3) 中文語義提取是中文語義校對(duì)的核心步驟之一, 但它不需要對(duì)中文語句進(jìn)行完全的語義分析, 只需針對(duì)特定領(lǐng)域本體庫提取關(guān)鍵三元組語義信息用于中文語義查錯(cuò)即可, 可以通過不斷提高中文語義錯(cuò)誤的召回率和準(zhǔn)確率來逐步完善中語義提取算法, 這比進(jìn)行完全的語義分析可行性要高.

(4) 近幾年基于描述邏輯的本體一致性推理, 其瓶頸在于對(duì)海量數(shù)據(jù)的大規(guī)模推理算法優(yōu)化問題上.而中文語義校對(duì)一般用于文字處理軟件編輯環(huán)境, 一般針對(duì)的特定領(lǐng)域中文文本數(shù)據(jù)量也不會(huì)大(篇幅較大的中文文本也可先做切割處理), 因此對(duì)于邏輯一致性驗(yàn)證推理性能要求不高. 此方法將中文語義校對(duì)問題轉(zhuǎn)換為OWL本體一致性驗(yàn)證推理的邏輯問題, 充分利用了后者語義查錯(cuò)準(zhǔn)確度高的優(yōu)勢(shì), 而其性能上的劣勢(shì)也不是大問題.

4 關(guān)鍵技術(shù)實(shí)現(xiàn)方法

4.1 基于本體學(xué)習(xí)的中文語義提取實(shí)現(xiàn)方法

利用自然語言處理和本體學(xué)習(xí)技術(shù), 從非結(jié)構(gòu)化的中文自然語言中提取語義內(nèi)容, 進(jìn)而轉(zhuǎn)換成基于RDF三元組的本體結(jié)構(gòu)化形式, 提供給下一步語義查錯(cuò)處理. 中文語義內(nèi)容的提取包括語義對(duì)象(類和個(gè)體)和語義關(guān)系(語義屬性以及語義關(guān)聯(lián)). 具體來說, 有以下兩種實(shí)現(xiàn)方法.

(1) 基于規(guī)則的中文本體學(xué)習(xí): 2006年研發(fā)了一個(gè)中文本體學(xué)習(xí)Protégé插件: OntoLTCn[11], 它將中文文本進(jìn)行詞法、句法分析, 通過總結(jié)語義模式XML規(guī)則, 使用XPath匹配的方法抽取出語義對(duì)象和語義關(guān)系. 第一步, 利用ictclas4j中文詞法分析API對(duì)中文文本進(jìn)行中文自動(dòng)分詞和自動(dòng)詞性標(biāo)注. 第二步, 定義XML模式匹配規(guī)則(Mappings). 每一個(gè)匹配規(guī)則都包含兩個(gè)部分: XPath模式匹配條件(Conditions)和自動(dòng)創(chuàng)建本體的操作(Operators). OntoLTCn能夠通過XML模式匹配的方式將這些特征詞匯和關(guān)聯(lián)映射到領(lǐng)域本體庫中的類、個(gè)體和屬性等等語義內(nèi)容.

(2) 基于機(jī)器學(xué)習(xí)的中文本體學(xué)習(xí): 基于規(guī)則的本體學(xué)習(xí)技術(shù)在語義對(duì)象提取效果較好, 而對(duì)于語義關(guān)系效果一般. 2011和2012年在基于機(jī)器學(xué)習(xí)的語義關(guān)系提取這個(gè)瓶頸問題上有重大突破. 基本思路是,利用DBpedia等LOD關(guān)聯(lián)數(shù)據(jù)和語料庫作為背景知識(shí)庫, 對(duì)于給定語義關(guān)系從LOD中提取實(shí)例并從語料庫中抽取中文本特征進(jìn)行模式學(xué)習(xí), 再通過模式檢索、排序、篩選等步驟, 從語料庫中匹配文本獲得新的語義關(guān)系實(shí)例, 轉(zhuǎn)而再回饋輸入LOD關(guān)聯(lián)數(shù)據(jù), 這樣形成迭代循環(huán)機(jī)器學(xué)習(xí)過程.

4.2 基于本體一致性驗(yàn)證推理的中文語義查錯(cuò)實(shí)現(xiàn)方法

對(duì)于被檢測(cè)的中文文本采取基于段落掃描緩沖區(qū)的逐段處理模式來處理, 而不是傳統(tǒng)中文語法校正的逐句處理模式. 將每個(gè)段落中提取的若干RDF三元組與正確的領(lǐng)域本體庫進(jìn)行融合, 利用選取的本體一致性驗(yàn)證推理規(guī)則在推理機(jī)中進(jìn)行推理, 兩者產(chǎn)生一致性邏輯矛盾即為檢測(cè)出來的中文語義錯(cuò)誤. 實(shí)驗(yàn)可供選擇的推理機(jī)包括Pellet或Jena等等. 針對(duì)備選本體一致性驗(yàn)證推理規(guī)則, 可以利用本體修正增量式驗(yàn)證推理機(jī)制, 即采取基于緩沖區(qū)和時(shí)間窗口的互動(dòng)式推理排序方法對(duì)進(jìn)行推理性能進(jìn)行優(yōu)化. 具體來說, 為每條推理規(guī)則建立影響度關(guān)聯(lián)機(jī)制, 在推理緩沖區(qū)之內(nèi)調(diào)度語義錯(cuò)誤所映射的一致性驗(yàn)證邏輯錯(cuò)誤, 使影響度高的先進(jìn)性推理運(yùn)算, 影響度低的根據(jù)前者運(yùn)算采取跳過或簡(jiǎn)化等方法提高效率, 完成一輪排序之后,時(shí)間窗口向后移動(dòng), 最終完成所有的一致性驗(yàn)證推理.

以政治敏感語義錯(cuò)誤及其語義校對(duì)作為例子來闡述具體實(shí)現(xiàn)方法, 主要包括以下兩個(gè)技術(shù)步驟:

(1) 政治敏感信息本體庫構(gòu)建: 構(gòu)建領(lǐng)域本體庫之前, 首先要搜集政治敏感信息. 由于政治類信息的敏感性和特殊性, 難以通過百度搜索等常規(guī)途徑在國(guó)內(nèi)一般網(wǎng)絡(luò)上調(diào)研相關(guān)內(nèi)容. 例如, 直接在關(guān)鍵字搜索框輸入“政治類敏感信息”, 這樣是收集不到想要的信息. 那么就需要具備查找信息的一些技巧, 可以委婉一點(diǎn)輸入“如何避免政治類敏感信息”或“如何避免政治性錯(cuò)誤”. 在涉及政治性問題的用語規(guī)范方面,參考了新華社新聞報(bào)道中的禁用詞. 另外, 還通過使用谷歌收集完善了相關(guān)政治敏感信息.

其次, 在領(lǐng)域?qū)＜业膮f(xié)助之下, 使用OWL對(duì)中文政治敏感信息進(jìn)行語義建模, 構(gòu)建相應(yīng)的OWL領(lǐng)域本體庫. 對(duì)政治敏感信息本體庫語義內(nèi)容進(jìn)行調(diào)研和歸納總結(jié), 在借鑒政治敏感信息監(jiān)測(cè)實(shí)驗(yàn)基礎(chǔ)之上,建立了知識(shí)分類, 包括“機(jī)構(gòu)”、“人物”, “職務(wù)”, 其他一切“國(guó)家”級(jí)別的稱謂和內(nèi)容, 如“國(guó)歌”、“國(guó)旗”; 建立的具體的實(shí)例涉及黨政機(jī)構(gòu)名稱, 國(guó)家領(lǐng)導(dǎo)人姓名職務(wù), 涉及領(lǐng)土主權(quán)、對(duì)外關(guān)系問題、港澳臺(tái)問題等; 建立的實(shí)例關(guān)系主要是政治概念的邏輯關(guān)系, 如“總統(tǒng)是”的源代碼如圖1所示, 共和制國(guó)家和政治人物之間的邏輯關(guān)系, 只有“共和制國(guó)家”才有“總統(tǒng)”(Domain語義約束).

圖1 “總統(tǒng)是”實(shí)例關(guān)系本體OWL源代碼

(2) 政治敏感錯(cuò)誤本體一致性推理

使用Protégé 4.1進(jìn)行實(shí)驗(yàn), 綁定Pellet的 OWL推理機(jī), 并提供一致性驗(yàn)證推理解釋功能. 差分算法實(shí)驗(yàn)的基準(zhǔn)詞庫可以選用《人民日?qǐng)?bào)》公開的1998年1月份語料庫. 一般來說, 詞和某領(lǐng)域的相關(guān)度, 與它在基本詞庫統(tǒng)計(jì)表的詞頻成反比, 而與它在OntoLTCn的XML模式匹配得到的詞頻成正比. 例如, 通過OntoLTCn中文語義提取文本“馬英九在臺(tái)灣的職務(wù)是總統(tǒng)”獲得RDF三元組“臺(tái)灣-＞總統(tǒng)-＞馬英九”. 如圖2所示, Protégé能夠通過可視化方式展示語義錯(cuò)誤的解釋: “臺(tái)灣是(rdf:type)一個(gè)地區(qū)而不是一個(gè)共和制國(guó)家,國(guó)家和地區(qū)是語義不想交的(DisjointWith語義約束),只有“共和制國(guó)家”才有“總統(tǒng)”(Domain語義約束), 所以作為地區(qū)的臺(tái)灣不能有總統(tǒng)馬英九(Inconsistency語義錯(cuò)誤)”.

圖2 “馬英九在臺(tái)灣的職務(wù)是總統(tǒng)”本體一致性推理校對(duì)結(jié)果

中文語義糾正首先需要本體推理回溯, 即通過SPARQL語句查詢知識(shí)庫中正確語義內(nèi)容, 例如, “臺(tái)灣-＞當(dāng)局領(lǐng)導(dǎo)人-＞馬英九”. 再將正確語義內(nèi)容與語義錯(cuò)誤對(duì)比, 進(jìn)而自動(dòng)形成中文語義糾正建議提供給用戶選擇修改: 將文本中的“總統(tǒng)是”糾正為“當(dāng)局領(lǐng)導(dǎo)人是”即可.

5 計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)過程

在攻克上述關(guān)鍵技術(shù)問題的基礎(chǔ)之上, 利用一系列開源軟件和自研軟件, 使用Java 語言完成了基于描述邏輯本體推理的語義級(jí)中文校對(duì)方法的計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn), 使得計(jì)算機(jī)能夠自動(dòng)運(yùn)行中文語義校對(duì).

5.1 相關(guān)軟件介紹

如表1所示, 利用了本體處理引擎Jena和語法校對(duì)LanguageTool等開源軟件, 極大提高了研發(fā)效率.另外, 對(duì)于三元組抽取等關(guān)鍵技術(shù)的核心算法, 采取自主研發(fā)或二次開發(fā)的策略.

表1 計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)所使用的相關(guān)軟件

在進(jìn)行軟件架構(gòu)設(shè)計(jì)的時(shí)候, 采取面向接口的原則, 避免依賴于某個(gè)具體的軟件工具. 也就是說, 如果今后能找到替換相應(yīng)功能的、更好的軟件工具, 可以按照相應(yīng)接口要求進(jìn)行研發(fā), 嵌入到系統(tǒng)中即可,其他模塊程序不需重寫代碼. 例如, ictclas4j可替換為Stanford NLP, Jena可替換為Pellet等.

5.2 具體實(shí)現(xiàn)過程

首先, ictclas4j進(jìn)行初始化加載SegTag類(一次性加載). 利用SentenceSeg類的getSens()方法對(duì)中文文本分句. 利用SegTag. Split()方法對(duì)分句之后的每個(gè)句子進(jìn)行中文自動(dòng)分詞和自動(dòng)詞性標(biāo)注.

圖3 計(jì)算機(jī)系統(tǒng)實(shí)現(xiàn)過程流程圖

其次, 三元組提取采取基于規(guī)則的中文本體學(xué)習(xí)思路, 利用自主研發(fā)的OntoLTCn的XML模式匹配工具進(jìn)行自動(dòng)提取. 另外, 加入了一些算法優(yōu)化: (1)索引優(yōu)化: 對(duì)正確的本體庫中的類Class、實(shí)例Instance、關(guān)系ObjectProperty和屬性DatatypeProperty等文字Literal建立索引, 每次提取之前掃描一下索引, 至少保證被提取的三元組包含一個(gè)本體庫中的文字Literal才進(jìn)行下一步推理(如果一個(gè)都不包含, 表明句子與本體庫領(lǐng)域完全無關(guān), 則可以跳過推理); (2)差分優(yōu)化:采取差分算法(chi-square)將詞頻低而領(lǐng)域相關(guān)度高的詞抽取出來、將詞頻高領(lǐng)域相關(guān)度高的詞剔除(一般來說, 詞和某領(lǐng)域的相關(guān)度, 與它在基本詞庫統(tǒng)計(jì)表的詞頻成反比, 而與它在OntoLTCn的XML模式匹配得到的詞頻成正比)

然后, 使用Jena將正確的本體庫讀取到OntModel中, 并將本體語言設(shè)置為OWL_DL_MEM_RULE_INF (其中, DL表示使用Disctiption Logics描述邏輯推理).將提取的三元組利用OntModel.addStatement()方法加入到正確的本體庫OntModel中. 調(diào)用OntModel的validate()方法, 獲得描述邏輯推理結(jié)果ValidityReport類對(duì)象, 如果它的isValid()結(jié)果是false則表明有語義錯(cuò)誤. 利用ValidityReport.getReports()方法獲得語義錯(cuò)誤列表, 然后使用迭代器循環(huán)輸出到LanguageTool錯(cuò)誤報(bào)告中.

最后, 在LanguageTool傳統(tǒng)的語法校對(duì)功能上擴(kuò)展XML語義錯(cuò)誤規(guī)則解析模塊, 即在其語法檢查工具org.languagetool.rules包中添加類似于針對(duì)語語義錯(cuò)誤規(guī)則patterns包, 其中包括(1)XML語義錯(cuò)誤規(guī)則數(shù)據(jù)結(jié)構(gòu)類SemanticRule及其(2)解析匹配算法類PatternRuleHandler. 然后研發(fā)繼承于語法檢查工具org.languageTool.rules.Rule類的語義校對(duì)規(guī)則解析的子類, 覆蓋其getMatches()方法. 然后增加OWL推理機(jī)調(diào)用程序模塊、OWL領(lǐng)域本體庫加載解析模塊, 使得語義錯(cuò)誤在能夠映射到OWL描述邏輯推理.

6 實(shí)驗(yàn)測(cè)試與分析

6.1 實(shí)驗(yàn)測(cè)試步驟

實(shí)驗(yàn)是基于LanguageTool中文本語法校對(duì)XML規(guī)則定制方法[12], 主要利用上下文的字、詞或詞性等特征信息的提取的方法來實(shí)現(xiàn). 在XML規(guī)則中使用有可能出現(xiàn)語義錯(cuò)誤的關(guān)鍵字詞進(jìn)行搭配模型, 來檢測(cè)一個(gè)句子是否存在錯(cuò)誤.

首先選擇一個(gè)適當(dāng)?shù)纳Z料庫1(生語料庫1選取“搜狗實(shí)驗(yàn)室的文本分類語料庫”), 用所編寫的本體庫進(jìn)行推理來檢測(cè)里面所存在的語義錯(cuò)誤. 然后對(duì)所檢測(cè)出的語義錯(cuò)誤結(jié)果再進(jìn)行計(jì)算機(jī)自動(dòng)判斷與統(tǒng)計(jì), 那么出現(xiàn)的結(jié)果會(huì)有三種情況: ①檢測(cè)出句子錯(cuò)誤的內(nèi)容正是預(yù)期想要的語義錯(cuò)誤內(nèi)容; ②檢測(cè)出句子錯(cuò)誤的內(nèi)容不是預(yù)期想要的語義錯(cuò)誤內(nèi)容;③存在的語義錯(cuò)誤沒有被檢測(cè)出. 然后對(duì)所收集到的三類數(shù)據(jù)分別進(jìn)行計(jì)數(shù)統(tǒng)計(jì), 計(jì)算第一次檢測(cè)生語料庫1的正確率A1和覆蓋率B1. 接著根據(jù)所得到的檢測(cè)結(jié)果修改規(guī)則內(nèi)容, 把修改好的規(guī)則拿來重新檢測(cè)生語料庫1, 統(tǒng)計(jì)第二次結(jié)果的準(zhǔn)確率A2和覆蓋率B2較第一次統(tǒng)計(jì)是否有所提高. 換n個(gè)(本次測(cè)試取n=2, 生語料庫2選取“新浪微博積極、消極、矛盾數(shù)據(jù)”)生語料庫在進(jìn)行循環(huán)測(cè)試, 不斷的修改和完善本體庫和推理規(guī)則, 從而有效提高檢錯(cuò)的覆蓋率和正確率. 正確率是: ①/(①+②), 覆蓋率為①/(①+③).

6.2 實(shí)驗(yàn)測(cè)試結(jié)果分析

表2 實(shí)驗(yàn)測(cè)試數(shù)據(jù)結(jié)果表

配不當(dāng)政治類涉及港澳臺(tái)問題 2 5 1 2涉及領(lǐng)土主權(quán)問題 5 4涉及黨政名稱問題 1 0 5涉及前蘇聯(lián)問題 1 1涉及黨和國(guó)家方針問題 2 1涉及民族宗教問題 1 4 9涉及國(guó)際組織提法 1 3 8涉及法律問題 6 2涉及重要人物史實(shí)問題 4 1總計(jì) 1 6 1 7 1

將政治類和通識(shí)類語義錯(cuò)誤利用本體推理分別對(duì)生語料庫1和生語料庫2進(jìn)行檢測(cè), 其中由于生語料庫2的數(shù)據(jù)內(nèi)容過于龐大, 于是在其中隨機(jī)抽取一部分內(nèi)容, 其數(shù)據(jù)量在175MB的內(nèi)容來進(jìn)行檢測(cè). 如表2所示, 第一次檢測(cè)生語料庫1時(shí), 通識(shí)類和政治類所得到的正確率都比較低, 主要的原因是第一次編寫本體庫時(shí), 沒有意識(shí)到一些符合推理錯(cuò)誤條件的文本內(nèi)容但是正確句子的情況, 導(dǎo)致檢測(cè)的結(jié)果中存在較多的誤檢結(jié)果. 通過具體實(shí)例來實(shí)現(xiàn)修改完善本體庫,將一些誤檢結(jié)果最大程度的排除. 于是在修改后的本體庫第二次檢測(cè)生語料庫1, 通識(shí)類與政治類的正確率得到了明顯的提升, 都在78%以上. 生語料庫2是“新浪微博積極、消極、矛盾微博數(shù)據(jù)”. 由于在微博上人們的言論相對(duì)自由, 故會(huì)存在比較多的語義級(jí)錯(cuò)誤.并且是基于生語料庫1的本體庫已較為完善, 第一次檢測(cè)生語料2庫兩類都取得了較高的正確率. 但通過計(jì)算機(jī)進(jìn)一步的自動(dòng)比對(duì), 還是存在一些誤檢的結(jié)果,通過修改本體庫正確率都得到了一定的提升, 但是無法做到100%正確率, 原因是一些檢測(cè)的語句需要判斷具體語境的語義錯(cuò)誤, 而所選擇的語料庫內(nèi)容中一些是不符合該語境于是無法排除該校對(duì)錯(cuò)誤的檢測(cè)結(jié)果, 這也是實(shí)驗(yàn)的局限性所在.

7 結(jié)語

綜上所述, 與其他現(xiàn)有方法相比, 此方法在以下三個(gè)方面具有明顯的優(yōu)勢(shì): (1)語義查錯(cuò)的透明性: 此方法利用OWL本體提取文本中的語義對(duì)象以及語義對(duì)象之間的關(guān)系, 精確判斷文本的語義錯(cuò)誤類型、錯(cuò)誤原因以及如何糾錯(cuò), 不存在模糊性和不可知性. 這種白箱模型的透明性是模糊語義對(duì)比方法無法比擬的. (2)語義模型的完整性: 選擇的OWL本體, 是一個(gè)體系結(jié)構(gòu)非常完整的語義知識(shí)表示和語義推理模型模型. OWL本體能夠描述包含語義搭配校對(duì)在內(nèi)的各種常見語義對(duì)象及其關(guān)系(語義搭配校對(duì)可以使用“對(duì)象定義域/值域”建立映射). (3)語義推理的智能性; 語義推理基于描述邏輯, 它內(nèi)置一致性邏輯推理機(jī)制, 其本體推理算法相對(duì)成熟, 可以直接利用Pellet或Racer等描述邏輯推理機(jī)進(jìn)行智能自動(dòng)語義查錯(cuò), 無需額外窮舉句式或者建立模糊語義骨架. 未來擬將此方法整合到現(xiàn)有的面向詞法和語法的中文校對(duì)軟件中, 使其提供語義級(jí)中文校對(duì)增值服務(wù); 另外, 還將進(jìn)一步測(cè)試此方法在其他不同領(lǐng)域中的應(yīng)用情況并加以改進(jìn).

1 吳明.最新版黑馬校對(duì)軟件在新聞出版單位使用. http://data.chinaxwcb.com/epaper/2011/2011-06-20/11589. html. [2015-12-18].

2 吳林,張仰森.基于知識(shí)庫的多層級(jí)中文文本查錯(cuò)推理模型.計(jì)算機(jī)工程,2012,20:21–25.

3 駱衛(wèi)華,羅振聲,龔小謹(jǐn).中文文本自動(dòng)校對(duì)的語義級(jí)查錯(cuò)研究.計(jì)算機(jī)工程與應(yīng)用,2003,12:115–118.

4 鄭逢斌,陳志國(guó),姜保慶等.語義校對(duì)系統(tǒng)中的句子語義骨架模糊匹配算法.電子學(xué)報(bào),2003,8:1130–1140.

5 程顯毅,孫萍,朱倩.基于HNC的中文文本校對(duì)系統(tǒng)模型的研究.微電子學(xué)與計(jì)算機(jī),2009,10:49–52.

6 張仰森,俞士汶.文本自動(dòng)校對(duì)技術(shù)研究綜述.計(jì)算機(jī)應(yīng)用研究,2006,6:8–12.

7 Olsen KA. A smart proofreader for all natural languages: Achieving semantic understanding by majority vote. ISRN Artificial Intelligence, 2012: 1–6.

8 史燕,程顯毅,楊天明,等.知網(wǎng)、HNC和框架網(wǎng)的語義知識(shí)表示異同.廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,1:173–176.

9 郭充,張仰森.基于《知網(wǎng)》義原搭配的中文文本語義級(jí)自動(dòng)查錯(cuò)研究.計(jì)算機(jī)工程與設(shè)計(jì),2010,17:3924–3928.

10 Cuenca Grau B, Horrocks I, Motik B, et al. OWL 2: The next step for OWL. Journal of Web Semantics, 2008, 6(4): 309–322.

11 Jiang Y, Dong H, Xiong H. OntoLTCn: A chinese text oriented semi-auto ontology knowledge discovery tool. Proc. of International Conference on Computer Science and Software Engineering (CSSE 2008) Volume 6. Los Alamitos. IEEE Computer Society. 2008. 18–22.

12 姜贏,曾杰,林啟紅,郭穎珊,廖文生.LanguageTool中文本語法校對(duì)XML規(guī)則定制方法.圖書情報(bào)工作,2014,(3):86–91.

Semantic Level Chinese Proofreading Method Based on Description Logics Ontology Reasoning

JIANG Ying, ZHUANG Run-Bo, WU Ye-Fan, ZHU Ling-Xuan
(School of Management, Beijing Normal University(Zhuhai), Zhuhai 519087, China)

In recent years, the Chinese proofreading technology has achieved good results at the word-level and the grammar-level, while it’s relatively weak at the semantic level. This paper provides a new method of Chinese proofreading powered by the ontology technology. The semantic contents are firstly extracted from the Chinese texts and transformed into some kind of structured ontology, which is combined with the correct background ontology. The logical consistency of the extracted semantic content is determined by description logic reasoning machine, with the detected logical consistency error mapped into some Chinese semantic errors. This method is tested in the domain of political sensitive information. Compared with other methods, it has obvious advantages of the transparency of the semantic proofreading, the integrity of the semantic model and the intelligence of the semantic reasoning.

Chinese proofreading; semantic proofreading; ontology reasoning; description logics; reasoning machine

國(guó)家社會(huì)科學(xué)基金青年項(xiàng)目(14CTQ041)

2016-07-10;收到修改稿時(shí)間:2016-08-31

10.15888/j.cnki.csa.005680