一個基于農業本體的Web知識抽取模型

2018-03-26 10:16:27李貫峰

江蘇農業科學 2018年4期

李貫峰，張鵬

(寧夏大學信息工程學院，寧夏銀川 750021)

目前，我國農村信息化建設面臨從提供信息服務向提供知識服務的逐步過渡，知識服務對提高農業生產水平、增加農產品收益、創建農村和諧社會具有深遠的意義。農業生產過程是生物依靠自然環境和自身生理機能而進行的自然生長發育過程，因此農業知識具有環境多樣性、地域差異性和種類豐富性等特點，農業領域知識的獲取和表示與其他領域相比難度更大、更具有挑戰性。

隨著因特網的快速發展與廣泛應用，Web成為人們獲取知識的重要資源庫。但萬維網(word wide wed，簡稱Web)資源結構龐雜無序，缺乏對語義信息的描述，人們需要一種自動化的方式對Web資源進行有效的處理和整合，抽取對用戶有價值的知識并過濾掉不相關的信息，Web知識抽取(Web knowledge extraction)的研究是在這樣的需求背景下產生的，被專家學者們廣泛關注，成為研究的熱點。近年來，基于本體(ontology)的Web知識抽取技術已經成為知識抽取的重要研究方向。

現有的Web知識抽取方法主要有基于超文本標記語言(hypertext markup language，簡稱HTML)文檔結構的知識抽取方法[1]、基于自然語言處理(natural language processing，簡稱NLP)方式的信息抽取方法[2]和基于包裝器歸納的知識抽取方法[3]等，這些方法針對特定文檔結構，設置不同的抽取規則，抽取方法不能重復使用。此外，這些方法只能抽取實體信息，而無法抽取Web中包含的語義描述信息。本體作為一種有效的知識建模工具，被廣泛地應用于信息科學等眾多領域。本體能夠提供特定領域中存在的對象類型和對象屬性間的相互關系，其良好的知識組織模型能夠有效地識別概念及概念之間的關系，解決傳統知識抽取在非結構文本方面的不足。通過本體構建規則，不僅能通過特定類型來識別待抽取的實體，還能利用本體中的概念層次關系從語義描述上來識別實體。因此，基于本體的知識抽取技術將在未來的知識抽取發展中成為不可缺少的輔助技術。

本研究針對農業領域，構建農業本體，并在此基礎上提出農業領域的Web知識抽取系統模型和關鍵技術，實現本體在農業知識獲取過程中的相關算法，解決傳統知識抽取在非結構文本方面的不足，提升知識獲取的準確性和高效性。

1 基本定義

1.1 本體

在信息科學領域中本體作為一種有效描述概念結構和語義模型而被廣泛應用，它是通過領域專家的積極參與和通力協作而構建的領域概念、關系和公理體系的集合，以計算機能理解的語言和形式描述、表示和組織知識，促進知識重用、知識共享和知識服務[4]。農業本體是將農業學科領域內概念、概念與概念間的相互關系用機器能理解的形式化語言表示的知識模型。農業本體為農業領域提供統一的術語和概念，在農業知識庫構建、知識共享服務及智能檢索等方面具有廣泛的應用前景。

1.2 RDF

為讓語義Web上的應用程序準確方便地應用本體，須要定義通用的本體語言來對本體進行描述。目前常見的本體語言有資源描述框架模式(resource description framework scheme，簡稱RDFS)[5]、網絡本體語言(web ontology language，簡稱OWL)等。其中RDFS是目前廣泛使用的本體表示語言之一，能夠對包括網頁在內的任何資源進行陳述，1個資源描述框架(rseource description framework，簡稱RDF)陳述由主體(subject)、謂詞(predicate)和客體(object)組成，被稱為三元組。1個RDF三元組集合可以表示成RDF圖模型，圖中節點可以表示三元組的主體和客體，而有向邊則表示從主體指向客體的謂詞。

1.3 知識抽取

Web知識抽取即從無語義信息的Web文檔中識別和抽取知識，并以一定形式存入知識庫中，進而實現對Web數據充分、有效的利用。基于領域本體的知識抽取是指利用給定的領域本體從無語義標注的信息資源中識別并抽取與領域本體匹配的事實知識，它既可以為實現知識服務系統而抽取事實知識，也可以為語義Web的構建提供相應的語義內容。因此知識抽取技術對于充分利用現有Web數據是非常必要的[6]。

2 基于本體的Web知識抽取模型

基于本體的Web知識抽取是指以所構建的領域本體為核心，利用本體中已定義的概念、分類層次、關系和實例及一些必需的外部資料對Web頁面進行知識提取，得到結構化知識并保存的過程[7]。由圖1可知，基于本體的Web信息抽取系統模型包括數據采集模塊、預處理模塊、領域本體構建和解析模塊、分詞與命名實體識別模塊以及知識抽取模塊等5個模塊。

2.1 文檔采集模塊

文檔采集模塊的主要功能是找到對應的源文檔，并保證源文檔能夠被系統檢索到。源文檔可來自本地、局域網或互聯網，其類型是HTML，對基于農業本體Web知識抽取系統的研究主要以HTML結構為出發點，完成對知識的抽取工作。本研究使用主題爬蟲來發現和獲取有關農業方面的HTML文檔集。

2.2 預處理模塊

Web頁面上的信息存在結構靈活、語義性差、標記錯誤等情況，可通過預處理去噪，并生成編碼和格式統一的格式化文檔。

2.3 領域本體庫構建與解析模塊

本體是整個知識抽取系統的核心，它規定了知識抽取中的目標知識形式，定義了農業領域中的相關概念、層次關系、實體及屬性集合，能夠讓不同用戶對領域知識達到共同的理解，從而實現知識的共享和重用。該模塊可以按照知識抽取的需求，構建合理的領域本體，并使用該本體作為知識抽取的基礎。本體解析是利用本體解析工具，對建好的在領域本體中所表述概念以及概念之間的層次關系進行解析，并把解析出來的概念和關系等結構存入記錄表中的過程，本研究通過Jena的應用程序編程接口(application programming interface，簡稱API)來實現本體解析過程。

2.4 分詞與命名實體識別模塊

分詞操作是知識抽取的前提。根據抽取模塊的需要，系統首先要對抽取的文本文檔進行分詞操作。本研究主要對中文信息進行處理，因此分詞軟件采用的是中國科學院計算技術研究所的漢語詞法分析系統(institute of computing technology Chinese lexical analysis system，簡稱ICTCLAS)分詞系統[8]，并在此基礎上進行二次開發，使分詞結果達到預期效果。

2.5 知識抽取模塊

知識抽取即使用實體識別工具對文檔進行語義標注，然后對實體及實體間的關系進行抽取得到知識，并根據實例和屬性構建RDF三元組知識形式，返回給相應的用戶。

3 基于本體的Web知識抽取關鍵技術

3.1 本體構建

基于本體的Web知識抽取實質是以所構建的本體為核心的知識抽取，因此相關領域本體的建立是非常重要的工作。從本質上說，本體是一個客觀事實的集合，而這些集合是實現語義信息檢索的基礎。本體的構建是一項復雜的系統工程，目前沒有統一的本體構建方法和規則，Studer等提出本體構建的5個原則，即本體的定義具備清晰性、完整性、一致性、最大單向可擴展性和最小編碼相關性[9]。對于領域本體的構建，還應遵循標準化建設原則、本體的復用原則、協作原則及評建結合原則。本研究借鑒相關本體的構建方法，依據農業領域知識的特點，確定農業領域本體的構建方法，其流程如圖2所示。

(1)在本體構建之前，進行需求分析，確定領域本體框架，明確領域本體的應用目標和范疇，對于限定本體范圍，增強本體針對性，縮短本體構建的時間，降低構建本體的難度具有重要的意義。

(2)通過相關專業書籍、文獻資料、權威網站信息等途徑獲取領域知識，結合農業領域的專家建議，對領域知識進行分析、整理和歸納，得到所需領域的概念和關系。

(3)在對領域知識充分了解的基礎上，結合需求分析，將領域中的主要概念和關系列舉出來，在農業領域專家的指導下，確定領域的核心概念和關系。

(4)基于(3)中劃分的概念層次結構，使用本體構建工具對類、屬性和實例等本體元素進行編碼及形式化，實施本體構建。

(5)本體建立后，領域內術語的定義是否清晰，概念及關系是否完整，則須要運用推理工具自動判斷和檢驗，并對有邏輯錯誤的地方進行修改，以滿足用戶的實際需求。

(6)本體構建是一個迭代的過程，須要在具體的應用中不斷地修改、優化和完善，從而更好地適應實際使用情況。

根據上述的構建步驟，在學習了很多相關枸杞病蟲害書籍和大量文獻資料的基礎上，結合枸杞病蟲害領域的專家建議，以寧夏地區常見的枸杞蚜蟲、枸杞紅癭蚊、枸杞癭螨等51種枸杞害蟲和根腐病、炭疽病、白粉病等15種枸杞病害為研究對象，以診斷和防治為研究目標，抽取領域中的重要概念、屬性及實例，用Protégé工具構建一個內容豐富、層次清晰、體系完善的枸杞病蟲害本體庫。枸杞病蟲害本體類結構如圖3所示。其中Things是超類，其他的類都是Things的子類，共計37個本體類，圖3是其中的25個基本類(含子類、副類)，涵蓋了實際生產中的主要枸杞病蟲害種類。該本體中有7個數據屬性和12個一級對象屬性，用于描述枸杞病蟲害的基本信息，還包括51個害蟲實例，15個病害實例和其他本體類實例。

3.2 文檔預處理

目前，大部分Web文檔是基于HTML的。但HTML文檔有局限：首先，HTML頁面結構靈活，缺少語義，機器難以理解信息的結構和模式，因此獲取隱藏在其中的知識非常困難；其次，HTML頁面中可能存在標記格式不匹配甚至空標記的情況，對抽取工作影響很大；最后，直接對HTML頁面內容進行抽取處理會占用大量的空間，處理時間比較長。預處理過程是知識抽取的前提，在知識抽取前，須要對源文檔進行預處理。本研究參考現有的處理方法經驗，使用頁面清洗工具Tidy[10]糾正HTML文檔中常見的錯誤標記，去掉空標記，并生成編碼和格式統一的格式化文檔。此外對頁面中的一些明顯噪聲進行處理，為簡化問題，筆者直接從Web頁面過濾掉