吳賽賽,周愛蓮,謝能付,梁曉賀,汪匯涓,李小雨,陳桂鵬
基于深度學習的作物病蟲害可視化知識圖譜構建
吳賽賽1,周愛蓮1※,謝能付1,梁曉賀1,汪匯涓1,李小雨1,陳桂鵬2
(1. 中國農業科學院農業信息研究所,北京 100086;2. 江西省農業科學院農業經濟與信息研究所,南昌 330200)
針對作物病蟲害領域存在實體關系交叉關聯、多源異構數據聚合能力差、知識共享困難等問題,利用知識圖譜以結構化的形式描述實體間復雜關系的優勢,該研究提出了一種基于深度學習的作物病蟲害知識圖譜構建方法。該方法在領域本體的基礎上,以一種與領域語料相適應的新標注模式實現實體和關系的聯合抽取。將實體和關系抽取任務轉化為序列標注問題,對實體和關系進行同步標注,有效提高標注效率;為了解決重疊關系抽取問題,直接對三元組建模而不是分別對實體和關系建模,通過標簽匹配和映射即可獲得三元組數據。利用來自轉換器的雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)-雙向長短期記憶網絡(Bi-directional Long-Short Term Memory,BiLSTM)+條件隨機場(Conditional Random Field,CRF)端到端模型進行試驗,結果表明效果優于基于普通標注方式的流水線方法和聯合學習方法中的卷積神經網絡(Convolutional Neural Networks,CNN)+BiLSTM+CRF、BiLSTM+CRF等經典模型,F1得分為91.34%。最后,將抽取到的知識存儲到Neo4j圖數據庫中,直觀地反映知識圖譜的內部結構,實現知識可視化和知識推理。該研究構建的知識圖譜可為作物病蟲害智能問答系統、推薦系統、智能搜索等下游應用提供高質量的知識庫基礎。
作物;病蟲害;模型;知識圖譜;深度學習;實體關系聯合抽取
2012年,谷歌推出知識圖譜(Knowledge Graph,KG)概念,為知識管理提供了一種新途徑。知識圖譜實質上是一種結構化的語義知識庫,以結構化的形式描述客觀世界中概念、實體及其關系,一般以(實體,關系,實體)、(實體,屬性,屬性值)的三元組形式來表示。知識圖譜能將領域的異構知識結構化,且擅于描述實體之間交互關系,將領域知識做了顯性化沉淀和關聯,很好地解決領域內數據分散、復雜以及孤島化問題,在醫療、生物、金融等領域得到廣泛應用[1]。根據知識覆蓋范圍不同,知識圖譜分為開放領域知識圖譜[2-5]和垂直領域知識圖譜[6-8]。開放知識圖譜比較注重廣度,垂直領域知識圖譜則注重深度,但由于缺乏標注訓練語料、過度依賴于專家等原因,一般規模較小,構建成本較高。
病蟲害一直以來都是影響中國農作物生產的重要因素,隨著信息技術的發展,互聯網成為獲取病蟲害防控知識的主要來源,然而當前作物病蟲害領域開源知識主要以傳統數據庫形式進行存儲,存在聚合能力差、利用率低下、知識共享困難等問題。鑒于知識圖譜對領域知識管理的良好表現,目前農業領域知識圖譜已有一些成果,但對于作物病蟲害知識圖譜的深入研究仍較少。華東師范大學基于碎片化農業大數據構建了面向智慧農業的知識圖譜及其應用系統(https://github.com/qq547276542/ Agriculture_KnowledgeGraph);夏迎春[9]首先根據作物病蟲害數據分類標準生成本體層,再在其基礎上擴展實體層,初步形成知識圖譜,并實現知識圖譜可視化;吳茜[10]利用本體等技術構建農業領域知識圖譜,其中涵蓋了農作物品種、農作物病蟲害以及農藥肥料數據;王丹丹[11]構建了水稻知識圖譜等。但這些知識圖譜在規模化、智能化、體系化等方面仍有很大的提升空間,如何有效抽取半結構化或非結構化數據、解決文本中重疊關系的提取、減少人工特征的投入等,仍是十分有挑戰性的工作。
知識圖譜構建是知識表示、知識抽取以及知識存儲等技術的結合。知識表示是一種計算機可以接受的用于描述知識的數據結構,但早期的知識表示方式表達性不強,且缺乏靈活性,因此目前本體已經成為最常用的知識表示、知識共享和知識重用方法。知識抽取是知識圖譜構建的核心環節,包括命名實體識別(Name Entity Recognition,NER)和關系抽取(Relation Extraction,RE)任務。按照NER和RE兩個任務完成的順序不同,實體關系抽取可分為流水線方法和聯合學習方法。流水線方法[12-14]將NER和RE分成2個獨立的子任務,首先識別出文本中的實體,再對實體對之間的語義關系進行分類,雖然更加靈活且易于建模,但將2個任務分割的方式存在錯誤傳播、信息丟失、實體冗余等問題。因此近年來實體關系聯合學習方法成為主流,根據建模對象不同,分為參數共享和序列標注2類子方法。參數共享方法是分別對實體和關系進行建模,通過共享聯合的編碼層進行聯合學習,實現2個子任務之間的交互[15-16],但仍存在無法剔除冗余實體信息的問題。因此,有學者[17-21]研究將實體關系的聯合抽取轉化為序列標注問題,在一定程度上解決實體冗余以及重疊關系問題。Liu等[22]根據作物病蟲害數據特征,仔細分析近年來病蟲害知識圖譜構建的關鍵技術和方法,總結出本體學習、機器學習、深度學習等是實現知識自動抽取的重點技術,也是當前作物病蟲害知識圖譜的研究熱點。知識圖譜主要有2種存儲方式,基于資源描述框架(Resource Description Framework,RDF)的存儲和基于圖數據庫的存儲。RDF的重要設計原則在于數據的易發布和共享,而圖數據庫以屬性圖為基本的表示形式,更易于表達現實的業務場景,實現高效的圖查詢和搜索。因此近年來基于圖數據庫的知識圖譜存儲成為主流方式,Neo4j作為一個開源的圖數據庫系統,是目前用于知識圖譜存儲的主要途徑。
如何從海量復雜的作物病蟲害相關數據中準確提取病原、為害部位、防治藥劑等有用知識,是作物病蟲害知識圖譜構建的關鍵問題。隨著信息技術的發展,深度學習已逐漸滲透到知識圖譜構建的各個環節中[23]。為了提高知識抽取的效率和準確性,降低知識圖譜構建成本,本研究在領域本體的基礎上,以一種新穎的語料標注模式實現實體和關系的聯合抽取,對實體和關系進行同步標注,直接對三元組進行建模,通過標簽匹配和映射即可獲取三元組,同時利用來自轉換器的雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)-雙向長短期記憶網絡(Bi-directional Long-Short Term Memory,BiLSTM)+條件隨機場(Conditional Random Field,CRF)端到端模型進行訓練和預測。最后,將抽取到的三元組數據存儲到Neo4j圖數據庫中,實現知識圖譜的可視化展示和知識推理。該知識圖譜可為作物病蟲害智能問答系統、推薦系統、智能搜索等下游應用提供高質量的知識庫基礎,有效應用于作物品種選擇、病蟲害防控、施肥灌溉等農業生產方面。
知識圖譜構建分為自底向上和自頂向下2種方式。自底向上是指數據驅動方式,更加適用于開放領域知識圖譜;而垂直領域由于其特定行業的專業性、復雜多變的業務需求以及對高質量數據的要求,多采用自頂向下的構建模式[24],即首先定義好本體與數據模式,再將實體及其相互關系填充到知識圖譜中。本研究采用自頂向下的知識圖譜構建方式,具體構建流程如圖1所示,主要包括數據獲取、本體構建、知識抽取和知識存儲。

圖1 作物病蟲害知識圖譜構建流程
本研究的主要數據來源是中國作物種質信息網-作物病蟲害知識網站(http://www.cgris.net/disease/ default.html),通過采用Python編程語言的Scrapy框架進行數據爬取,同時結合規則和人工審核等方式進行數據預處理,得到無噪聲純文本語料。由于網站XPath路徑不規則,無法采用統一的XPath頁面解析方法進行網頁內容的直接爬取,因此以一條病蟲害數據為一個基本單位,以多層級頁面爬蟲方式,共爬取1 619條數據,包括水稻、麥類、豆類、玉米、雜糧、薯類、棉麻、油料、糖煙、茶桑、藥用植物、貯糧共12類農作物的病蟲害數據。由于爬取到的數據中還存在含有網頁導航、廣告、重復值等無關內容和數據缺失等問題,因此利用正則表達式結合人工審核的方式,對數據中的冗余值和缺失值進行清理和補全,預處理之后的文本仍保留了原網頁固有的半結構化數據形式,主要包含病蟲害名稱及其癥狀、病原、傳播途徑和發病條件以及防治方法等屬性。
本體是概念模型的明確的規范說明[25],作物病蟲害本體即以一種計算機能理解的語言形式對作物病蟲害知識進行描述和組織,通過上層本體的構建,可以有效地組織和管理數據層。本研究使用開源本體構建工具Protégé[26],不需要復雜難懂的本體構建語言,即可定義頂層邏輯概念、實體之間關系、實體屬性,還可以對關系和屬性的定義域和值域設置相應的約束。將作物病蟲害本體控制為4層(圖2),包括了6類父類概念,分別為病蟲害、作物、病原、地理、分類學和農藥。為了更精確地描述病蟲害實體與其他實體類型之間的相互關系,根據數據表示特征,結合實際業務需求和領域專家指導,預定義實體間的關系集合和實體的屬性集合,關系集合包括{為害作物,為害部位,分布區域……},屬性集合包括{癥狀,為害特點,防治方法……},同時對關系和屬性設定了相應的定義域和值域,明確知識抽取的邊界。定義域和值域的意義在于給關系和屬性的取值設定一定范圍的約束,比如對于“為害作物”這個關系來說,其主體只能是病蟲害實體,而其對象只能是農作物實體。

圖2 面向作物病蟲害知識圖譜的本體模型
從中國作物種質信息網-作物病蟲害知識網站上將數據爬取下來時,同時也獲取了其半結構化信息,如標題、段落層級以及小標題等,通過實踐發現可以通過利用這些半結構化特征,構造相應規則進行(名稱:作物病蟲害;屬性1:屬性值1;屬性2:屬性值2;……;屬性:屬性值)實例的抽取。首先將文本解析為結構化.json格式,其中每個作物病蟲害實體為一個對象,病蟲害的每個屬性與屬性值組成一個鍵值對,然后基于Python編程語言的py2neo模塊,直接傳入Cypher語句,將1 619條作物病蟲害實例存儲到Neo4j圖數據庫中(圖3),其中每條實例為一個節點,節點包含了作物病蟲害實體名稱、癥狀、病原、防治方法等實體屬性及屬性值信息,如{名稱:水稻云形病;癥狀:又稱葉枯病……;病原:(Hashioka et Yokogi) W. Gams……;……;防治方法:(1)選用無病種子……}。
在半結構化知識抽取中是以整段文本作為一個屬性值,但在屬性值的文本中還包含很多未挖掘到的隱藏信息,如水稻云形病的癥狀屬性值中,還隱藏著別名、分布區域、為害部位等實體關系信息,而抽取這些關系時屬于基于非結構化數據的知識抽取。從非結構化文本中提取三元組是一個有挑戰性的工作,與一般語料相比,本研究的作物病蟲害語料有以下3點特殊之處:1)一條數據僅圍繞一個作物病蟲害實體而展開,因此在同一條數據的三元組抽取中,頭實體是固定的,只需提取尾實體與兩者間的關系即可。2)實體分布密度高,作物病蟲害實體與文本中多個實體生成關系對,且頭尾實體之間距離較長。句中的高密度實體分布看似能夠促進命名實體識別模型擬合,但同一實體多次參與不同類型關系對的組成,在有限的標注信息支撐下,一旦模型缺乏句子級別語義信息的表征能力,將容易導致對交錯關系的欠擬合,且距離較長的2個實體之間的關系較難抽取[27]。3)實體間關系復雜。文本中經常同時出現防治農藥和禁用農藥實體,實體名稱相似度極高,但隸屬的關系類型完全不同甚至是互斥的,在一定程度上加大關系抽取的工作難度。

圖3 半結構化知識存儲結果示例
根據上述的本領域語料特征,結合文獻[17—21]中將實體關系的聯合抽取任務轉化為序列標注問題的思想,本研究以一種語料標注模式“主實體+關系+首-內部-尾-單-其他”(Main_Entity+Relation+Begin-Inside-End-Single- Other,ME+R+BIESO)實現實體和關系的聯合抽取,對實體和關系進行同步標注,直接對三元組建模而不是分別對實體和關系建模,通過標簽匹配和映射直接得到三元組數據,有效提高了標注效率,還解決了重疊關系的抽取問題。為進一步表征更全面的句子級別語義特征,緩解實體關系交錯關聯和實體之間距離較長等問題,本研究引入BERT預訓練語言模型,利用BERT-BiLSTM+ CRF端到端模型進行訓練和預測,不僅能抽取詞級特征,還能實現句子級別語義特征的深入挖掘和學習。
1.4.1 ME+R+BIESO標注方法介紹
在一條數據僅圍繞一個主實體(Main_Entity,ME)而展開描述的語料文本中進行實體和關系的抽取,本質上只需抽取與ME存在關系的實體{1,2,…,X,…X}以及2個實體之間的關系{1,2,…,R,…R},其中X表示與ME存在關系的第個實體,R表示X與ME之間的關系類型。為減少實體冗余,僅對本體中預定義關系集合內的關系進行抽取。
ME+R+BIESO標注模式旨在對主實體和主實體與各實體間的關系進行同步標注,首先將主實體標注為ME標簽,當文本中某實體X與ME之間存在關系R,則直接將X的標簽設置為R,并用首-內部-尾-單-其他(Begin-Inside-End-Single-Other,BIESO)標志來表示ME和實體X中字符的位置信息(表1)。每匹配到一條數據中的標簽ME和同一關系R的完整BIE、BE或S集合,便取出標簽集合所對應的實體ME和X,通過標簽映射和數據解析,形成(ME,R,X)三元組。

表1 ME+R+BIESO標注方法的標簽含義說明
注:X為與主實體存在關系的第個實體。
Note:Xis thethentity that has a relation with the main entity.
以描述水稻云形病實體的數據為例(圖4),首先將水稻云形病標注為ME,由于葉枯病與水稻云形病之間存在別名關系,因此將葉枯病標注為別名(Other Name,ON),葉片與水稻云形病之間的關系為為害部位,則將葉片標注為為害部位(Damage Posotion,DP)。當匹配到主實體ME和關系ON的BIE標簽集合,即生成三元組(水稻云形病,別名,葉枯病);匹配到ME和DP的BE集合,即生成三元組(水稻云形病,為害部位,葉片)。直至匹配到下一個主實體標簽ME,則說明上一個主實體所對應的三元組已全部抽取完成。

注:ME為主實體,ON為別名關系,DP為為害部位關系。
ME+R+BIESO標注方法只關注主實體與各實體之間的關系類型R而無需關注實體本身所屬的實體類型,只在預定義關系集合上進行標注和抽取,減少無關實體對的冗余性和錯誤傳播。同時,對于ME與多個X之間存在重疊關系的問題,也可通過標簽匹配和映射即可獲得多個對應的三元組。此外,基于傳統標注和流水線的實體和關系抽取方法需先對實體進行標注和識別,再對存在關系的實體對之間的關系進行標注和分類,而ME+R+BIESO方法對實體和關系進行同步標注,至少節省一半的標注成本。但該標注方法也存在一定的局限性,即僅考慮一對多的重疊關系情況,而對于多對多的重疊關系將成為未來的探索方向。
1.4.2 BERT-BiLSTM+CRF模型解析
在ME+R+BIESO標注模式的基礎上,利用基于BERT字嵌入的BiLSTM+CRF端到端模型對標簽進行訓練和預測。模型整體框架如圖5所示,主要包含3個部分:標注語料首先通過 BERT預訓練語言模型生成基于上下文信息的字向量;然后將字向量輸入到BiLSTM模塊進行雙向編碼,輸出每個標簽的預測分數值;最后,利用CRF模塊對BiLSTM模塊輸出的結果進行解碼,通過訓練學習得到標簽轉移概率和約束條件,獲得最終的預測標注序列。
在自然語言處理(Natural Language Processing,NLP)任務中,需要通過語言模型將文字轉化為向量形式以供計算機理解,傳統的語言模型如Word2Vec[28]、Glove[29]等單層神經網絡無法很好地表征字詞的多義性,因此Devlin等[30]提出了BERT預訓練語言模型,負責將原始輸入轉換為向量形式,然后將向量輸入到BiLSTM層學習上下文特征。BERT是第一個用于預訓練和NLP技術的無監督、深度雙向模型,創新性地使用遮蔽語言模型和下一句預測2個任務進行預訓練,使得通過BERT得到的詞向量不僅隱含上下文詞級特征,還能有效捕捉句子級別特征[31]。

注:E1,E2…EN為來自轉換器的雙向編碼器表征量的嵌入,序列中的每個詞都是由詞向量、段向量和位置向量3個部分相加而得;T1,T2,…TN為來自轉換器的雙向編碼器表征量的目標,是經過雙向轉換器進行特征提取后得到的含有豐富語義特征的序列向量;B-ON為標簽ON所對應實體的首字符;I-ON為標簽ON所對應實體的內部字符;E-ON為標簽ON所對應實體的尾字符。
BiLSTM[32]以BERT生成的詞向量作為輸入,通過捕獲上下文特征,獲取更全面的語義信息。長短期記憶網絡[33](Long-Short Term Memory,LSTM)是循環神經網絡[34](Recurrent Neural Network,RNN)的一種變體,在RNN基礎上引入了記憶單元和門控機制,對上下文歷史信息進行有選擇性的遺忘、更新和傳遞,從而學習到長距離的語義依賴,同時能減少網絡深度和有效緩解梯度消失、梯度爆炸問題。BiLSTM由一個前向LSTM與一個后向LSTM組合而成,將原有的按照順序輸入的序列轉化為一正一反的2個輸入,使得整個網絡能夠同時獲得前向和后向的信息,可以更好地捕捉較長距離的雙向語義依賴,在中文序列標注中具有更好的表現。
雖然BiLSTM充分捕獲上下文信息,但有時不考慮標注標簽間的依賴信息。如B-ON標簽后面可以接I-ON或E-ON標簽,但如果接B-DP、I-DP、O等標簽即是非法標簽序列。CRF[35]可以通過訓練學習得到標簽轉移概率,為預測的標簽添加一些約束條件,防止非法標簽的出現。因此,將CRF作為BiLSTM的輸出層,可以獲得最佳的三元組標注結果。
1.4.3 試驗評價指標和配置環境
為了精確評測模型的性能優劣,本研究采用實體關系抽取領域的3項基本評價指標,準確率(Precision,%)、召回率(Recall,%)以及F1得分(F1-score,%)來評價模型性能。各評價指標的計算方法如式(1)~式(3)所示



式中TP為預測正確的陽樣本,FP為預測錯誤的陽樣本,FN為預測錯誤的陰樣本。
本研究的試驗設備配置及環境為:Intel(R) Xeon(R) Bronze 3106 CPU @1.70GHz;GPU:NVIDIA GeForce RTX 2080 Ti(11G);內存32GB;Python3.7;Tensorflow2.2.0。
本研究共有1 619條作物病蟲害試驗數據(表2),基于交叉驗證的重采樣策略,以7∶3的比例劃分為訓練集和測試集放入BERT-BiLSTM+CRF模型進行試驗。為了驗證ME+R+BIESO標注方法和BERT-BiLSTM+CRF模型的優越性,分別選用流水線方法和聯合學習方法中的其他經典模型作為基準模型進行對比試驗,各個模型試驗結果如表3所示。

表2 BERT-BiLSTM+CRF模型的試驗數據集分配
在訓練過程中,按照顯存容量設置批處理大小;按照語句平均長度設置序列的最大長度;根據訓練日志判斷損失函數的收斂情況,并對隨機失活率和學習率進行微調,直到訓練的損失穩定收斂;為擴展系統輸出能力設置長短期記憶網絡(Long Short Term Memory,LSTM)單元數目。經過多次調試和試驗,選擇核心參數最優組合:批處理大小為64,序列的最大長度為256,隨機失活率為0.4,學習率為0.01,LSTM 單元數目為200。

表3 實體和關系抽取模型性能對比
為了驗證ME+R+BIESO標注方法和BERT- BiLSTM+CRF模型在實體和關系抽取任務中的優越性,本研究選用了流水線方法中的BERT+BERT模型和聯合學習方法中的BiLSTM+CRF和CNN+BiLSTM+CRF模型進行對比試驗。基于流水線的方法采用傳統的實體和關系標注方法,利用BIO方式標注實體,再對存在關系的實體對進行分類標注。首先使用BERT搭建關系的分類模型,接著用預測出來的關系和作物病蟲害文本,使用BERT搭建一個實體抽取模型。因此實體抽取模型就是預測每一個令牌的標示,最后根據標示可提取出實體對。基于聯合學習的實體和關系抽取方法,采用本研究提出的ME+R+BIESO標注方法,分別利用BiLSTM+CRF、CNN+BiLSTM+CRF以及BERT- BiLSTM+CRF端到端模型進行試驗。由試驗結果可知,雖然流水線方法的準確率較高,為93.41%,但整體效果失衡,由于召回率嚴重偏低,為29.10%,導致F1得分僅為44.38%,通過對生成的最終預測數據的分析,發現文本中距離較近的實體對之間的關系一般能準確預測,但是距離較遠的實體對基本無法預測,這說明流水線方法在用于長距離關系預測時具有很大的局限性。在聯合抽取模型的對比試驗中,BERT-BiLSTM+CRF模型的性能明顯優于BiLSTM+CRF和CNN+BiLSTM+CRF模型。相對于BiLSTM+CRF和CNN+BiLSTM+CRF,BERT- BiLSTM+CRF的準確率分別提高了7.19~7.88個百分點,召回率提高了9.74~10.51個百分點,F1得分提高了8.68~9.35個百分點,F1得分達到91.34%。CNN+BiLSTM+CRF模型在BiLSTM+CRF的基礎上增加了CNN層,但效果并沒有得到優化,F1得分反而降低了0.67個百分點。不過在BiLSTM+CRF層上增加BERT預訓練語言模型后,F1得分提高了8.68個百分點,說明BERT能夠輔助提升模型對文本的語義表征能力,更大限度地捕捉作物病蟲害文本中交錯關聯的實體關系,從而優化了實體關系抽取任務的效果。
BERT-BiLSTM+CRF模型對主實體與各實體間關系的預測結果如表4所示,整體效果較為均衡,F1得分為90%左右,但“為害部位”關系的預測結果明顯低于平均水平,尤其是召回率僅為58.15%,這是拉低模型整體效果的重要因素。通過對“為害部位”關系的對應語料文本和最終生成的預測結果進行分析,發現文本中對同一作物部位的描述方法不統一,如“葉片”、“葉肉”、“葉面”、“葉背”、“葉鞘”、“幼葉”、“嫩葉”、“葉”等詞語均為描述“葉子”這一部位。因此,這樣的情況導致在預測過程中出現很多預測錯誤的陰樣本,使得召回率嚴重偏低,從而影響模型整體預測水平。

表4 利用BERT-BiLSTM+CRF模型對主實體及主實體與實體間關系類型的預測結果
本研究的實體關系抽取是在本體所預定義的關系集合基礎上進行的,關系預定義為非結構化知識抽取確定了邊界,減少冗余信息的無效抽取,同時結合ME+ R+BIESO標注方法和BERT-BiLSTM+CRF模型進行試驗,在很大程度上提高了實體關系抽取的效率和準確性,保證知識圖譜的質量。
目前知識圖譜的存儲方式分為基于RDF三元組和基于圖數據庫。RDF三元組一般采用關系數據庫進行存儲,查詢較為靈活高效,但同時會存儲大量冗余信息,需要定時進行維護。圖數據庫將知識圖譜的實體和概念作為圖頂點,實體屬性和關系作為邊,以圖的形式進行存儲,比較直觀地反映知識圖譜的內部結構,有利于進行圖查詢以及知識推理,且可擴展性較強。Neo4j是一個開源的圖數據庫系統,底層使用圖數據結構進行存儲,大幅度提升數據檢索的性能,是目前用于知識圖譜存儲的主要途徑。因此本研究將作物病蟲害知識圖譜存儲于Neo4j圖數據庫中。
由于本研究數據量不是特別大,因此采用Neo4j數據庫自帶Cypher語言中的LOAD CSV方式,首先將通過解析獲取的實體節點和關系數據分別保存為.csv文件并放置在Neo4j的import文件夾中,然后通過Cypher語言的LOAD CSV語句導入節點和關系。采用Cypher語句將實體與實體間的關系存儲到Neo4j圖數據庫中,形成作物病蟲害知識圖譜,其中包括1 619條病蟲害實例信息,28 894個三元組,部分可視化展示如圖6所示,其中粉紅色節點為作物病蟲害實體,藍色節點為與作物病蟲害實體存在關系的實體,邊則為兩者間的關系類型。知識圖譜中交互關聯的節點為隱藏關系的推理提供了很好的知識基礎,如“水稻云形病”與“葉枯病”節點之間的邊表示為“別名”,與“50%甲基硫菌靈可濕性粉劑”節點之間的邊表示為“防治農藥”,則可推理出“葉枯病”與“50%甲基硫菌靈可濕性粉劑”實體之間也存在“防治農藥”的關系。

圖6 作物病蟲害知識圖譜的可視化
1)本研究提出了一種基于深度學習的作物病蟲害知識圖譜構建方法,該方法根據作物病蟲害領域的語料特征,在領域本體的基礎上對半結構化和非結構化知識進行半自動化抽取,并將知識圖譜存儲于Neo4j圖數據庫中,實現實體交互關系的可視化展示和知識推理。該知識圖譜研究方法在農業智能問答系統、農業物聯網、農業大數據分析等方面的應用提供方法參考。
2)以一種與領域數據相適應的語料標注方式,完成非結構化知識中的實體和關系聯合抽取。對實體和關系進行同步標注,三元組通過標簽匹配和映射可直接獲取,不僅有效提高了標注效率,還解決了一對多重疊關系抽取問題。
3)利用來自轉換器的雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)-雙向長短期記憶網絡(Bi-directional Long-Short Term Memory,BiLSTM)+條件隨機場(Conditional Random Field,CRF)端到端模型在數據集上進行訓練和預測,試驗結果表明F1得分為91.34%。
盡管本研究實現的作物病蟲害知識圖譜已初具規模,但仍有改進空間,未來將在構建方式、多對多重疊關系抽取、自動更新等方面進行探索。知識圖譜構建可采用“自頂向下”+“自底向上”相結合的方式,將自定義本體模型和數據驅動方式結合起來,既設定了清晰的邏輯概念層次,又能從公開數據集中進行自動知識抽取,同時保證知識圖譜的質量和規模性。研究可擴展性和可移植性更強的實體與關系標注方法和訓練模型,以解決語料中的多對多重疊關系提取問題。隨著網絡數據的快速更新,需要及時對知識圖譜數據進行更新和補充,通過知識融合、知識推理等技術,實現知識圖譜的自動更新升級。
[1]徐增林,盛泳潘,賀麗榮,等. 知識圖譜技術綜述[J]. 電子科技大學學報,2016,45(4):589-606. Xu Zenglin, Sheng Yongpan, He Lirong. et al. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589-606. (in Chinese with English abstract)
[2]Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A Nucleus for a Web of Open Data[M]. Berlin, Heidelberg: Springer Berlin Heidelberg, 2007.
[3]Bollacker K, Evans C, Paritosh P, et al. Freebase: A collaboratively created graph database for structuring human knowledge[C]//Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data. New York, United States, 2008.
[4]Vrande?i? D. Wikidata: A new platform for collaborative data collection[C]//Proceedings of the 21stInternational Conference on World Wide Web. New York, United States, 2012.
[5]Niu Xing, Sun Xinruo, Wang Haofen, et al. Zhishi. me-weaving Chinese linking open data[C]//International Semantic Web Conference, Berlin, Heidelberg, Germany, 2011.
[6]Swartz A. Musicbrainz: A semantic web service[J]. IEEE Intelligent Systems, 2002, 17(1): 76-77.
[7]Dodds K. Popular geopolitics and audience dispositions: James Bond and the Internet Movie Database (IMDb)[J]. Transactions of the Institute of British Geographers, 2006, 31(2): 116-130.
[8]阮彤,孫程琳,王昊奮,等. 中醫藥知識圖譜構建與應用[J]. 醫學信息學雜志,2016,37(4):8-13. Ruan Tong, Sun Chenglin, Wang Haofen, et al. Construction of traditional Chinese medicine knowledge graph and its application[J]. Journal of Medical Informatics, 2016, 37(4): 8-13. (in Chinese with English abstract)
[9]夏迎春. 基于知識圖譜的農業知識服務系統研究[D]. 合肥:安徽農業大學,2018. Xia Yingchun. Agriculture Knowledge Service System Based on Knowledge Graph[D]. Hefei: Anhui Agricultural University, 2018. (in Chinese with English abstract)
[10]吳茜. 基于知識圖譜的農業智能問答系統設計與實現[D]. 廈門:廈門大學,2019. Wu Qian. Design and Implementation of Agricultural Intelligent Q&A System Based on Knowledge Graph[D]. Xiamen: Xiamen University, 2019. (in Chinese with English abstract)
[11]王丹丹. 寧夏水稻知識圖譜構建方法研究與應用[D]. 寧夏:北方民族大學,2020. Wang Dandan. Research and Application of Construction Method of Rice Knowledge Graph in Ningxia[D]. Ningxia: Northern University for Nationalities, 2020. (in Chinese with English abstract)
[12]Socher R, Huval B, Manning C D, et al. Semantic compositionality through recursive matrix-vector spaces[C]// Joint Conference on Empirical Methods in Natural Language Processing & Computational Natural Language Learning, Jeju Island, Korea, 2012.
[13]Marrero M, Urbano J, Sánchez-Cuadrado S, et al. Named entity recognition: Fallacies, challenges and opportunities[J]. Computer Standards & Interfaces, 2013, 35(5): 482-489.
[14]Kumar S. A survey of deep learning methods for relation extraction[J/OL]. Computer Science, 2017, [2017-05-10], https: //arxiv. org/pdf/1705. 03645. pdf.
[15]Miwa M, Bansal M. End-to-end relation extraction using LSTMs on sequences and tree structures[C]//Proceedings of the 54thAnnual Meeting of the Association for Computational Linguistics, Berlin, Germany, 2016.
[16]Katiyar A, Cardie C. Going out on a limb: Joint extraction of entity mentions and relations without dependency trees[C]//Proceedings of the 55thAnnual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017.
[17]Zheng Suncong, Wang Feng, Bao Hongyun, et al. Joint extraction of entities and relations based on a novel tagging scheme[C]//Proceedings of the 55thAnnual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017.
[18]Zeng Xiaorong, Zeng Daojian, He Shizhu, et al. Extracting relational facts by an end-to-end neural model with copy mechanism[C]//Proceedings of the 56thAnnual Meeting of the Association for Computational Linguistics, Melbourne, Australia, 2018.
[19]Dai Dai, Xiao Xinyan, Lyu Yajuan, et al. Joint extraction of entities and overlapping relations using position-attentive sequence labeling[C]// Thirty-third AAAI Conference on Artificial Intelligence, Honolulu, United States, 2019, 33: 6300-6308.
[20]Luo Xukun, Liu Weijie, Ma Meng, et al. A bidirectional tree tagging scheme for jointly extracting overlapping entities and relations[J/OL]. Computation and Language, 2020, [2020-09-07], https: //arxiv. org/pdf/2008. 13339. pdf.
[21]奧德瑪,楊云飛,穗志方,等. 中文醫學知識圖譜CMeKG構建初探[J]. 中文信息學報,2019,33(10):1-9. Ao Dema, Yang Yunfei, Sui Zhizfang, et al. Preliminary study on the construction of Chinese medical knowledge graph[J]. Journal of Chinese Information Processing, 2019, 33(10): 1-9. (in Chinese with English abstract)
[22]Liu Xiaoxue, Bai Xuesong, Wang Longhe, et al. Review and trend analysis of knowledge graphs for crop pest and diseases[J]. IEEE Access, 2019, 7(14): 62251-62264.
[23]張善文,王振,王祖良. 結合知識圖譜與雙向長短時記憶網絡的小麥條銹病預測[J]. 農業工程學報,2020,36(12):172-178. Zhang Shanwen, Wang Zhen, Wang Zuliang. Prediction of wheat srtipe rust disease by combining knowledge graph and bidirectional long short-term memory network[J]. Transactions of the Chinese Society Agricultural Engineering (Transactions of the CSAE), 2020, 36(12): 172-178. (in Chinese with English abstract)
[24]李思珍. 基于本體的行業知識圖譜構建技術的研究與實現[D]. 北京:北京郵電大學,2019. LI Sizhen. The Research and Implementation of Ontology-based Enterprise Knowledge Graph Construction[D]. Beijing: Beijing University of Posts and Telecommunications, 2019. (in Chinese with English abstract)
[25]Gruber T R. A translation approach to portable ontology specifications[J]. Knowledge Acquisition, 1993, 5(2): 199-220.
[26]Noy N F, Crubézy M, Fergerson R W, et al. Protégé-2000: An open-source ontology-development and knowledge-acquisition environment[C]//AMIA Annual Symposium proceeding, California, United States, 2003.
[27]寧尚明,滕飛,李天瑞. 基于多通道自注意力機制的電子病歷實體關系抽取[J]. 計算機學報,2020,43(5):916-929. Ning Sangming, Teng Fei, Li Tianrui. Multi-channel self-attention mechanism for relation extraction in clinical records[J]. Chinese Journal of Computers, 2020, 43(5): 916-929. (in Chinese with English abstract)
[28]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C]// 1stInternational Conference on Learning Representations, Arizona, United States, 2013.
[29]Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]//Association for Computational Linguistics, Doha, Qatar, 2014.
[30]Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]// Association for Computational Linguistics, Minneapolis, United States, 2018.
[31]張秋穎,傅洛伊,王新兵. 基于BERT-BiLSTM-CRF的學者主頁信息抽取[J]. 計算機應用研究,2020,37(增刊1):47-49. Zhang Qiuying, Fu Luoyi, Wang Xinbing. Scholar homepage information extraction based on BERT-BiLSTM-CRF[J]. Application Research of Computers, 2020, 37(Supp. 1): 47-49. (in Chinese with English abstract)
[32]Graves A, Fernández S, Schmidhuber J. Bidirectional LSTM networks for improved phoneme classification and recognition[C]//International Conference on Artificial Neural Networks, Warsaw, Poland, 2005.
[33]Sundermeyer M, Schluter R, Ney H, et al. LSTM neural networks for language modeling[C]// Conference of the international speech communication association, Portland, Oregon, United States, 2012.
[34]Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]// Inter speech, Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, 2015.
[35]Lafferty John, Mccallum A, Pereira F C N, et al. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//International Conference on Machine Learning (ICML), Massachusetts, United States, 2001.
Construction of visualization domain-specific knowledge graph of crop diseases and pests based on deep learning
Wu Saisai1, Zhou Ailian1※, Xie Nengfu1, Liang Xiaohe1, Wang Huijuan1, Li Xiaoyu1, Chen Guipeng2
(1.,,100086,; 2.,,330200,)
The knowledge graph describes the concepts, entities, and their relationships in the objective world in a structured form. It has a better ability to organize, manage, and understand massive amounts of information, and can structure heterogeneous knowledge in the field. It can be widely used in medical, biological, financial, etc. In view of the current situation in the field of crop diseases and insect pests, there are multiple relationship pairs between the same entity and multiple entities, multi-source heterogeneous data, poor aggregation ability, low utilization, and the possibility of knowledge sharing. Combining Natural Language Processing (NLP) and text mining technologies, this study focused on data acquisition, ontology construction, knowledge extraction, and knowledge storage, researched on the construction of crops diseases and insect pests knowledge graph based on deep learning. Firstly, this study used the Scrapy crawler framework of the Python programming language to crawl data from web pages related to crop diseases and insect pests, and performed data cleaning and data supplementation through data preprocessing methods. Secondly, according to the characteristics of the domain corpus, the Protégé ontology construction tool was used to complete the semi-automatic construction of the crop diseases and insect pests ontology predefined the set of properties and relations and set the corresponding domains and ranges. Then, based on the ontology, the rule method was used to extract semi-structured knowledge, and the deep learning method was used to extract unstructured knowledge. In the process of unstructured knowledge extraction, a text annotation mode “Main_Entity+Relation+BIESO” (ME+R+BIESO) adapted to the domain corpus was also proposed. Based on a predefined set of relationships, entities and relationships were simultaneously annotated, it contained entity and relationship information at the same time, and directly modeling the triples instead of separately modeling entities and relationships. The corresponding triples were also directly obtained through analysis, which not only saved at least half of the cost of labeling but also realized the joint extraction of entity relations and solved the problem of overlapping relation extraction. And this study used the Bidirectional Encoder Representation from Transformers (BERT)- Bi-directional Long-Short Term Memory (BiLSTM)+ Conditional Random Field (CRF) end-to-end model to experiment on the crop diseases and insect pests dataset. First, this study used the BERT pre-training language model to encode words, extracted text features, and used the generated vector as the input of the BiLSTM layer; BiLSTM integrated contextual information into the model at the same time, and performed bidirectional encoding to achieve effective prediction of label sequences; finally, this study used the CRF module to decode the output result of BiLSTM, and the label transition probability and constraint conditions were obtained through training and learning, and the entity label category of each character was obtained. The experimental results showed that the precision was 94.06%, the recall was 89.02%, and the F1 value reached 91.34%, which was much better than the pipeline method and classic models such as BiLSTM+CRF and Convolutional Neural Networks (CNN)+BiLSTM+CRF in the joint extraction method. The joint extraction of entity relations based on this annotation mode not only improved the efficiency and accuracy of annotation but also solved the problem of overlapping relations in the corpus. Finally, the extracted knowledge was stored in the graph database to realize the visual display of the knowledge graph and deep knowledge mining and reasoning. Combined the deep learning technology to realize the semi-automatic construction of the knowledge graph, which was of great significance for the detection of crop diseases and insect pests, forecasting and early warning, and the establishment of prevention models in the intelligent production system. It could provide a high-quality knowledge base for crop diseases and insect pests question answering systems, recommendation systems, search engines, and other applications, which could be effectively applied to crop variety selection, pest prevention and control, and fertilization and irrigation.
crops; diseases and pests; models; knowledge graph; deep learning; joint extraction of entity and relation
吳賽賽,周愛蓮,謝能付,等. 基于深度學習的作物病蟲害可視化知識圖譜構建[J]. 農業工程學報,2020,36(24):177-185.doi:10.11975/j.issn.1002-6819.2020.24.021 http://www.tcsae.org
Wu Saisai, Zhou Ailian, Xie Nengfu, et al. Construction of visualization domain-specific knowledge graph of crop diseases and pests based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 177-185. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2020.24.021 http://www.tcsae.org
2020-10-20
2020-11-27
國家自然科學基金面上項目(31671588);國家社科基金青年項目(20CTQ019);江西現代農業科研協同創新專項(JXXTCX201801-03);中國農業科學院農業信息研究所創新工程項目(CAAS-ASTIP-2016-AII)
吳賽賽,研究方向為農業知識圖譜、智能問答。Email:82101185233@caas.cn
周愛蓮,副研究員,研究方向為農業信息管理。Email:zhouailian@caas.cn
10.11975/j.issn.1002-6819.2020.24.021
TP391
A
1002-6819(2020)-24-0177-09