唐聞濤,胡澤林
贛南師范大學 物理與電子信息學院,江西 贛州 341000
隨著農業信息化的推進,農業數據量不斷增加,適逢人類由以數據互聯為特征的Web2.0時代邁入以知識互聯為特征的Web3.0 時代[1],如何充分利用農業數據、挖掘農業知識成了人們亟需解決的難題。
知識圖譜的理念起源于語義網[2],經歷了自然語言處理技術的興起與本體論的發展,谷歌于2012 年正式提出了知識圖譜[3]。知識圖譜最早是用來輔助搜索引擎的搜索,以提升用戶的搜索體驗,后在學術界廣泛應用。如今,作為大數據時代下知識工程的關鍵技術之一,知識圖譜與以專家系統為代表的傳統知識工程相比,有著以下幾點優勢:(1)知識可視化,知識圖譜可以采用圖形或者網絡結構進行可視化,使得知識之間的關系更加清晰明了。(2)知識推理能力更強,知識圖譜能夠建立和發現知識之間的關聯性和規律性,從而進行深入的推理和分析。(3)知識規模更大,現代知識圖譜的數據規模動輒達到百億級別,具有更加完整的知識儲備。
在通用領域,國內外著名的知識圖譜有Freebase[4]、Yago[5]、Zhishi.me[6]、CN-DBpedia[7]等。由于通用領域知識圖譜技術已經較為成熟,對垂直領域知識圖譜的研究逐漸變得熱門起來。目前,知識圖譜已經在醫學[8-9]、社交[10]、航空制造[11]、礦井建設[12]等垂直領域取得了不錯的知識管理效果。在這個背景下,農業知識圖譜的引入為農業知識工程的發展帶來了新的思路和機遇。它能高效處理農業數據,挖掘其中的知識,為農業決策提供更全面、準確的支持。農業知識圖譜的應用前景廣闊,是當前農業信息化發展的熱點和趨勢之一。
國內外學者對農業知識圖譜的研究已經取得了一定的成果,如Liu等[13]從作物病蟲害的數據特點出發,論述了作物病蟲害知識圖譜的產生背景以及關鍵技術;Min等[14]首次對食品知識圖譜進行了綜述,并介紹了其代表性應用;Mol等[15]將農業知識抽取方法分類為基于規則與基于學習,分別探討了各種方法的技術特點。縱觀現有的綜述文獻,學者們大多只關注于農業領域的某個子領域,鮮有人對農業領域知識圖譜進行全面的介紹。因此,本文會更加強調綜合性,文獻的收集范圍將涵蓋農業的各個領域,并且包括農業知識圖譜構建全過程、全生命周期涉及到的關鍵技術。此外,由于知識圖譜相關技術正處于高速發展的時期,本文在把握知識圖譜技術發展脈絡的同時會致力于對新技術的介紹。
基于Web of Science 與CNKI,使用包括但不限于以下主題詞:“agricultural knowledge graph”or“knowledge graph of diseases and pests”or“food knowledge graph”or“construction of agricultural ontology”or“agricultural knowledge extraction”or“agricultural knowledge fusion”or“agricultural knowledge reasoning”,對2018年至今的文獻進行模糊檢索,文獻類型選擇非綜述,并利用追溯法對已有文獻的參考文獻進行擴檢,共檢索出376篇文獻。在對文獻進行初步整理后,發現某些文獻更多地涉及生物化學技術而非知識圖譜相關技術,還有些文獻使用的技術成熟度不高,這兩類文獻不被列入參考范圍。經過篩選,本文最終選取了91 篇代表知識圖譜技術進展的經典文獻以及與農業知識圖譜相關度較高的文獻進行綜述。
知識圖譜常以數據層和模式層作為核心架構[16],模式層定義了知識圖譜中實體與關系之間的結構和語義規則,通常以本體的形式進行表示,而數據層則是知識圖譜的實際數據存儲位置,一般借助圖數據庫進行管理。
知識圖譜的構建方法通常分為自頂向下、自底向上和混合構建法。自頂向下的方法側重于先定義模式層,然后基于這些定義,收集和整理具體的數據實例;自底向上的方法從實際數據出發,通過分類、聚類、匹配等技術組成知識圖譜;混合構建法先采用自頂向下法初步構建模式層,然后在數據層的構建中自底向上對模式層進行更新。在農業領域,由于實體關系種類繁多,依據領域知識和專家經驗的自頂向下方法無法覆蓋其復雜性和變化性,自底向上方法無法保證數據的質量與完整性。因此,農業領域知識圖譜一般采用混合構建法進行構建,其框架如圖1所示。

圖1 農業知識圖譜混合構建法框架Fig.1 Framework of hybrid construction method for agricultural knowledge graph
本體起源于哲學領域,后在計算機科學領域被用來描述概念實體及它們之間的關系,是知識表示的基本工具之一。農業本體作為農業知識圖譜的核心組成部分,可以為知識圖譜的構建提供一個清晰的結構和規范的語義。因此,在構建農業知識圖譜之前,須先構建農業本體。
常用的本體建模軟件有:Protégé、Web Onto 以及Onto Edit 等。Protégé 憑借其圖形化的操作界面,可實現模塊化的設計,受到了更多學者的青睞[17]。經過不斷的發展與演化,目前農業本體構建方法可分為手動構建、自動構建和半自動構建[18]。
農業本體的手動構建需要豐富的領域知識并由人工進行本體編輯,如李貫峰等[19]在閱讀大量文獻資料的基礎上,使用Protégé 構建了枸杞病蟲害本體庫。許多等[20]對水稻在施肥、營養失衡和作物農情等方面的知識進行整理分析,并請農業專家進一步細化了知識間的關系和層次,由此構建了水稻精準施肥本體模型。
自動構建的方法利用機器學習等技術,從大量數據中自動提取農業領域的概念,并將其轉化為農業本體。Deepa 等[21]使用自然言語處理技術提取農業術語,結合文本相似性與樸素貝葉斯(naive Bayesian model,NBM),提出了一種自動構建農業本體的方法。Saat 等[22]提出了一種無監督方法,用于以榴蓮為重點的農業領域自動化本體構建。
目前半自動構建是農業領域構建本體的主流方法,即將農業敘詞表和知識分類組織轉化為農業本體。Wang 等[23]將柑橘專業書籍、柑橘生產技術報告等知識組織轉化為了丘陵柑橘施肥和灌溉本體。劉乾凝[24]利用《農業科學敘詞表》第二分冊的語義與知識,構建了都市農業知識本體,確立了都市農業資源知識組織核心要素和相互關系。劉桂峰等[25]以國家農業科學數據中心的“棉麻類作物病原真菌病害數據庫”和“微生物農藥數據庫”為主要數據源,半自動地完成了對棉花病害防治領域本體的構建。農業本體構建方法總結如表1所示。

表1 農業本體構建方法Table 1 Agricultural ontology construction methods
構建農業本體可以將農業領域的知識以一種結構化的形式呈現,方便進行知識共享和管理。本體庫并不是一成不變的,隨著知識領域的不斷擴展,本體庫也需要進行相應的演化以保持知識體系的一致性。目前,農業本體構建技術相對成熟,已有的農業本體庫也比較豐富。下一步本體研究的重點是設計一種高質量的映射方法,以實現不同本體庫之間的融合。
農業知識抽取指從不同來源、不同結構的數據中篩選和提取出與農業領域相關的知識,以便于進一步的知識表示和知識管理。知識抽取的數據源可以分為結構化數據(如數據庫)、半結構化數據(如網頁中的表格、列表)與非結構化數據(如純文本數據)三種[26],其中以非結構化數據的數據抽取較為困難,鑒于此,本文主要介紹對非結構化數據的知識抽取。
1.2.1 實體抽取
實體抽取,也被稱為命名實體識別(named entity recognition,NER),指從農業文本數據中抽取例如農作物種類、種植區域、病蟲害等實體信息,如圖2所示。可以將現有的實體抽取的方法分成三類,分別是基于規則的方法、基于機器學習的方法與基于深度學習的方法[27]。

圖2 農業實體抽取示例Fig.2 Example of agricultural entity extraction
基于規則的方法需要專家手動制定規則,如Eftimov等[28]提出了一種將術語驅動與規則相結合的NER方法,該方法僅僅利用少量與特征無關的布爾代數規則,就能高效從語料庫中抽取食品實體。Chatterjee 等[29]設計了從文本中提取農業術語的正則表達式,并使用自然語言處理技術對傳統的基線算法做出改進,這種新的NER方法被命名為RENT。盡管基于規則的方法是一項非常繁瑣的任務,但抽取的準確性隨著規則質量提高而提高。
基于機器學習的方法的主要思路是從大規模的標注語料庫中學習到統計模型,然后用這些模型來識別新的文本中的命名實體。常用的機器學習模型有支持向量機(support vector machine,SVM)[30]、隱馬爾可夫模型(hidden Markov model,HMM)[31]與條件隨機場(conditional random field,CRF)[32]等。王春雨等[33]較早地在農業領域的實體抽取任務中使用了CRF 模型,而李想等[34]考慮到農作物、病蟲害及農藥名稱中詞性、左右指界詞、偏旁部首、數量詞等特征,通過實驗選取特征組合并調整上下文窗口大小,進一步提升了CRF模型實體抽取的精度。
基于深度學習的方法擺脫了對特征的依賴,近年來被廣泛使用。Lample 等[35]在通用領域的命名實體識別任務中,首次提出了將雙向長短期記憶網絡(bidirectional long short term memory network,BiLSTM )與CRF相結合的模型。宋林鵬等[36]將BiLSTM-CRF 模型引入到中文農業實體抽取領域,并利用Word2Vec 將漢字轉換成詞向量作為模型輸入,該模型即使對于語料庫中未出現的實體也能夠獲得較好的識別效果。
由于注意力機制(attention mechanism)能夠解決序列數據中長距離依賴的問題,趙鵬飛等[37]提出了一種將注意力機制與BiLSTM-CRF相結合的模型Att-BiLSTMCRF,并成功應用于農業領域的實體抽取任務中。Guo等[38]構建了名為JMCA-ADP 的農業病蟲害實體抽取模型,該模型在Att-BiLSTM-CRF 模型的基礎上引入卷積神經網絡(convolutional neural network,CNN),用于提取局部上下文特征,解決了內在語義信息缺失的問題。
利用Word2Vec 訓練出來的詞向量是靜態的,不管處于什么樣的上下文語境,詞向量都只有單一的表示。為了更好地理解文本,研究者們提出了能根據上下文返回不同詞向量的動態預訓練模型:基于變換器的雙向編碼器表示技術(bidrectional encoder repre-sentations from transformers,BERT)[39],由于BERT 能更好地理解上下文,處理多義性問題,BERT-BiLSTM-CRF模型[40]逐漸成為了實體抽取任務的主流模型,該模型結構如圖3所示。

圖3 BERT-BiLSTM-CRF模型圖Fig.3 BERT-BiLSTM-CRF model diagram
為了提高模型的計算效率,Zhao 等[41]引入輕量級BERT 模型ALBERT,隨后利用CNN 與BiLSTM 分別提取漢字的部首特征與筆畫特征,最后基于CRF得到全局最優序列,由于該模型對農業文本的分析更加細粒度,因而識別精度與泛化能力都優于其他模型。韋紫君等[42]使用實體級遮蔽策略改進了BERT 原有的語言遮蔽方法,使模型的中文語義表征能力得到增強,提高了模型對難識別樣本的識別能力。各種實體抽取方法對比如表2所示。

表2 農業實體抽取方法Table 2 Agricultural entity extraction methods
1.2.2 關系抽取
經過命名實體識別后抽取出來的實體都是相互獨立的,這時就需要進行關系抽取識別出不同實體之間的關系,以形成知識圖譜(實體,關系,實體)三元組的表達形式。常用的關系抽取方法有:基于模板的方法、基于監督學習的方法與基于遠程監督的方法。
基于模板的關系抽取方法常用于早期的關系抽取任務中,模板由該領域的專家手工編制,例如在例句“柑橘黃龍病的病原為亞洲韌皮桿菌”和例句“葡萄白腐病是由白腐墊殼孢侵染所引起的”中,通過實體替換,可以歸納出以下模板:[X]的病原為[Y]、[X]是由[Y]所引起的,將模板代入到語料庫中進行模式匹配,便可以得到具有病與病原體關系的兩對實體。
基于監督學習的關系抽取方法實際上是將關系抽取問題轉化為分類問題,可以利用機器學習方法與深度學習方法對文本進行分類。傳統的機器學習方法依賴于人工標注數據集的規模與數量,而深度學習方法具備自學習的特點,能自動化地從文本中抽取特征。
Liu等[43]提出了一種結合句法解析特征和詞嵌入特征的農業文本關系提取方法,并利用樸素貝葉斯、支持向量機和決策樹(decision tree mode,DTM)等模型驗證了該方法的有效性。吳粵敏等[44]使用融合注意力機制的雙向門控循環單元(bidrectional gated recurrent unit,BiGRU),對農業金融文本關系實現了自動抽取。
遠程監督方法適用于訓練語料不足的情況,最早是由Mintz等[45]引入到關系抽取領域,它最核心的假設是:如果兩個實體存在某種關系,那么所有包含這兩種實體的句子都將表達這種關系。Zeng 等[46]提出一種PCNN方法,將神經網絡融入到了遠程監督方法中。在農業領域,樂毅等[47]提出的農業病蟲害遠程監督關系抽取模型,分別在PCNN的實例級和池化特征級引入了注意力機制,使得抽取效果較傳統模型有明顯提升。唐璐[48]將強化學習RLRE 模型與Att-PCNN 模型相結合,成功降低了徽茶關系抽取中的噪聲。董哲等[49]提出了一種融合對抗訓練和膠囊網絡(capsule network,CapsNet)的關系抽取模型GAL-CapsNet,該模型利用BiLSTM提取文本序列的全局特征,然后通過CapsNet的動態路由機制獲取高層次的局部特征,在嵌入層加入對抗訓練使得模型有很好的魯棒性,解決了食品安全領域由于數據集體量小導致普通網絡模型無法充分進行特征學習的問題。各種關系抽取方法對比如表3所示。

表3 農業關系抽取方法Table 3 Agricultural relationship extraction methods
1.2.3 實體關系聯合抽取
傳統的流水線方法將實體抽取和關系抽取作為兩個獨立的任務,先對文本進行實體抽取,再將實體作為輸入,進行關系抽取。流水線方法容易造成錯誤積累問題,例如在例句“新疆野蘋果被認為是栽培蘋果主要的祖先物種”中,如果在實體抽取中將嵌套實體“新疆野蘋果”僅僅識別為“新疆”或“野蘋果”,就容易得出關系(新疆,祖先物種,蘋果)或(野蘋果,祖先物種,蘋果),顯然這是不正確或者不完整的。因此,將實體抽取與關系抽取聯合建模的聯合抽取模型逐漸熱門起來。
Qiao 等[50]對聯合抽取模型LSTM-LSTM-Bias 進行了改進,使用BERT 替代了Word2Vec 進行預訓練,并將模型的編碼層改為BiLSTM。實驗表明該模型在標準數據集NYT-10 與農業數據集AgriRelation 都有更優秀的抽取效果。沈利言等[51]提出的JE-DPW模型能夠有效提升水稻病蟲草害防治文本中實體關系聯合抽取的準確性。胡濱等[52]提出了一種基于雙重指針標注和CLN網絡層的聯合抽取模型,該模型能夠快速準確地抽取家禽疾病診療文本中實體關系三元組。吳賽賽等[53]設計了一種同步標注的聯合抽取標注新方法,該方法適用于存在“一實體同時與多個實體之間存在重疊關系”的語料。最后,使用BERT-BiLSTM-CRF模型對該方法進行了測試,驗證了其可行性。實體關系聯合抽取方法對比如表4所示。

表4 農業實體關系聯合抽取方法Table 4 Agricultural entity relationship joint extraction methods
經過知識抽取,初步獲得了一定數量的農業知識,但知識的來源不同,知識的質量也良莠不齊。知識融合是指將不同來源的知識在同一框架下進行對齊與合并,以解決知識圖譜的異構問題,使得知識連接更加稠密,包含圖譜模式層和數據層兩個方面的融合[54]。
1.3.1 模式層融合
模式層的融合實質上是將不同知識庫中的本體進行匹配。對本體匹配的研究最早可追溯到歐洲委員會啟動的語義網與點對點(semantic web and peer-to-peer,SWAP)項目,旨在將多個異構本體集成為一個大本體。謝能付[55]提出了一種知識融合框架,其中基于農業本體的匹配是該框架研究的關鍵環節。Suarez 等[56]提出一種本體集成方法論NeOn,通過重用本體資源,來加快新的本體網絡的構建。Muljarto等[57]使用了這種方法論,將農業實驗本體與食品加工實驗本體融合成了農業食品實驗本體,并將新的本體應用到葡萄的栽培與釀酒中。此外,Zhang 等[58]提出了一種基于語義映射的本體集成方法OIM-SM,該方法計算不同本體概念的相似性建立語義等效映射,隨后將概念集成后拆分為塊,通過對齊塊中的概念來形成集成本體。
1.3.2 數據層融合
實體鏈接是數據層融合的核心方法。實體鏈接是指將文本中的命名實體鏈接到知識庫中的實體。農業實體鏈接包括實體指稱識別、候選實體生成、候選實體消歧三步[59],如圖4所示。

圖4 實體鏈接流程圖Fig.4 Entity link flowchart
實體指稱識別可以通過NER技術和詞典匹配技術實現。詞典匹配技術需要構建領域實體指稱詞典,然后直接將文本與詞典進行匹配。候選實體生成是確定文本中的實體指稱可能指向的實體集合,例如,在例句“該作物的生長適宜溫度為18~25 ℃,降雨量宜在1 000~1 500 mm 之間”中,首先可以識別出“作物”這個實體,然后從知識庫中選取與之相關的候選實體,如“玉米”“小麥”“大豆”“水稻”等,最后進行候選實體消歧,確定正確的實體。
候選實體消歧是實體鏈接中最關鍵的步驟,旨在確定實體指稱所指向的實體。候選實體消歧常被作為排序問題求解,例如在上個例子中,通過對詞匯相似度、上下文信息等多個方面進行計算,“小麥”實體得分最高,則將其作為正確的實體鏈接結果。Huang等[60]提出了一個基于深度學習的實體相關度計算模型,將兩個實體之間的相關度定義為余弦相似度。夏迎春[61]采用主題模型計算實體指稱與候選實體之間的相似度,隨后利用HITS 算法計算候選實體的權威度并進行排序,以得到最佳的鏈接實體。
農業知識推理是利用已知農業知識從而推導、預測未知農業知識的過程,主要用于對知識圖譜進行補全。傳統的知識推理方法基于邏輯與規則,楊潔[62]構建了柑橘病蟲害領域的一系列規則,借助Jena推理機完成了知識的推理。牟向偉等[63]提出一種基于描述邏輯的冷鏈HACCP 知識語義模型,該模型采用語義網規則語言SWRL描述業務邏輯,使得模型的自動推理能力得到了提高。
基于邏輯與規則的推理方法雖然有數學基礎扎實、具有較強的可解釋性等優點,然而在處理知識圖譜中長尾問題時,由于缺乏數據支持,很難進行有效的推理。因此,基于表示學習的推理方法逐漸進入了人們的視野。基于表示學習的推理算法旨在找到一個函數,將實體與關系映射到一個連續的低維向量空間中,在低維向量空間中捕獲實體與關系之間的關聯。戈為溪等[64]使用基于表示學習的PairRE 算法獲取水稻施肥知識圖譜中實體與關系的低維向量表示,并根據待種植的水稻品種能推理出該水稻的施肥方案。
作為一種比較熱門的機器學習方法,強化學習方法也在知識推理領域占有一席之地。吳安捷[65]在強化學習經典模型DeepPath的基礎上,引入了較為先進的PPO算法,解決了DeepPath 在推理中步長難以確定的問題?;谏窠浘W絡的推理在處理大規模、高緯度的數據時比起其他推理方法有著明顯優勢,王亦斌等[66]使用EMDLSTM模型,完成了對農業種植區域河流水量水位的預測。王獻鋒等[67]針對深度置信網絡(deep belief network,DBN)在作物病蟲害預測中的訓練耗時長和容易收斂于局部最優解等問題,將自適應DBN 和判別限制玻爾茲曼機(restricted Boltzmann machine,RBM)相結合,提高了棉花病蟲害預測的準確率。張善文等[68]構建小麥條銹病知識圖譜,然后將小麥條銹病發生相關的環境信息作為特征向量訓練BiLSTM,最后得到了一個小麥條銹病的預測模型。
近年來,圖神經網絡(graph neural network,GNN)被廣泛用于知識推理領域,圖神經網絡采用圖作為數據的表征形式,與知識圖譜的圖結構相契合。Yan 等[69]使用GNN 建立了農產品價格的時間序列預測模型,在該模型之中,農產品被視為節點,關系被視為邊,由于考慮到了不同農產品之間的內在聯系,所以對未來價格的預測更加準確。Li等[70]利用共生網絡和GNN提出了以17個環境因子為輸入變量的水稻重金屬預測模型CoNet-GNN,該模型在實驗結果中體現了良好的穩定性與魯棒性。準確預測重金屬濃度,對評價農產品質量、降低健康風險具有重要意義。
總體來說,目前農業知識推理方法可分為基于邏輯與規則的推理、基于表示學習的推理、基于強化學習的推理、基于神經網絡的推理與基于圖神經網絡的推理,如表5 所示。農業知識推理為農業知識圖譜在決策支持與推薦系統的應用提供了理論依據,今后將朝著結合不同推理方法的混合推理方向進行探索。

表5 農業知識推理方法Table 5 Agricultural knowledge reasoning methods
知識圖譜作為人工智能符號主義與連接主義相結合的產物[71],能結合兩者的優點,解決很多實際問題。
本章將重點介紹農業知識圖譜在決策支持、智能問答以及推薦系統上的應用。
知識圖譜在農業決策支持中發揮著重要作用。利用知識圖譜的查詢和推理能力,農業決策者可以快速獲取信息,并基于這些信息做出科學的決策。
國內外知識圖譜在作物灌溉與施肥決策支持上的應用較多。王藝等[72]設計的柑橘肥水管理決策支持系統基于語義本體,系統包括施肥查詢、病癥查詢與排灌監測三大模塊,為果農提供了精準的柑橘肥水管理建議。肥料知識庫是He等[73]開發的最優施肥決策支持系統中重要的組成部分,考慮到農民普遍缺乏網絡應用知識,知識庫的搜索查詢界面被設計得用戶友好,可實現模糊查詢和精確查詢,輔助最優施肥決策的制定。
知識圖譜還能對農作物與畜牧進行智能診斷,根據診斷結果,農民能更好地了解它們的身體狀況。于合龍等[74]基于水稻知識圖譜,利用確定性因子與水稻病株癥狀的結合實現了水稻病蟲害的診斷。Wang等[75]利用知識圖譜的推理功能提取了奶牛病害的隱性特征,并將特征輸入到BiLSTM-CNN神經網絡完成了對奶牛病害的診斷。該方法彌補了專家系統嚴重依賴規則且難以擴展的不足。
除上述應用場景之外,肖樂等[76]針對我國糧食產后損耗嚴重問題,開發了糧情決策支持系統,意圖改善農戶及儲糧管理人員因知識不全、經驗不足而造成糧食損失的情況。史運濤等[77]提出的食品安全風險評估模型,能為食品抽檢工作提供決策依據。張朝正等[78]開發的食品供應鏈風險預警智慧管控系統,提高了北京冬奧會期間食品安全應急保障能力。
智能問答系統是信息檢索系統的一種高級形式,它能用準確、簡潔的自然語言回答用戶提出的問題。農業知識圖譜在智能問答系統中充當一個知識庫的角色,為農業智能問答提供了一個全面的知識支持。
Xia 等[79]設計的知識問答系統基于實體鏈接、外部知識和相似性計算,能直接、簡潔地回答病蟲害相關問題。針對中國農業技術推廣信息平臺的問答社區中與大米有關的問題重復率過高,Wang 等[80]提出了一種將GRU、Word2Vec和詞頻-逆文本頻率指數(term frequencyinverse document frequency,TF-IDF)相結合的方法,有效解決了大米相關文本數據的高維稀疏性。王俊[81]根據知識圖譜設計的智能問答系統則更多地關注飲食健康領域,致力于實現對水果蔬菜等農作物的飲食健康智能問答。
圖像識別問答通過對圖像進行分析和識別,為用戶提供有關該圖像的相關信息和解決方案。Lan等[82]設計了一個融合多模態特征的果樹病害問答系統,該系統可以通過上傳果樹病害的照片來獲取病害的診斷結果和相應的治療方案。
基于農業知識圖譜的推薦系統可以通過分析用戶的歷史行為、個人興趣和需求,結合知識圖譜中的農業數據和知識,為農業從業者提供個性化且精準的農業產品和服務推薦。
孫琳[83]在構建了農業知識圖譜后,提出一種基于用戶偏好的矩陣分解算法,設計并實現了基于知識圖譜的農業在線信息資源推薦系統。唐柳[84]開發的個性化農業新聞推薦系統,能根據用戶喜好進行對新聞的推薦,既幫助了用戶更方便快捷地閱讀新聞,也更大限度地發揮了新聞的作用。Zou等[85]為將玉米新品種及時推廣到適宜種植區域,基于知識圖譜,利用RippleNet模型構建了品種環境適應性偏好傳播網絡,并探索了品種田間表現與種植區氣象因子間的隱含關系,從而實現了縣域范圍內玉米種植區域的精準推薦。
農業知識圖譜應用案例總結如表6所示。

表6 農業知識圖譜應用Table 6 Applications of agricultural knowledge graph
本章將以幾個成熟的農業知識圖譜為例,對比分析它們的優缺點。選取的知識圖譜實例將涵蓋不同的農業子領域,從而呈現出農業知識圖譜的多樣性和實用性。
AgriKG[86]是一個面向農業全領域的知識圖譜,具有廣泛性、綜合性等優點。自然語言處理技術的運用使得它能從數據中自動抽取實體關系并鏈接到知識庫中。AgriKG 的典型應用場景是實體檢索與智能問答,能通過圖片進行實體檢索是它的一大亮點,子圖匹配的方法也保證了智能問答的準確率。遺憾的是,AgriKG 的源數據全來源于網頁爬取,這可能會引發數據質量層面的擔憂。
農業機器人設計過程復雜,涉及到農業、機械、自動化與計算機等領域的知識。Jin等[87]對現有的農業機器人專利文獻進行了整合,構建了農業機器人技術知識圖譜TKG。依據此知識圖譜,作者團隊實現了柑橘采摘機器人的設計。后續可將農業機器人領域的論文納入參考范圍,以擴展知識圖譜的深度與廣度。
Lei等[88]構建了一個名為RcpKG的多模態分層食譜知識圖譜。在RcpKG中,客戶的需求被轉化為節點,并采用特定的層次結構加以建模。因此,通過檢索歷史數據并結合客戶的個人偏好和社會關系,RcpKG 能夠提供可靠的食譜推薦。然而,在進行多模態信息融合時,該圖譜未能考慮到互補信息的有效性。
現有農業知識圖譜對病蟲害防治相關實體和關系刻畫不夠細致,張嘉宇等[89]以蘋果病蟲害知識圖譜的構建為例,研究了細粒度農業知識圖譜的構建方法。蘋果病蟲害知識圖譜在模式層中定義了19種實體類別和22種關系類型,隨后利用APD-CA與ED-ARE模型分別對實體與關系進行抽取,并通過Neo4j實現了圖譜的可視化。鑒于圖譜采用的抽取方法是流水線式的,未來可以進一步研究聯合抽取方法,加強實體抽取與關系抽取之間的內在聯系。
陳明等[90]提出了一個花卉病蟲害知識管理框架,該框架分為本體建模、數據獲取、數據預處理、知識抽取、知識存儲與管理五個部分。依據此框架,構建了花卉病蟲害知識圖譜,對花卉病蟲害知識起到了有效的組織作用。期待作者后續能將該框架用于花卉種植流程,將種植管理與病蟲害防治相結合,提高花卉的生產效率。
胡浩等[91]構建了奶牛產奶量性狀相關基因知識圖譜,圖譜以PubMed生物醫學文獻庫為數據源,分別使用Pubtator 和OpenIE 軟件完成了對實體與關系的抽取。奶牛產奶量性狀相關基因知識圖譜是該領域的首個知識圖譜,對奶牛生產性狀,尤其是產奶量這一表型的研究具有重要意義。但使用軟件的知識抽取準確率并不高,這是未來有待完善與優化的地方。各農業知識圖譜實例對比如表7所示。

表7 農業知識圖譜實例Table 7 Examples of agricultural Knowledge graph
近年來,農業知識圖譜的研究成果不斷增加并呈現出以下特點:一是數據來源多樣化,包括科研文獻、百科知識庫、企業數據等;二是重心從農業全領域知識圖譜向子領域知識圖譜轉移,代表著農業領域對于知識圖譜的細分和專業化需求的增加。當然,農業知識圖譜的研究也面臨一些難點和挑戰,例如如何實現不同語種農業知識圖譜的融合、如何有效完成知識推理中的多跳推理任務等。
目前針對農業領域的知識圖譜的研究仍然處在起步階段,在理論、模型到具體的構建方法都有很大的發展空間,本文將根據以下幾個方面提出農業知識圖譜未來可深入研究或應用的方向。
(1)多模態農業知識圖譜的構建
目前大多數已經構建的農業知識圖譜都是單模態知識圖譜,單模態知識圖譜表達能力有限,而多模態農業知識圖譜結合了不同形式的數據,包括文本、圖像、視頻等,可以更全面、準確地描述和表達農業領域的知識和信息。同時,通過不同類型數據的互補性和交叉驗證,還能提高知識的可靠性和精度。
(2)時序農業知識圖譜與空間農業知識圖譜
目前很多的農業知識僅在某個特定的時間之內有效,并隨時間變化而變化。靜態農業知識圖譜對動態知識的管理較為困難,因此衍生出了將時序信息融入農業知識圖譜的時序農業知識圖譜。可以根據歷史氣象數據,建立時序氣象知識圖譜,對未來的氣象做出預測;或是用以管理作物生長過程中不同時間點的溫濕度和土壤水分等信息,以確定農作物的灌溉時機和施肥量。
空間農業知識圖譜可以對不同地區的空間信息進行處理和分析,例如確定某市降雨量、土壤質量的空間分布,幫助農民合理規劃和調整農業生產的空間布局,以實現最佳的農業生產效益??臻g農業知識圖譜還可以與衛星遙感、地理信息系統結合使用,將數據在地圖上進行可視化處理,為農民提供更直觀的信息和指導。
(3)農業知識圖譜與大語言模型結合應用
大語言模型的本質是一個參數化的知識庫,參數化知識庫的主要特點是將知識分解為參數和規則的組合,通過修改參數值來生成具體的知識實例,這個過程是黑盒的、不透明的,這就導致了大語言模型在自然語言生成時經常出現一些看似有理實則荒謬的論斷。而知識圖譜是一種知識的形式化表示方式,天生具有可解釋性強的優勢。因此,在大語言模型的訓練過程中引入知識圖譜,有助于提高大語言模型的可解釋性。其次,目前主流的農業知識抽取方法需要大量地標注數據、標注時間長,標注成本高??梢钥紤]利用大語言模型生成標注數據,以此減少標注成本,加速農業知識圖譜的落地。
綜述了農業知識圖譜的構建方法、關鍵技術以及應用,介紹了農業知識圖譜實例。農業知識圖譜的研究目前還處于起步階段,發展多模態農業知識圖譜、建立時空農業知識圖譜、將農業知識圖譜與大語言模型結合使用,是下一步研究的重點與挑戰。本文希望以上的分析與討論,能給研究人員對農業知識圖譜的研究提供理論依據與技術參照。