劉永波,黃 強,高文波,何 鵬,許鈺莎
(1. 四川省農業科學院農業信息與農村經濟研究所, 成都 610066; 2. 四川農業大學, 四川 雅安 625014)
【研究意義】知識圖譜(Knowledge Graph)是一種結構化的語義知識庫,常以“實體—關系—實體”的三元組形式來表示實體間的關系[1],它通過將某領域的多源異構知識結構化,解決該領域內數據缺失、信息碎片化、知識孤島化等問題,目前已在科研、金融、互聯網、人工智能等領域得到廣泛使用[2]。隨著人工智能、機器學習、大數據等學科的不斷發展,知識圖譜在領域知識管理方面取得較好的成績,農業特定領域的知識圖譜構建逐漸成為國內外科研人員研究的重點。【前人研究進展】陳亞東等[3]從蘋果產業的知識來源、知識獲取、知識融合和知識表達4個方面對我國蘋果產業知識圖譜架構進行設計,提出面向蘋果產業數據關聯的知識圖譜構建思路。王丹丹[4]通過調研寧夏自治區水稻產業發展的需求,以知識表示為基礎,利用模式匹配的方法構建了寧夏水稻知識圖譜。許鑫等[5]利用Neo4j、NLP及圖譜構建技術,構建了小麥品種知識圖譜體系,解決了品種數據中知識重復率高、知識關聯不明確等問題。【本研究切入點】知識圖譜構建的研究在國內農業領域取得了一定進展,但依然存在圖譜規模小,體系不完整,實體命名識別效果差,缺少自主演進手段等問題。茶葉是我國重要的經濟作物,茶葉生產和銷售過程中會面臨種植、管理、加工等多個環節,每個環節都需要科學的技術指導[6]。但當前絕大多數的茶葉領域開源知識都以非結構化數據形式集中在百科全書或開放領域的百科網站,存在知識數據信息化程度低、聚合能力差、利用效率低、知識共建共享困難等問題[7]。【擬解決的關鍵問題】本研究以茶葉百科網站、百科全書等多源異構數據為基礎,茶葉專家經驗為指導,根據茶葉全產業鏈中文本實體所呈現的關系特征,提出一種基于BERT-WWM-BiLSTM-AttTea-CRF模型的茶葉知識圖譜構建方法。該方法通過提取茶葉全產業鏈中的有效命名實體,構建了包含茶葉品種、茶葉病蟲害、茶樹生長環境、茶園適用技術4個類別的知識圖譜。旨在利用茶葉全產業鏈知識圖譜構建及自主演進技術建立供需關聯規則,實現茶葉生產社會化服務的供需精準匹配,同時為農業經營主體關系可視化、農時指導問答系統、農業知識圖譜的應用等研究提供參考。
知識圖譜根據數據源中數據格式的規范程度不同,可分為結構化、半結構化、非結構化3種數據類型[8]。結構化數據由規范的數據庫制表構成,此類數據可通過D2R工具直接轉換為三元組數據,但目前互聯網尚未有開源的茶葉數據庫可供提取,因此本研究的茶葉知識圖譜數據源主要由非結構化數據構成。茶葉全產業鏈命名實體識別缺少公開的語料數據集,本研究采集的非結構化數據主要來自《中國茶葉大辭典》《茶樹栽培學》《茶樹栽培技術》等紙質書籍或電子書文件,對紙質書籍經過掃描形成PDF文件,采用OCR(Optical Character Recognition)文字識別技術將PDF文字轉換文本數據,便于對數據進行管理和標注。采集的語料數據集包含茶葉品種262種,茶葉病害105種(包含32種病害和73種蟲害),茶葉生長環境179篇(包含水分、溫度、海拔、光照等),茶園適用技術232篇(包含耕作、施肥、修剪、采摘等),總計4大類778篇語料文本,約70萬個中文字符。
知識圖譜的架構一般分為兩個層次:模式層和數據層。模式層是知識圖譜結構的核心,建立在數據層之上,通常采用本體管理來實現知識圖譜的模式層[9-10]。本體構建是對整個茶葉知識圖譜框架的構建,本體構建的目的在于理清茶葉知識圖譜中實體與實體之間的關系,為本研究提出的模型智能提取茶葉文本語料數據提供依據。為構建茶葉全生產過程的本體模型,本研究借鑒茶葉專家經驗將茶葉知識圖譜定義為茶葉品種、茶葉病蟲害、茶葉生長環境、茶園適用技術4個大類。每一大類再分為若干小類,例如將茶葉病蟲害分為茶葉病害和茶葉蟲害2個子類,將茶葉生長環境分為水分、溫度、海拔、光照等子類。每一個子類包含一級圖譜,再根據子類細分為多個小類,形成二級圖譜,最后根據茶葉命名實體的特性來定義每類中的實體、關系、屬性。茶葉知識圖譜的部分本體構建關系如圖1所示,其中茶葉品種、茶葉病蟲害、茶葉生長環境、茶園適用技術4個大類的一級圖譜通過不同顏色區分。

圖1 本體構建關系Fig.1 Ontology building relationgship
目前最常用的序列標注方法有三位標注(Beginning Inside Outside,BIO)、五位標注(Beginning Inside Outside End Singleton,BIOES)、反向三位標注(Inside Outside Beginning,IOB) 3種,其中IBO因為缺少B-tag作為實體標注的頭部表示,丟失了部分標注信息,導致文本提取效果不佳,BIO很好地解決了這一問題,文本提取效果優于IBO[11]。而BIO相較于BIOES擁有更簡易的標簽,且提取效果相近,因此本研究選擇BIO作為數據標注的主要方式。BIO方法將文本中元素標注為“B-X”“I-X”“O” 3種形式。其中“B-X”代表“Beginning”,表示被該標簽標注的元素位于X類型實體的開頭位置;“I-X”代表“Inside”,表示該元素處于X類型實體片段的中間位置(包含尾部位置);“O”代表“Outside”,表示該元素為非所需的實體類型[12]。以抽取書籍中茶葉品種的文字描述為例,茶葉品種的語料具有以下特征:關于茶葉品種的描述通常是一段獨立文字圍繞一個茶葉品種展開,因此該段文字中茶葉品種作為頭部實體是固定的,重點在于對尾部實體和實體關系的提取。根據上述特征,以茶葉品種中的‘福鼎大白茶’為例,按圖2所示標注文字序列。

圖2 文字序列標注Fig.2 Text sequence annotation
將‘福鼎大白茶’頭部實體標注為NAME,其中實體第一個字為B-NA,其余文字標注為I-NA。由于‘福鼎白毫’是‘福鼎大白茶’的別名,故將‘福鼎白毫’標注為別名(Another Name,AN)。‘福鼎大白茶’與“福建省福鼎市”之間為原產地關系,則將‘福建省福鼎市”標注為原產地(PLACE,PL)。‘福鼎大白茶’與“無性系”之間為繁殖方式關系,則將“無性系”標注為繁殖方式(BREED,BR),其余文字序列標注以此類推。當模型匹配到主實體B-NA和關系B-AN的標簽集合時即生成三元組(‘福鼎大白茶’,別名,‘福鼎白毫’);匹配到NA和BR的標簽集合時,即生成三元組(福鼎大白茶,繁殖方式,無性系)。當模型檢測到下一個茶葉品種的實體標簽出現時,則表示上一個品種實體的三元組標簽全部抽取完成。
1.4.1 模型總體架構設計 BERT-BiLSTM-CRF的模型組合方式是當前命名實體識別領域的代表性模型,其優良的性能已在各大開源文本數據集測試中得到驗證。但由于模型未針對農業體系命名實體做針對性改進,而茶葉作為農業體系中一大分支體系,其領域涵蓋大量生僻詞匯和專業性描述語句,如何提升原有模型對茶葉語料文本的識別效率,是當前茶葉知識領域有待解決的問題。針對上述問題,本研究擬采用基于全詞掩碼的BERT-WWM(Whole Word Masking)層預訓練模型替換原有模型中的單字隨機掩碼BERT層,解決茶葉領域生僻詞匯提取不完整的問題,并根據茶葉領域語料數據的全局文本特征,設計可實現茶葉關鍵實體權重分配的Attention_Tea注意力機制層,以提高文本提取的準確率。
本研究提出的融合全詞掩碼和注意力機制的BERT-WWM-BiLSTM-AttTea-CRF模型結構如圖3所示,它由全詞掩碼的BERT-WWM層、BiLSTM層、融合注意力機制Attention_Tea層和CRF層組成。該模型的主要步驟為:第1步,將輸入的文本經過基于全詞掩碼BERT-WWM層預訓練,提取文本中與茶葉領域知識相關的語義特征;第2步,文本經上游處理后輸入到下游BiLSTM層,結合上下文進行雙向編碼處理,并輸出特征值;第3步,利用Attention_Tea層注意力機制分配茶葉領域實體提取的權重,降低無效詞匯的權重;第4步,以CRF層對分配權重后提取的預測值進行解碼,得到1個預測標注序列,通過對序列中的各個實體進行提取分類, 從而完成中文實體識別的整個流程。

圖3 BERT-WWM-BiLSTM-AttTea-CRF模型框架Fig.3 BERT-WWM-BiLSTM-AttTea-CRF model framework
1.4.2 基于全詞掩碼的BERT-WWM層 對于實體識別的上游任務語言預處理方面, 當前常用的語義表示學習模型(如Word2Vec[13]、Glove[14]、ELMO等)無法很好的表征漢語語言環境中的字詞多義性。因此本研究選擇基于Transformers的雙向編碼器表示層語言模型(Bidirectional Encoder Representations from Transformers,BERT)作為圖譜構建的語言預處理模型, 以此來獲取高質量的詞向量,利于下游任務進行實體提取和分類。BERT語言模型是Google AI研究院在2018年提出的一種預訓練模型,在針對英文的詞向量提取中表現突出。中文領域的語義理解不同于英文,兩者最大區別在于英文單詞存在空格,預處理模型對英文的分詞更容易,而中文語句中不存在天然的分隔符,每個詞由多個單字組成[15]。若直接使用BERT原有模型對茶葉領域的語料進行分詞,會把一個完整的名詞拆分為若干個單字,例如茶葉品種中的“櫧葉齊”一詞,在處理時會被拆分為“櫧”“葉”“齊”3個字,在BERT模型預訓練過程中,這些單字會被隨機[mask]替換,這樣的處理方式顯然無法很好地提取茶葉文本數據中的有效語義信息。針對茶葉語料數據的特征,本研究采用基于全詞掩碼的BERT-WWM預訓練模型,當茶葉領域詞組中的某個字在訓練過程中被[mask]時,同屬該詞組的其他字也會被同時[mask]。茶葉領域全詞掩碼生成樣例如表1所示。

表1 全詞掩碼生成樣例
基于全詞掩碼的BERT-WWM詞向量預訓練模型,由Embedding層和Transformer層組成。其預訓練過程主要包含以下步驟:第1步,定義模型的輸入句子為e=(e1,e2,….,en),其中ei表示輸入句子的第i個字符,n表示句子長度。第2步,將Embedding層中的輸入句子以詞嵌入向量(Token Embeddings)、分割向量(Segment Embeddings)和位置向量(Position Embeddings)三者求和的方式轉換為輸入序列T=(t1,t2,….,tn)。其中,詞向量通過查詢字向量表得到,分割向量用來表示該詞屬于的句子,位置向量表示該詞的位置信息。第3步,將序列T=(t1,t2,….,tn)輸入Transformer層以提取特征,得到語義豐富的輸出序列h0=(h1,h2,….,hn)作為后續實體關系聯合抽取的句子編碼。
BERT預訓練模型的關鍵部分在Transformer層,Transformer層的核心是通過自注意力函數Attention()來計算詞與詞之間的關聯度,以此來分配詞的權重[16]。
(1)
式中,以headi表示單頭Attention,MultiHead表示多頭注意力,W是權重矩陣,通過多個不同的線性變換對Q、K、V投影,再用拼接函數Concat()將自注意力機制結果拼接乘以權重,通過計算來得到不同空間維度的位置信息。
(2)
MultiHead(Q,K,V)=Concat(head1,head2…headn)W0
(3)

1.4.3 雙向長短時記憶BiLSTM層 長短時記憶網絡LSTM是循環神經網絡的一種變體,BiLSTM模型不同于單向的LSTM神經網絡模型,BiLSTM模型的優勢在于可實現對文本前句和后句的雙向分析,有效處理梯度爆炸和梯度消失的問題,在實體抽取任務中效果更優[17]。茶葉領域的語料文本結構復雜多樣化,需結合上下文信息才能精確提取目標實體。LSTM模型的弊端在于只能獲取目標實體的前向信息,比如,名為“茶赤葉斑病”的病害實體,若采用LSTM模型,則只能獲取到“斑”字的前向信息“葉”,而無法預測到后向的“病”字。LSTM的單個神經元(CELL)結構如圖4所示。

圖4 LSTM的單個神經元Fig.4 Single neuron of LSTM
在LSTM模型中,包含遺忘門、輸入門和輸出門3種門結構。遺忘門負責管控上一時刻Ct-1到當前時刻Ct的保有量,輸入門負責管控網絡輸入xt到當前時刻Ct的保有量,輸出門控制Ct輸出到at。
ft=σ(Wf×[at-1,xt]+bf)
(4)
it=σ(Wi×[at-1,xt]+bi)
(5)

(6)
(7)
最后LSTM的輸出值at由輸出門的值ot和單元狀態Ct計算所得,如公式(8)(9)所示:
ot=σ(Wa×[at-1,xt]+b0)
(8)
at=ot×tanh(Ct)
(9)
將前向LSTM和后向LSTM組成雙向長短時記憶網絡BiLSTM分別將從左右2個方向拼接成一個長輸入序列,并輸出到模型下一層,其結構如圖5所示。

圖5 BiLSTM雙向結構Fig.5 Bilstm bidirectional structure
1.4.4 融合自注意力機制Attention_Tea層 注意力機制(Attention Mechanism)一詞起源于人類對觀察事物的研究。由于人類的視覺對客觀世界的信息處理存在瓶頸,注意力機制會將注意力集中在具有明顯特征的信息上,選擇性忽略一些次要信息[18]。在茶葉領域命名實體抽取任務中,存在較多茶葉專用名詞和生僻漢字,且同一命名實體可能存在多篇語料數據中,實體所處位置不同,表達的含義也存在差異。若忽略實體在全文的語境,僅關注實體在所處句子的上下文信息,會出現同一實體前后標注不一致的問題。例如品種‘福選9號’的文本描述如下:福選9號是因從福鼎大白茶中選育而得名,選自福建福鼎縣。小喬木型、中葉類,特早品系,雨水節左右萌發采摘。文本中出現了2個品種名,即“福選9號”和“福鼎大白茶”,從文本的描述中不難看出來,該句描述的品種主實體應該是‘福選9號’,但‘福鼎大白茶’在多篇語料數據中以實體形式出現,在脫離全文語境,僅對該句進行識別的情況下,很大概率會對‘福選9號’錯標或漏標。本研究根據茶葉語料數據中實體分布不均勻、實體多樣化等特點,引入茶葉語料數據全局信息解決實體標注不準確的問題。為選擇最適合的注意力計算函數,分別以感知機、余弦距離、皮爾遜相關系數進行注意力機制實驗,表明,余弦距離對茶葉命名實體的識別效果最優。因此,本研究選擇余弦距離公式做相似性計算,重點關注分布在不同篇幅語料數據的同一實體[19-20]。
本研究通過注意矩陣處理BiLSTM層輸出的特征序列,計算文檔中所有字與目標實體的相關性。注意力權重向量ri的計算公式如下:
(10)
式中,yj表示BiLSTM層的輸出的特征序列。bij為當前字與全局文檔字的相關性概率,其計算公式為:
(11)
(12)
式中,wi、wj為當前字和文檔中字的權重,Wa為訓練過程的參數,f(wi,wj)為余弦距離。
1.4.5 條件隨機場CRF層 條件隨機場(Conditional random field,CRF)以BERT層、BiLSTM層和Attention_Tea層提取上下文特征向量為輸入,其主要目的是對語句進行有序列的輸出,利用CRF層中的轉移矩陣找出標簽之間的聯系。當Attention_Tea層輸出的序列為x,標簽序列為y的概率計算公式為:
s=∑iPE(xi,yi) +PT(yi-1,yi)
(13)
式中,PE為注意力層輸出概率,PT為CRF層轉移概率。
1.5.1 本模型與基準模型對比試驗 本研究以BERT-BiLSTM-CRF為基準模型,提出融合全詞掩碼和注意力機制的BERT-WWM-BiLSTM-AttTea-CRF模型。為驗證該模型改進后的有效性,以BiLSTM-CRF、BERT-BiLSTM-CRF、BERT-BiLSTM-AttTea-CRF 3種模型分別搭配全詞掩碼和單字掩碼進行模型性能對比,為驗證改進算法對模型識別效率的提升,所有模型均采用相同的參數、學習率和Transformer層數,且茶葉語料訓練數據和測試數據均為同一數據集。
1.5.2 不同類別的茶葉數據對比試驗 為進一步驗證模型改進對茶葉各大類語料數據識別的性能提升,在BERT-BiLSTM-CRF基準模型的基礎上分別加入全詞掩碼和注意力機制層,形成4組模型分別對試驗材料中的茶葉品種、茶葉病害、茶葉生長環境、茶葉適用技術4類數據進行分類實驗。
1.5.3 本模型與其他模型對比試驗 本研究模型是基于BERT-BiLSTM-CRF的改進模型,為驗證本模型相對其他模型在茶葉領域實體抽取的有效性。本模型選擇在中文命名實體任務中取得較好成績的3種模型。其中BERT-IDCNN-CRF模型在醫療和軍事領域表現突出[21],RoBERTa-BiLSTM-CRF在特定中文領域的實體識別任務中F1值達到96%[22],ALBERT-BiLSTM-CRF在大規模中文事件數據集準確率達95%[23]。本研究實驗過程中所使用的茶葉語料訓練數據和測試數據均為同一數據集。
模型訓練需要消耗大量的算力資源,只依靠計算機CPU計算會占用大量時間,因此本研究選擇使用NVIDIA Quadro RTX 4000顯卡對模型進行訓練,詳細的實驗環境配置表如表2所示。

表2 實驗環境配置
在評價指標方面,本研究采用自然語言處理領域最常用的準確率(Precision)、召回率(Recall)及F1值(F1-Score)3項基本指標來評價模型[24-25]。各項指標的計算公示如下:
(14)
(15)
(16)
式中,TP表示結果為正類,且預測正確;FP結果為正類,但預測錯誤;FN表示結果為負類,且預測錯誤。
由表3可知,在原有的BiLSTM_CRF模型上加入BERT預訓練層后,模型識別準確率顯著提升,其中準確率提升5.91個百分點,召回率提升6.34個百分點,F1值提升5.88個百分點,說明位置信息是茶葉語料數據中的重要特征。通過后4組模型的實驗對比可以看出,加入全詞掩碼的BERT層與單字掩碼的BERT層對比,模型識別率有1~2個百分點的提升。而同樣為全詞掩碼的2組模型中,融入茶葉語料特征注意力機制的BERT-WWM-BiLSTM-AttTea-CRF模型,相對BERT-WWM-BiLSTM-CRF模型,準確率、召回率、F1值分別提升4.11、5.46、4.81個百分點。融合全詞掩碼和注意力機制的BERT-WWM-BiLSTM-AttTea-CRF模型的準確率、召回率、F1值分別達到92.03%、90.36%、91.19%,為本試驗中的最優模型。

表3 模型的性能對比
由圖6可知,在不同類別的茶葉語料數據對比試驗中,與茶葉品種和茶葉病害相比,本研究模型對于生長環境、適用技術的提取結果較差。對茶葉語料數據的分析可知,造成提取結果較差的原因是由于茶葉品種和茶葉病害的文本描述格式較為統一,語序較為固定,模型可以較好地提取到文本中的實體與實體關系數據。而茶葉生長環境數據和適用技術中包含大量的指標名稱和指標數值,且描述方式規律性較弱,例如:幼樹一般要進行3~4次定剪,以春季茶芽未萌發之前(3月驚蟄前后)為佳,最遲必須保證在春季茶萌芽前進行,內容中包含類似“前后”、“最遲”的指標描述,若模型只提取到時間關鍵詞“3月”而對“前后”漏標,形成的知識數據與原文即存在較大誤差。可見,本研究根據茶葉語料數據做針對性改進后的全詞掩碼BERT-WWM-BiLSTM-AttTea-CRF模型對基礎模型的提升效果顯著,但同時也存在全詞掩碼策略對茶葉生長環境識別提升不明顯的問題。

圖6 不同類別的茶葉數據對比試驗Fig.6 Comparative test on data of different types of tea
BERT-BiLSTM-CRF基準模型對茶葉品種、茶葉病害的提取效果較為一般(表4),經過本研究改進的BERT-WWM-BiLSTM-AttTea-CRF模型,對茶葉品種、茶葉病害等4類數據的識別效率都有顯著提升。

表4 BERT-WWM-BiLSTM-AttTea-CRF在各類實體上的識別
由表5可知,本研究提出的BERT-WWM-BiLSTM-AttTea-CRF模型相較BERT-IDCNN-CRF、RoBERTa-BiLSTM-CRF、ALBERT-BiLSTM-CRF 3類模型在準確率上分別提升10.66、9.06、3.76個百分點;在召回率上分別提升8.27、9.24、6.94個百分點;在F1值上分別提升9.28、9.16、5.41個百分點。BERT-WWM-BiLSTM-AttTea-CRF模型在茶葉領域命名實體識別任務中準確率、召回率、F1值分別達到92.03%、90.36%、91.19%,均優于其他主流模型,因此在茶葉全產業鏈知識圖譜構建研究中采用本模型作為非結構化數據抽取的主要方法。

表5 模型對比
伴隨著計算機硬件能算力的提升,基于規則和詞典的方法在深度學習技術的加持下,對處理實體抽取任務表現出較高的效率。文本提取不再只依賴于人工特征,圖譜構建過程中特征提取的成本有效降低[26],為農業領域知識圖譜的完整構建提供了新的可能。吳賽賽等[27]提出一種基于BERT+BiLSTM+CRF的作物病蟲害知識圖譜構建方法,并利用Neo4j實現作物病蟲害知識圖譜的可視化展示。袁培森等[28]根據植物本體論提出利用BERT模型實現水稻的基因、環境、表型等實體與實體關系的抽取。宋林鵬等[29]使用傳統的CRF和詞向量+BiLSTM+CRF 2種模型對農業技術文本實體進行提取,得出詞向量+BiLSTM+CRF模型提取效果優于傳統CRF的結論。以上研究均利用BERT等實體抽取模型,在農業領域的文本實體抽取任務中取得一定成效,但上述實體抽取方法多為現有模型,未根據農業領域文本特征做出針對性的創新和改進。本研究對茶葉語料數據的位置信息和全局文本中的權重信息進行改進,相對于傳統BERT-BiLSTM-CRF模型而言,識別和抽取效率有效提高。
傳統的關系型數據庫不適合用于處理實體之間的關系,因此,知識圖譜通常以圖數據庫作為存儲引擎。目前,市面上常用的圖數據庫包括JanusGraph[30]、Neo4j[31]、TigerGraph[32]、ArangoDB等。在性能方面,Neo4j和TigerGraph的數據存儲基于點和邊,計算過程中不需經過邏輯層和物理層轉換,在執行速度上更快。在存儲容量方面,JanusGraph利用HBase實現后端分布式存儲,在支持大容量存儲方面有一定優勢。本研究中的茶葉知識圖譜屬于特定領域知識圖譜,與通用型知識圖譜相比數據量較小,圖譜演進速度較慢,但圖譜維度更深。因此,Neo4j作為一款開源圖數據庫系統,具體執行速度快、輕量級部署、組件豐富等優勢,更適用于茶葉知識圖譜的數據存儲。通過對茶葉非結構化數據的知識抽取,利用關系數據找出知識抽取中的等價實體,實現知識融合,最后結合專家經驗進行知識補全,初步形成的茶葉知識圖譜共有實體2690種,關系數據277種,三元組數據5610條。由于茶葉知識圖譜的數據體量并不龐大,因此本研究采用 Neo4j 數據庫自帶 Cypher 查詢語言將解析獲取的實體節點和關系數據保存在import目錄下的.csv文件中。為避免因導入中文數據出現的亂碼,將文本轉換為UTF-8格式,再通過LOAD CSV的方式導入import目錄下的.csv文件,并結合JavaScript Driver讀取Neo4j圖數據庫中茶葉全產業鏈圖譜數據,將讀取后的數據解析為JSON格式,最后利用D3.js可視化框架實現茶葉圖譜數據可視化。
本研究提出的BERT-WWM-BiLSTM-AttTea-CRF模型可自動提取茶葉知識文本數據,形成一種覆蓋茶葉全產業鏈的知識圖譜構建方法。結果表明該方法對茶葉文本數據的抽取效果優于ALBERT-BiLSTM-CRF、RoBERTa-BiLSTM-CRF等主流模型,準率去、召回率、F1值分別達到92.03%、90.36%、91.19%。茶葉知識圖譜的構建也為農事指導問答系統、農業知識圖譜的應用、特定領域知識圖譜構建等研究方向提供了參考。