劉合兵,賈笑笑,時 雷,熊蜀峰,馬新明,席 磊+
(1.河南農業大學 信息與管理科學學院,河南 鄭州 450046;2.河南農業大學 河南省農田環境監測與控制工程實驗室,河南 鄭州 450002)
由于小麥種質數據包含大量非結構化文本數據,使其在存儲、檢索和利用方面變得困難復雜。實體關系聯合抽取作為信息抽取領域的重要子任務,旨在同時提取非結構化數據中的實體與實體間的關系[1,2],為知識管理、檢索及應用提供關鍵性支撐[3,4]。
因此,為解決小麥種質信息實體關系聯合抽取任務面臨的實體邊界模糊以及關系重疊問題,本文針對小麥種質數據開展實體關系聯合抽取研究,主要貢獻為以下方面:
(1)使用三輪標注方法人工構建23類實體,25種關系的小麥種質數據集WGD(wheat germplasm dataset)。
(2)提出WGIE-DCWF模型。模型通過BERT的Transformer encoder進行深度字詞融合,并使用BiLSTM雙向提取上下文語義,提高了實體識別能力,同時建立層疊指針網絡,提升了重疊三元組的抽取能力。
(3)分別在WGD與DuIE上進行測試,WGIE-DCWF的F1值分別達到93.59%和77.73%,驗證了該模型在提高小麥種質信息數據實體關系抽取效果的同時擁有較好的泛化性。
目前主流的基于深度學習的實體關系抽取按照實體識別與關系抽取任務的順序分為流水線抽取和聯合抽取,雖然流水線抽取方法[5,6]簡單靈活,但是容易帶來誤差傳播以及實體冗余等問題,目前研究者們逐漸聚焦于聯合抽取方法研究。
ZHENG等[7]首先提出將聯合抽取轉化為序列標注的方法,然而由于標簽就近匹配,不能抽取重疊關系三元組。唐曉波等[8]提出了VOE標簽,雖解決部分關系重疊問題,但需要設計復雜的標注方案。ZENG等[9]設計了Seq2Seq的CopyRE模型,通過引入復制機制將實體復制多次以解決關系重疊問題,但由于解碼結構復雜導致局部信息抽取效果較差。文獻[10,11]通過關系直接獲取頭實體和尾實體,但識別候選關系類別難度較大。WANG等[12]統一了標注抽取框架,并通過單階段解碼解決了曝光偏差問題,但句子過長容易出現矩陣混淆問題。WEI等[13]提出了層疊指針標注模型,將關系視為頭實體到尾實體的映射,較好地解決關系重疊問題,但語義信息獲取不充分。為此,文獻[14-16]分別對WEI方法進行改進,添加CLN網絡層、雙向語義信息以及實體類型提升三元組抽取效果。雖然上述文獻能較好地解決關系重疊問題,但是僅使用字符語義信息,未充分結合字符與詞匯信息。
在文本向量表示中,字符向量不能表示豐富的語義信息,而詞匯向量存儲了詞的邊界信息和語義信息,因此字詞混合向量表示有利于實體邊界模糊問題的解決。ZHANG等[17]使用Lattice LSTM將詞匯信息嵌入到字符的表示中,較好地緩解分詞錯誤,但計算性能較低。Li等[18]基于Transformer融合詞匯信息,加快了運行速度。葛軍偉等[19]將詞匯信息與BERT字符信息混合應用到實體關系聯合抽取任務中,較好地解決實體邊界模糊問題。以上任務將詞匯信息與字符信息融合,雖然提高了實體識別效果,但是僅在模型級別融合詞匯信息與字符信息,屬于淺層字詞融合,沒有充分利用BERT的表示能力進行詞匯語義信息與字符信息的深層次利用。本文將詞匯信息集成到BERT底層,在BERT內部使詞匯信息與字符信息進行深度知識交互,以豐富字符編碼特征信息。
近年來,相關研究者將實體關系聯合抽取技術應用到農業領域,促進了農業信息化的進步。李林等[20]使用多源信息融合以豐富字符向量,但只初步實現了農作物病蟲害領域的命名實體識別。武錫夢等[21]采用流水線方法,提取我國珍稀動植物與分布區域和瀕危等級之間的聯系,但是存在實體冗余現象。吳賽賽等[22]提出主實體概念,以解決小麥病蟲害領域關系重疊問題,但標注方案復雜。周俊等[23]對WEI方法進行改進,使用單位標注器和隱藏層提高模型的性能,較好地解決了水稻施肥領域的重疊三元組問題。
針對小麥種質信息數據抽取時面臨的實體邊界模糊與關系重疊的問題,本文引入詞匯信息,提出深度字詞融合,并采用層疊指針網絡,構建小麥種質信息實體關系聯合抽取模型,以實現小麥品種表型和遺傳描述自動信息提取。
為了細粒度刻畫小麥種質數據蘊含的農藝性狀、形態學性狀、抗性以及親緣關系等信息,本文在《小麥種質資源描述規范》和小麥專家的指導下,自上而下地構建小麥種質信息本體,包括小麥品種名稱、株高、千粒重等23類實體和25種關系如圖1所示。

圖1 小麥種質信息本體
本研究的數據主要來源于中國種業大數據平臺,通過爬蟲抓取小麥品種審定數據,為避免噪聲問題,進行人工刪除無效和重復數據,最終構建了包含3063個小麥品種的小麥信息語料,約46萬字符。
小麥種質信息語料標注采用頭尾實體分離的“01”標記方案。實體關系抽取的標注策略包括序列標注法和指針網絡標注法。其中,序列標注法采用就近原則標注實體關系,難以有效應對關系重疊問題。指針網絡標注法采用頭尾實體分離的“01”標記方案,即實體的開始token和結束token標注為“1”,其余token標注為“0”,并將開始 token和結束token拼接輸出實體,可以有效解決關系重疊問題,并且標簽使用少,降低了預測時的復雜性。標注方案如圖2所示。

圖2 頭尾實體分離的“01”標注方案
基于小麥種質信息本體構建的23類實體和25種關系,利用doccano在線標注平臺(https://github.com/doccano)對小麥種質信息語料進行標注,doccano的標注界面如圖3所示。為了獲得高質量小麥種質數據集,通過3次迭代的人工標注與糾錯模式確保標注數據的準確性。最終構建了小麥種質數據集WGD,其中包含11 681條數據、76 587個實體和73 446個關系。

圖3 doccano 標注界面
基于深度字詞融合的小麥種質信息實體關系聯合抽取模型WGIE-DCWF由編碼層和三元組抽取層構成。其中,深度字詞融合和上下文語義特征融合兩個模塊組成編碼層;抽取頭實體和聯合抽取尾實體與關系兩個模塊組成三元組抽取層。模型總體結構如圖4所示。

圖4 基于深度字詞融合的小麥種質信息實體關系聯合抽取模型
3.1.1 深度字詞融合模塊
深度字詞融合模塊DCWFE(deep character and word fusion encoder)實現將詞匯知識集成到BERT預訓練語言模型內部,緩解了由于邊界模糊導致實體識別性能較低的問題。對于輸入句子s={z1,z2,…,zn} 的每個字zi在經過BERT的Embedding 輸送進Transformer提取特征時,DCWFE模塊在Transformer之間集成字zi對應的候選詞向量,并通過多層Transformer encoder,得到深度混合字詞表示。該模塊由小麥種質詞向量表、候選詞表示、字詞融合向量表示和深層字詞融合向量表示構成,其結構如圖5所示。

圖5 深度字詞融合編碼層
(1)小麥種質詞向量表
為了更好地對小麥種質信息進行統一的知識表示,本文基于通用領域詞匯數據和小麥種質領域詞匯數據,建立小麥種質詞向量表。其中通用領域詞匯采用騰訊詞向量[24],小麥種質領域詞匯使用fastText[25]進行詞嵌入計算訓練獲得,最終形成包含20 300個詞匯,維度為200的小麥種質詞向量表。
(2)候選詞表示
對于輸入句子s={z1,z2,…,zn}, 遍歷句子s的每個字zi,并查找其在小麥種質詞向量匹配的所有候選詞,組成字詞對,表示為s={(z1,c1),(z2,c2),…,(zn,cn)} 其中ci為字zi在詞向量表中匹配到的所有詞,例如:“深”字通過小麥種質詞向量匹配到的字詞對為(深,[色深,深綠,深綠色])。
(3)字詞融合向量表示

(1)
(2)
(3)
(4)深度字詞融合向量表示

3.1.2 上下文語義特征融合模塊
在實體關系聯合抽取任務中文本的前向和后向信息都至關重要,如:小麥品種名稱實體“中麥159”,“麥”不僅應該包含前向信息的“中”字特征,也應考慮到了后向“159”的語義信息。針對上述問題,選擇BiLSTM對深度融合的字詞向量進一步提取特征,以深度字詞混合向量M1作為輸入,以拼接前向信息和后向信息的M2作為輸出。
3.2.1 頭實體抽取模塊
頭實體抽取旨在獲取輸入文本中可能存在的所有實體。其直接對經過字詞深度融合和雙向語義編碼后的向量M2進行解碼,確定實體開始和結束位置,具體如式(4)、式(5)所示
(4)
(5)

候選頭實體提取使用“就近匹配原則”。如圖6所示,輸入文本的候選實體的開始位置為“中”、“8”和“1”,結束位置為“9”、“升”和“%”,“8”作為頭實體的開始位置,根據就近匹配原則,將位于“8”后面且距離“8”最近的頭實體結束位置“升”與“8”配對,因此“827克/升”為候選實體。

圖6 頭實體抽取過程
3.2.2 聯合抽取關系與尾實體模塊
關系和尾實體抽取任務是找尋所有候選頭實體在每一個特定關系下的尾實體。例如語料“中麥159,容重827克/升,粗蛋白含量(干基)14.8%”在頭實體抽取任務獲取“中麥159”、“827克/升”、“14.8%”這3個候選頭實體,首先為3個候選頭實體分別建立“濕面筋含量”、“容重值”、“粗蛋白質含量”等23類關系,其次檢測候選頭實體在不同關系下的尾實體。具體如式(6)、式(7)所示
(6)
(7)

本文實驗分別在WGD和DuIE兩個數據集上進行,其中DuIE[26]數據集是百度大規模人工標注且被廣泛使用的信息抽取數據集。兩個數據集的訓練集、驗證集、測試集以及關系類別數量見表1。

表1 數據集劃分統計
通過準確率(Precision,P)、召回率(Recall,R)和F1值計算三元組抽取結果,驗證模型的有效性。評價指標具體計算如式(8)~式(10)所示。Npred、Npredright、Ngold分別為預測的三元組數量、預測正確的三元組數量以及數據集中含有的三元組數量
(8)
(9)
(10)
本實驗的硬件環境:處理器為Intel(R) Xeon(R) Silver4116 CPU@2.10 GHz,運行內存191 GB;運行環境:Pytroch1.10.0和Python3.6。使用Adam優化器,模型參數設置見表2。

表2 模型參數值
4.3.1 深度字詞融合位置設置分析
為了驗證深度字詞融合位置對模型的影響,實驗分別將深度字詞融合位置設置在BERT的第N個Transformer encoder之后,N={1,3,6,9,12}, F1值變化趨勢如圖7所示。

圖7 深度字詞融合位置分析
當深度字詞融合位置在第1層Transformer encoder之后模型達到最優性能,F1值為93.59%,并且隨著字詞融合位置后移,模型的性能逐漸變差,當在第12層Transformer encoder之后進行字詞融合,即淺層字詞融合,F1值最低,為92.23%。說明在第一層后融合字詞向量,充分利用了BERT結構,可以更好地深度交互詞匯信息和字符信息,進而緩解實體邊界模糊問題,提升了語義表征能力。
4.3.2 匹配詞數量閾值設置分析
經統計,WGD數據集每個字可匹配的詞數量眾數為2,平均數為3,最大值為5。因此,實驗將字匹配詞數量閾值設置為N,N={2,3,4,5}, F1值如圖8所示。

圖8 字匹配詞數量參數設置分析
字的匹配詞數量值為3時,模型的性能最佳。當閾值從2升為3時,模型獲取更多的詞向量信息,從而提升其性能。但是當字匹配詞數量繼續提高,引入的“PAD”填充信息會干擾模型提取特征的能力,F1值逐漸降低。
4.3.3 對比實驗結果分析
為了評估WGIE-DCWF方法的有效性,本文選用BERT+BiLSTM、CopyMTL[27]、TPLinker[12]、BERT+CASREL[13]模型與WGIE-DCWF在WGD和DuIE兩個數據集進行對比實驗。模型的實驗結果見表3。

表3 模型綜合性能評估
(1)BERT+BiLSTM:基于序列標注的流水線抽取方法,使用BERT字嵌入表示。
(2)CopyMTL:基于復制機制的聯合抽取方法,為CopyRE的改進[9],使用word2vec字嵌入表示。
(3)TPLinker:基于統一標注抽取框架的聯合抽取方法,使用BERT字嵌入表示。
(4)BERT+CASREL:基于層疊指針網絡的聯合抽取方法,使用BERT字嵌入表示。
(5)WGIE-DCWF:基于層疊指針網絡的聯合抽取方法,使用深度字詞融合嵌入表示,深度字詞融合位置為第1層Transformer encoder之后,字匹配詞數量閾值為3。
實驗結果表明,本文模型WGIE-DCWF在WGD和DuIE兩個數據集的F1值分別為93.59%和77.73%,較其它基線模型取得了最優效果。通過對比發現,實體關系聯合抽取模型整體優于流水線抽取模型,主要原因是流水方法可能存在實體冗余和錯誤傳播。同時,BERT+CASREL模型的準確率、召回率和F1值評價指標均高于CopyMTL和TPLinker模型,表明同為聯合抽取模型,BERT+CASREL模型性能更佳,其原因為BERT+CASREL通過層疊指針網絡能夠更好地解決關系重疊問題。因此,本文模型WGIE-DCWF正是通過建立層疊指針網絡,提升重疊三元組的抽取能力,同時進行深度字詞融合和上下文語義特征融合,解決小麥種質信息領域實體邊界模糊問題,使模型三元組抽取性能整體得到提高。此外,需要指出的是在DuIE數據集上進行實驗,WGIE-DCWF模型的召回率低于BERT+CASREL模型,分析其原因為在深度字詞融合編碼模塊引入小麥種質詞向量會帶來冗余信息,影響了模型在通用數據集的聯合抽取性能。
4.3.4 細粒度關系實驗結果分析
為分析WGIE-DCWF模型在不同關系類別粒度上的實驗結果,統計了WGD數據集上23類關系類別的F1值,如圖9所示。“穩定時間”、“粗蛋白質含量”關系類別F1值較高,推測原因為關系類別樣本量充足,使得模型能夠充分學習其特征。反觀樣本量僅占0.87%和1.14%的“籽粒形狀”和“熟性”關系類別,F1值低于其它關系類別,說明較少的樣本量在模型訓練中容易被忽略,導致其抽取效果低于樣本量高的關系類別。“拉伸面積”、“芒長短”、“冬春性”以及“殼顏色”關系類別抽取效果較好,其原因為其語境較為簡單。“播種量”、“播種日期”、“感病”以及“籽粒硬度”關系類別抽取F1值低于平均水平的原因為頭實體與尾實體距離較遠,存在長距離依賴問題,并且語境較為復雜,例如:小麥品種名稱實體和畝播種量、高肥水條件下播種量以及基本苗數量等實體均可以產生播種量關系類別。因此,樣本量是否均衡分布以及語境復雜程度影響實體關系聯合抽取效果。

圖9 細粒度關系抽取F1值
4.3.5 消融實驗結果分析
為了探索WGIE-DWCF方法中深度字詞融合模塊(DWCFE)、上下文語義特征融合模塊(BiLSTM)以及小麥種質詞向量表對模型的影響,設計消融實驗,實驗結果見表4。其中DWCFE*為小麥種質詞向量表中僅保留通用詞匯,去除領域詞匯的深度字詞融合。

表4 消融實驗結果
實驗結果分析可以發現,引入深度字詞融合模塊和上下文語義特征融合模塊,F1值分別提高10.09個百分點和9.8個百分點,說明兩個模塊單獨使用均能提高實體識別能力,進而提升模型整體性能,并且說明深度字詞融合與上下文語義特征融合的作用同等重要,相較而言深度字詞融合對模型性能的貢獻更多。為探明領域詞向量在模型中的作用,可以發現DCWFE*+BiLSTM+CASREL模型F1值下降了0.74個百分點,表明引入領域詞向量可以提高實體識別能力,從而輔助三元組抽取。
為了獲得結構化的小麥品種表型和遺傳描述,本文構建了細粒度小麥種質數據集,解決小麥種質信息領域數據匱乏問題,提出了基于深度字詞融合的小麥種質信息實體關系聯合抽取模型。模型通過深度字詞融合與上下文語義特征融合,提升實體識別能力,建立層疊指針網絡,提升重疊三元組抽取能力。實驗結果表明,本文模型優于其它模型,可以緩解實體邊界模糊與關系重疊問題的影響,有效改善小麥種質領域復雜場景的實體關系抽取效果,可以為小麥種質信息知識庫構建提供技術支撐。