陳茜武星
(1.上海大學計算機工程與科學學院,上海200444;2.上海大學材料基因組工程研究院材料信息與數據科學中心,上海200444;3.之江實驗室,浙江杭州311100)
材料領域的文獻數據中蘊含了豐富的知識,如何采用機器學習、自然語言處理等技術進行文獻數據挖掘尤為重要.其中命名實體識別(named entity recognition,NER)是使用最為廣泛的方法[1].文獻數據含有豐富的語義,利用NER能從非結構化的材料數據中抽取出材料的名稱、性質、應用等有意義的實體,且相同含義的實體合并起來能使不同時期的材料文獻具有關聯性.NER對非結構化數據的分析與數據挖掘,可有助于關聯文獻數據、檢索基于知識的信息,以及構建知識圖譜等.
在基于深度學習的NER過程中,輸入通常是將詞轉換為詞的向量表示,常用的詞向量(如Word2vec[2]和GloVe[3]詞向量),語義上相似或相關的詞在詞向量特征上也更為接近,但此類詞向量是通過語料庫詞語的共現性訓練每個詞的單一向量,對不同語句中的相同詞語僅能賦予相同含義,是相對靜態的,故無法解決不同語境下一詞多義的問題.另外,NER模型由長短期記憶網絡(long short-term memory,LSTM)[4]、卷積神經網絡(convolutional neural network,CNN)[5]等傳統神經網絡模型訓練逐步轉變為通過大規模語料庫訓練的預訓練語言模型后再根據具體任務微調,如基于Transformers的雙向編碼器表示(bidirectional encoder representation from Transformers,BERT)[6]、穩健優化的BERT方法(robustly optimized BERT approach,RoBERTa)[7]、XLNet[8]等,但這些模型更多注重于增強上下文的深度雙向表示,在一定程度上忽略了序列的全局特征.本工作使用預訓練語言模型XLNet,根據不同的上下文語義生成深度上下文動態特征,雙向LSTM網絡進一步增強語義信息,并在文本序列結合上下文匹配詞匯構筑的圖結構上,利用圖卷積神經網絡(graph convolutional network,GCN)模型進一步得到語句的全局特征.
最初,NER作為信息抽取的子任務,在MUC-6(the Sixth Message Understanding Conferences)會議上被提出[9].當時雖未明確定義命名實體識別的概念,但規定了評測需要識別的3大類實體(命名實體、時間表達式和數量表達式)、7小類實體(人名、地名、機構名、時間、日期、貨幣和百分比).近年來,隨著深度學習在圖像和語音領域的成功應用以及預訓練語言模型的改進,深度學習也被越來越多地應用到自然語言處理任務中.深度學習可以自動學習句子特征而不需要人工的干預,因此基于深度學習的命名實體識別方法受到廣泛關注.
對于中文NER,Zhang等[10]提出的Lattice LSTM模型,顯式地利用了詞與詞序列信息,避免分詞被錯誤傳遞,在微軟亞洲研究院(Microsoft Research Asia,MSRA)語料上取得了較高的F1值;Wu等[11]提出了聯合分詞與CNN-BiLSTM-CRF模型共同訓練,增強中文NER模型實體識別邊界的能力,同時又提出了一種從現有標記數據中生成偽標記樣本的方法,進一步提高了實體識別的性能;武惠等[12]將遷移學習和深度學習應用到中文NER上,也取得了較好的成果;王紅斌等[13]和王銀瑞等[14]利用遷移學習來進行實體識別,該方法相較于監督學習方法很大程度上減少了人工標注語料的工作量;王棟等[15]針對中文NER中長短期記憶網絡識別模型缺乏并行性的問題,提出了一種融合雙向準循環神經網絡(bidirectional quasi recurrent neural network,BQRNN)與條件隨機場的中文NER模型,通過BQRNN網絡在序列維度和特征維度上并行獲取序列化文本的內部特征,由條件隨機場(conditional random field,CRF)層選取最終的標簽序列,并在模型中添加注意力機制,增強BQRNN網絡輸出的特征信息.
國外對NER的研究起步相對較早.Huang等[16]在雙向LSTM-條件隨機場(BiLSTMCRF)模型的基礎上融入人工設計的拼寫特征,在CoNLL2003語料上達到了88.83%的F1值;Peng等[17]定義了一種PU學習算法,這里P(positive)代表已標記的實體單詞數據,U(unlabeled)代表其余未標記的數據,PU算法僅使用未標記的數據和命名的實體字典來執行NER任務;Liu等[18]提出了一個利用全局上下文增強的深度轉換架構,將該架構用于序列標注任務,通過設計特有的門控單元,加深句子中的每個詞位置的狀態轉換路徑,并進一步利用句子級的全局信息來增強每個詞的局部表示;Lison等[19]提出了一種弱監督NER模型,該模型使用了廣泛的標簽功能(包括數據驅動的NER模型、地名詞典、啟發式功能和實體之間的文檔級關系),標簽功能可以專門識別特定的標簽而忽略其他的標簽.此外,不同于以前弱監督方法,標簽功能可以產生概率預測.Lin等[20]針對NER中存在的需要大量耗時耗力的人工標注工作提出了TriggerNER方法,利用一種能夠幫助人們找到實體的觸發器(entity trigger),通過觸發器匹配網絡學習到相關觸發器的信息以及觸發器跟句子之間的匹配程度,從而更有利于標注.
2.1.1 XLNet
近年來,預訓練語言模型在許多自然語言處理任務中取得了較好的成果,推動了相關技術的發展,引發了廣泛的關注.針對BERT模型在預訓練時加入掩碼,導致預訓練和微調時數據存在差異從而影響模型的效果的問題,Dai等[21]提出了XLNet模型,該模型將Transformer-XL作為主干模型,利用排列語言模型、雙流自注意力和循環機制,克服了自編碼語言模型的缺點,在涉及長上下文的語言任務中表現出較好的性能.
XLNet模型的核心方法是全排列語言模型,即在保留原有自回歸模型單向形式的基礎上,使用輸入序列的隨機排列來獲得雙向上下文信息.設長度為T的序列x共有T!個全排列組合,則排列語言模型目標定義為

式中:ZT為長度為T的索引序列[1,2,···,T]不同順序的所有排列組成的集合;zt和z<t分別為一個排列組合z∈ZT的第t個詞和前1~t-1個詞;θ為參數.
考慮全排列時詞位置順序不同,重新定義分布計算方法感知目標位置,

式中:gθ(xz<t,zt)是把位置信息zt額外作為輸入的新表示形式.
XLNet模型使用雙流自注意力來解決定義gθ(xz<t,zt)所產生的問題.對于每個自注意層m=1,2,···,M,使用一組共享參數對2個表示流進行更新:

式中:g(m)zt為使用zt但看不到xzt的查詢流;h(m)zt為使用zt和xzt的內容流;Q、K、V分別為查詢、鍵和值.
為加快收斂速度,以c為分割點,最大化以非目標子序列z≤c為條件的目標子序列z>c的對數似然為

XLNet模型還利用了Transformer-XL的相對位置編碼和片段循環機制,將循環機制整合到所提出的排列組合設置中,并使模型能夠重用之前片段的隱藏狀態.假設有2個來自長序列s的片段=s1:T和x=sT+1:2T,和z分別為[1,2,···,T]和[T+1,T+2,···,2T]的排列.基于排列組合處理第一個片段,然后為每個m層緩存獲得的內容表示,對于下一個片段x,帶有記憶的注意力更新為

2.1.2 GCN
CNN網絡的核心是使用不同卷積核在數據上移動提取數據的特征,數據內部結構保持不變,但對于非歐式空間數據,CNN卷積核無法有效提取結構信息,而圖卷積網絡可處理非歐式空間數據[22].圖可用于表示具有抽象意義的拓撲關系網絡,圖中的節點表示網絡中的個體,邊表示個體間的連接關系.因此,圖神經網絡可以有效處理復雜的圖型結構數據.圖神經網絡實現卷積主要有2種方法:基于譜域的圖卷積方法和基于空域的圖卷積方法.這里僅介紹所使用的基于譜域的GCN方法.
圖可以定義為G=(V,E),其中V表示為節點的集合,E表示為邊的集合.設N為圖中的節點數,D為每個節點的特征維度,GCN層與層之間的傳播公式為

式中:第l+1層的輸入為H(l)∈RN×D,初始輸入H(0)=X,X為初始的特征向量矩陣;A為鄰接矩陣,且在整個網絡共享.如果節點i與節點j相連,則Aij=1;否則Aij=0.通過鄰接矩陣可知圖的整體結構.
圖中第l+1層輸出特征H(l+1)的具體計算方式為

2.2.1 總體模型
為充分融合上下文特征與全局特征,本工作提出了一種結合上下文詞匯匹配和圖卷積的命名實體識別模型XBGCN(XLNet+BiLSTM+GCN),整體框架如圖1所示.圖1中,在輸入層通過XLNet獲取動態上下文詞嵌入.編碼層包含2個子模塊:用于提取上下文特征的雙向LSTM網絡模塊和用于提取全局特征的圖卷積網絡模塊.利用BiLSTM對文本序列的深層語義信息進行充分挖掘獲取上下文特征,并使用文本序列結合上下文詞典匹配詞匯,構建雙圖GCN獲取全局特征,拼接2類特征輸入到CRF層,計算輸入的文本特征進行序列標注,輸出最優標簽.

圖1 XBGCN模型框架圖Fig.1 Framework of XBGCN model
2.2.2 上下文特征
基于深度學習的NER模型,常通過詞向量法將文本序列轉化為向量序列.傳統的獨熱編碼(one-hot)表示不能有效表示句子中上下文關系,且數據稀疏嚴重,近年來逐步轉換為如Word2vec、GloVe這類低維、稠密向量表示.從不同文本中相同詞具有不同含義的詞語歧義性問題考慮,詞向量表示出現了如ELMo等隨語境變化的詞嵌入表示.而基于Transformer-XL的XLNet模型,通過循環機制和相對位置編碼等機制,解決了之前的自回歸語言模型單向或單向拼接傳遞信息的不足,可訓練出含有更完整的上下文語義信息的詞向量表示.鑒于XLNet模型在語言表義方面的優勢,在雙向LSTM網絡模塊中將XLNet預訓練語言模型作為嵌入層,對文本序列進行向量化表示,解決一詞多義等問題.本工作使用XLNet-Base預訓練語言模型得到文本向量表示,再利用BiLSTM網絡獲取句子的前向和后向語義特征信息,捕獲長距離序列信息,拼接后得到隱藏層特征表示,可增強上下文語義關聯.
2.2.3 基于雙圖GCN的全局特征
在一些命名實體識別文獻中,精確的邊界標記會使用包含豐富詞匯邊界信息與語義信息的詞典[23-24],在不依賴于外部NLP工具的情況下有效提升了NER效果.同理將領域性詞典應用在英文命名實體識別數據集中,同樣具有確定實體邊界信息的用途.如CoNLL2003英文數據集[25]是由新聞文章組成,每篇文章的上下文通常會存在相同或相近的詞匯,不同性質相似的文章同樣會擁有相同的詞匯.而由材料文獻構建的MatData數據集[26],材料領域中?,F的材料名稱、性質和合成方法等實體往往會多次出現并具有相同含義,因此利用詞典匹配到的數據集文本序列中的詞匯,可能會多次出現在上下文中,再通過雙圖GCN構建的上下文與詞典匹配詞匯關聯的圖結構,隱式地捕獲全局信息,充分利用了詞典數據,有助于實體識別.
在雙圖GCN模塊中,輸入表示特征與上下文特征一致,同為XLNet預訓練模型的詞向量.雙圖模塊含有2個子圖,分別為詞匯匹配圖和序列圖.詞匯匹配圖模擬了匹配詞匯與相應子詞之間的語義聯系,而序列圖是模擬句子中每個詞和匹配詞匯的序列關系,通過雙圖結構可以較好地互補得到文本的序列信息以及全局信息.設模型的輸入句子為“the defect chemistry and domain structure were studied systematically”,句子表示為S={W1,W2,···,W9},經過XLNet模型得到句子的向量表示為{X1,X2,···,X9}.由于2個圖頂點集和邊集各不相同,故根據句子S分別分析詞匯匹配圖和序列圖的構造方法.
(1)詞匯匹配圖Gl.
圖2為詞匯匹配圖,模擬了匹配詞匯與相應子詞之間的語義聯系.句子S來自MatData數據集,該數據集由材料科學摘要文獻構成.圓形圖標內的詞為句子中的每個詞,矩形圖標內的詞匯為材料領域詞典在這句話中匹配到的對應詞匯“defect chemistry”“chemistry”“domain structure”和“structure”,4個詞匯均為材料性質實體.對于節點集,是以每個詞和在詞典中匹配到的詞匯作為Gl的節點.邊集引入鄰接矩陣Al,鄰接矩陣中的元素表示2個節點是否相連.如果節點Xi與節點Xj相連,則Ali,j=1;否則為0.在詞匯匹配圖中,相鄰詞之間每2個節點添加一條邊,即Ali,j=1,其中i<j.對于匹配詞匯及其子詞,如果一個匹配詞匯m包含句子中某個詞k,則對應的Alk,m為1.圖2中,匹配詞匯“defect chemistry”含有子詞“defect”與“chemistry”,則節點“defect chemistry”分別與“defect”與“chemistry”節點互連.構建匹配詞匯和相應子詞間的語義關聯,同時有利于確定實體邊界.

圖2 詞匯匹配圖Fig.2 Matching diagram of lexical words
(2)序列圖GS.
序列圖顯示了句子中每個詞和匹配詞匯的有向序列關系(見圖3),能直接捕捉最近詞的序列信息.句子中的每個詞作為GS的節點,節點集為句子中每個詞和在詞典中匹配到的詞匯.圖3中顯示了S經上下文表示變化為V={X1,X2,···,X9}和匹配詞匯嵌入表示E={M1,M2,···,M4}.對于邊集,在序列圖中,句子S按詞的位置順序每2個節點之間添加一條有向邊,即=1,其中1≤i<j≤9.另外每個節點在自身添加一條自環邊,以增強本身的語義信息.對于匹配詞匯與句子的關聯性,增加匹配詞匯與最近前后詞的序列信息,如圖中匹配詞匯“defect chemistry”對應句子S中的“defect”與“chemistry”,距離“defect”與“chemistry”節點最近的詞匯為“the”和“and”,構建匹配詞匯和最近前后詞的有向邊,增強匹配詞匯與上下文的序列關系.

圖3 序列圖Fig.3 Sequence diagram
如圖3所示的序列圖為有向圖,而GCN為無向圖,故根據每個節點的輸入邊和輸出邊將有向GCN分為2個無向GCN,分別表示每個節點的輸入和輸出.
僅考慮每個節點的輸入邊的GCN網絡為

式中:i為圖中節點;為節點i的相鄰節點j在第l層的嵌入;為所有邊輸入到節點i的相鄰節點的集合,自環包括節點i;W和b為權重和偏差.
僅考慮每個節點的輸出邊的GCN網絡為

經過n層GCN后,序列圖的最終輸出是2個無向GCN的拼接:在雙圖GCN模塊中通過詞匯匹配圖Gl得到特征Hl,與通過序列圖GS得到特征HS拼接,拼接后的Hc表示詞嵌入經過雙圖獲取的全局特征:


2.2.4 特征融合
特征融合是用于融合來自2個子模塊的不同特征信息.在雙向LSTM網絡模塊通過BiLSTM得到上下文特征Hb,再與通過雙圖GCN模塊得到的全局特征Hc直接拼接:

此時,特征Ht同時包含序列的上下文深層信息與融合了上下文匹配詞匯的全局信息.最后將編碼輸出Ht輸入到CRF模塊,獲取最優標簽序列.
操作系統Ubuntu 18.04,GPU型號NVIDIA V100.采用Python 3.7編程語言進行編寫,Pytorch作為深度學習框架構建與訓練神經網絡.
為了驗證模型的有效性和泛化性,實驗選取了2種不同的領域數據集:CoNLL2003數據集和MatData數據集,分別對模型進行評估和實驗.
3.2.1 數據集與詞典
CoNLL2003是經典的命名實體識別任務數據集,主要提供了4種語言的數據:西班牙語、荷蘭語、英語和德語.本工作僅選用英語數據,數據由1 393篇英語新聞文章組成.在CoNLL2003中,實體被標注為4種類型:人名(PER)、地名(LOC)、組織機構名(ORG)和其他(MISC).
另外,將Weston等[26]手工標注的800篇材料文獻摘要作為材料科學摘要數據集(以下用MatData數據集指代).實體標注了7種類型:材料名稱(MAT)、材料應用(APL)、對稱/相位標簽(SPL)、材料性質(PRO)、合成方法(SMT)、樣品描述(DSC)和表征方法(CMT).標注實體的詳細含義如表1所示.實體標簽的選擇參照了材料科學四面體:處理加工、結構、特性和性能.800篇摘要數據按照8∶1∶1分割為訓練集、驗證集和測試集.因此,訓練集、驗證集和測試集中分別有640、80和80篇摘要.

表1 MatData 7類實體標簽含義Table 1 Meanings of the seven types of entity labels of MatData
CoNLL2003數據集和MatData數據集是不同領域的數據集,本工作分別結合搜狗詞庫、PubChem數據庫以及Tshitoyan等[27]的材料數據制定常用人名、地名、組織機構等名稱的詞典,以及與常用材料相關的名稱詞典.
3.2.2 標注策略
為避免不同的標注規則對實驗結果的影響,2個數據集均使用BIO[28]標注格式,這里B表示一個實體的起始位置,I表示一個實體的中間位置,O表示非實體.MatData數據集的實體分類及標注方法如表2所示.

表2 MatData數據實體標注策略Table 2 MatData entity annotation rules
本實驗選取精確率、召回率和F1值(F1-score)這3個指標作為實驗結果的評測指標:

式中:Precision為精確率;Recall為召回率;F1為精準率和召回率的調和平均值;Tp為真陽性數,即正類預測為正類的實例個數;Fp為假陽性數,即負類預測為正類的實例個數;Fn假陰性數,即正類預測為負類的實例個數.
本實驗使用XLNet-Base網絡預訓練語言模型作為輸入向量表示層.XLNet模型共有12層,隱層維度為768維,多頭注意力中頭數為12.實驗中設定句子的最大長度為128,長度不足的句子填充<PAD>標簽.此外,命名實體識別模型使用Adam優化算法,根據數據集的驗證集優化參數.為防止過擬合,在特征融合后設置dropout為0.5.其余參數設置如表3所示.

表3 XLNet-base網絡參數設置Table 3 Parameter settings of XLNet-base network
3.4.1 XBGCN模型的有效性驗證
本工作在CoNLL2003數據集上進行了實驗并與不同的模型進行了對比.各模型識別結果如表4所示.

表4 不同模型在CoNLL2003數據集上實驗結果Table 4 Experimental results of different models on CoNLL2003 dataset
表4中,BiLSTM-CNN模型由Chiu等[29]提出,模型主要改進在表示層,將通過CNN模型獲取的字符特征拼接詞向量和附加特征輸入到BiLSTM網絡;BiLSTM-CRF+ELMo模型由Peters等[30]提出,ELMo模型將BiLSTM作為預訓練模型結構,獲取動態詞向量;BERT模型由Devlin等[6]提出,該模型是預訓練語言模型,通過添加一個額外輸出層即可將大量文本數據上預先訓練好的BERT模型,再根據相應任務微調,其中BERT base和BERT large是BERT的2個模型;Stack LSTM模型由Martins等[31]提出,將實體識別與實體匹配任務共同訓練;XBGCN則為本工作所提出的模型.
從表4可以看出,XBGCN模型在CoNLL2003數據集上的F1值達到了92.46%,在6個模型中僅次于BERT large模型.對比模型1和6可知,相比于使用靜態詞向量的模型1,使用上下文動態詞向量的XBGCN模型效果更好;對比模型2和6,模型2使用的ELMo詞向量同樣是動態詞向量,其F1值為92.22%,低于模型6,說明全局特征在一定程度上能增強上下文特征,提高準確率;對比模型3和6,二者的結果非常接近,而BERT模型是在預訓練語言模型上微調的結果,XBGCN模型僅是基于特征的實體識別,說明模型結合文本上下文匹配詞匯的圖卷積網絡,特征抽取能力更高.但模型在識別精度上低于BERT large,因為BERT large是更大的預訓練語言模型,有3.4億個參數,所以模型性能更好.
XBGCN模型在CoNLL2003測試集上4類實體的精確率、召回率和F1值如表5所示.表5中,地名(LOC)、組織機構(ORG)和人名(PER)的F1值均在90%以上,識別效果更好.而其他類實體(MISC)的F1值最低,僅82.07%,這是因為其他實體(MISC)在訓練集中出現的次數最少,導致預測效果不佳.

表5 XBGCN模型在CoNLL2003數據集上4類實體標簽的預測F1值Table 5 F1-scores for four types of entity labels on CoNLL2003 dataset using XBGCN model %
CoNLL2003是通用領域公開數據集,訓練后的NER模型無法有效識別材料領域的實體.在證明XBGCN模型在CoNLL2003數據集的有效性后,對不同模型在材料數據上的泛化性進行實驗驗證,結果如表6所示.表6中,模型1是Weston等[26]在300多萬篇材料科學文獻上將Word2vec預訓練的詞向量,輸入到BiLSTM-CRF模型的訓練結果;模型2是XLNet提取詞向量輸入到BiLSTM-CRF模型訓練,相較于模型3去除了雙圖GCN模塊.對比模型1和2,在相同的編碼層與解碼層的模型結構下,二者僅輸入表示不同,XLNet-BiLSTM-CRF模型的F1值更高,相比僅用Word2vec詞向量的F1值提高了1.48%,進一步說明動態詞向量根據不同上下文可獲取更為準確的詞向量特征.對比模型2和3,二者在編碼層的結構不同,本模型在精確率、召回率和F1值上均高于模型2(在3個模型中最高),分別達到了90.05%、88.67%和89.36%,F1值提高了0.84%,與常用基線模型BiLSTM-CRF相比提升了2.32%.說明全局特征可表示全局信息,豐富了BiLSTM捕獲的上下文特征.MatData數據集中的實體均是材料研究領域的重要概念和技術,XBGCN模型在該數據集上取得不錯結果,說明本模型可有效應用于材料數據實體識別.

表6 不同模型在MatData數據集實驗結果Table 6 Experimental results of different models on MatData %
3.4.2 消融實驗
為了研究不同特征對模型的影響,本工作進一步對比了去除不同特征的XBGCN模型在CoNLL2003數據集的結果(見表7).表7中,“w/o”表示不含某特征;模型1“w/oGl&GS”表示去除雙圖的全局特征;模型2“w/oGl&LSTM”表示去除詞匯匹配圖和BiLSTM模型;模型3“w/oGS&LSTM”表示去除序列圖和BiLSTM模型;模型4“w/o LSTM”表示去除BiLSTM即去除上下文特征;模型5“w/oGl”表示去除詞匯匹配圖;模型6“w/oGS”表示去除序列圖;模型7為完整模型.

表7 XBGCN模型在CoNLL2003數據集消融實驗結果Table 7 Ablation results of XBGCN model on CoNLL2003 %
從表7可以看出,當該模型去除上下文特征僅保留全局特征時,F1值可達89.11%,說明基于雙圖GCN結構提取全局特征進行實體識別的結果較好,證明雙圖GCN結構結合詞典匹配詞匯信息結構的有效性.在去除全局特征僅保留上下文特征時,F1值為91.45%,而XBGCN模型的F1值為92.46%,相差1.01%,說明去除全局特征的模型識別效果被削弱.模型2(僅使用序列圖)高于模型3(僅使用詞匯匹配圖),F1值高了1.1%,可見二者都融合了詞典信息,但序列圖融合了句子有向性以及匹配詞匯與最近前后文的序列信息,有更好的全局特征抽取力.當序列圖與詞匯匹配圖融合時,效果好于單一圖結構,雙圖互補增強了實體識別能力.對比模型5和6中BiLSTM分別與雙圖結合的結果可以看出,二者提升效果相近,可見詞匯匹配圖與序列圖對上下文特征均有所提升.最后,融合了所有特征的XBGCN模型的精確率、召回率和F1值均最高,分別達到了92.08%、92.85%和92.46%,說明將全局特征與上下文特征融合,同時利用雙圖結構抽取全局特征,可較好地提升實體識別效果.
機器學習方法結合材料大數據,可加速新材料的設計和研發進程.命名實體識別是機器學習的關鍵技術,能從海量的文獻數據中快速提取關鍵數據,可為材料數據庫提供大量的結構化數據.本工作針對文本中存在一詞多義以及NER模型忽略全局特征的問題,提出了一種結合上下文詞匯匹配和圖卷積的命名實體識別模型XBGCN.該模型使用XLNet獲取動態詞向量后,將其輸入到由BiLSTM和雙圖GCN構成的編碼層中,以獲取上下文特征和全局特征,最后經過CRF輸出標簽序列.該模型在CoNLL2003數據集上的F1值達到92.46%,在材料數據集MatData上的精確率、召回率和F1值分別達到了90.05%、88.67%和89.36%,證明其在公開數據集和領域數據集上都具有較好的泛化性,能對材料數據進行有效的實體識別.
目前,本模型僅采用XLNet模型提取詞向量,未來可將更多的語言模型應用于該方法,同時拓展實體類型,并抽取實體間的關系構建知識圖譜,在擴充材料數據的同時進一步挖掘材料領域文獻中的隱含知識.