龐 娜 袁 鉞 薛秋紅
(1.北京大學(xué)信息管理系,北京 100871;2.中國科學(xué)院軟件研究所,北京 100190)
隨著科學(xué)數(shù)據(jù)的指數(shù)級增長,科學(xué)數(shù)據(jù)已成為科學(xué)研究的關(guān)鍵成果和重要的戰(zhàn)略性資源??茖W(xué)研究的范式也開始在實驗范式、理論范式、仿真范式之外,出現(xiàn)第四科研范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)。該范式由大量已知數(shù)據(jù),通過計算得出之前未知的可信理論[1]??茖W(xué)論文記錄了驗證過程、實驗觀察結(jié)果、研究結(jié)論等科學(xué)實驗研究線索,包含大量高價值的科學(xué)數(shù)據(jù)。傳統(tǒng)文獻分析方法并沒有對科學(xué)數(shù)據(jù)進行有效的分析,導(dǎo)致大量科學(xué)數(shù)據(jù)湮沒于海量的文獻中,不利于對科學(xué)數(shù)據(jù)展開深入的、創(chuàng)新性的分析,限制了數(shù)據(jù)密集型的科研發(fā)現(xiàn)。對論文中的科學(xué)數(shù)據(jù)的重新組織,可加速知識的再生產(chǎn)和再利用,促進科研創(chuàng)新。
以化學(xué)鍵能數(shù)據(jù)為例,國際上與化學(xué)鍵能數(shù)據(jù)相關(guān)的書籍與著作相對較少,相關(guān)開放數(shù)據(jù)庫平臺仍然處于研發(fā)的初級階段。其中,清華大學(xué)基礎(chǔ)分子科學(xué)中心鍵能研究團隊和南開大學(xué)元素有機化學(xué)國家重點實驗室從2014年起開發(fā)iBond化學(xué)鍵能數(shù)據(jù)庫,并對學(xué)術(shù)界開放與免費使用(http://ibond.chem.tsinghua.edu.cn/或http://ibond.nankai.edu.cn/)。但是,iBond數(shù)據(jù)庫中的科學(xué)數(shù)據(jù)是由領(lǐng)域?qū)<覐拇罅炕瘜W(xué)鍵能相關(guān)的科學(xué)論文中手工抽取,數(shù)據(jù)抽取效率低下[2]。因此,研發(fā)化學(xué)鍵能科學(xué)數(shù)據(jù)的智能抽取工具,能夠幫助領(lǐng)域?qū)<铱焖俑咝У貥?gòu)建化學(xué)鍵能數(shù)據(jù)庫。
本文研究了由較少專家支持的化學(xué)鍵能科學(xué)數(shù)據(jù)抽取方法,實現(xiàn)對論文中的化學(xué)鍵能科學(xué)數(shù)據(jù)自動抽取。本文提出了一種自動抽取化學(xué)鍵能科學(xué)數(shù)據(jù)的方法,該方法首先在自動抽取的領(lǐng)域高頻子詞的基礎(chǔ)上構(gòu)建領(lǐng)域子詞詞典,然后構(gòu)建端到端聯(lián)合BERT-CRF模型對論文中的化學(xué)鍵能科學(xué)數(shù)據(jù)進行抽取。
本文的貢獻如下:
1)構(gòu)建了端到端聯(lián)合BERT-CRF抽取模型來抽取化學(xué)鍵能科學(xué)數(shù)據(jù),相比于通過構(gòu)建詞典和規(guī)則并借助機器學(xué)習(xí)或深度學(xué)習(xí)的手段來抽取實體關(guān)系的方法,本文提出的方法降低了對專家的要求。
2)利用領(lǐng)域高頻子詞抽取技術(shù),構(gòu)建了化學(xué)鍵能領(lǐng)域高頻子詞詞典來提取領(lǐng)域特征。在后續(xù)的深度學(xué)習(xí)訓(xùn)練中,將之前構(gòu)建的領(lǐng)域高頻子詞蘊含的化學(xué)鍵能特征輸入到深度學(xué)習(xí)模型中,獲得了較為理想的抽取結(jié)果。
3)對BERT模型中不同下游網(wǎng)絡(luò)的效果進行對比實驗,結(jié)果表明,對于特定的任務(wù),適當(dāng)?shù)粡?fù)雜的下游網(wǎng)絡(luò)可以帶來結(jié)果的提高。
4)本文從化學(xué)領(lǐng)域的自由文本中提取出了微觀的知識實體、關(guān)系,是使用智能情報分析技術(shù)對化學(xué)鍵能細(xì)粒度的知識進行自動抽取的一次重要實踐,可以有效地促進化學(xué)領(lǐng)域的知識發(fā)現(xiàn)。
近年來,研究者們常使用基于人工手動注釋、基于規(guī)則、基于統(tǒng)計機器學(xué)習(xí)與基于深度學(xué)習(xí)等方法進行領(lǐng)域知識實體的抽取[3]。其中,有很多學(xué)者對化學(xué)領(lǐng)域中的科學(xué)數(shù)據(jù)抽取進行研究,主要包括化學(xué)命名實體抽取與對應(yīng)的關(guān)系抽取兩個重要的研究方向。
從期刊論文和化學(xué)公司內(nèi)部技術(shù)報告中抽取化學(xué)實體一直是信息抽取領(lǐng)域重要的研究方向之一。不同于生物醫(yī)學(xué)領(lǐng)域擁有大量專家標(biāo)注的數(shù)據(jù)可以提供學(xué)習(xí),早期的化學(xué)實體識別缺乏人工標(biāo)注的數(shù)據(jù),其使用的數(shù)據(jù)大多來自生物醫(yī)學(xué)領(lǐng)域[4-7]。真正意義上的化學(xué)實體識別來自于2015年BioCreative會議中的CHEMDNER測評任務(wù)[8],該任務(wù)需要對其發(fā)布的語料中包含的化合物與藥物名稱進行抽取。目前主流的化學(xué)領(lǐng)域?qū)嶓w抽取方法主要有兩種:基于機器學(xué)習(xí)的抽取方法與基于深度學(xué)習(xí)的抽取方法。
基于機器學(xué)習(xí)的抽取方法主要使用馬爾可夫模型、條件隨機場模型等機器學(xué)習(xí)模型來對語料的特征進行建模,從而抽取化學(xué)命名實體。該類方法根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計頻率來決定其是否構(gòu)成一個實體,主要的機器學(xué)習(xí)模型有最大熵馬爾可夫模型、條件隨機場模型等。Corbett P等[5]構(gòu)建了PubMed語料庫,使用最大熵馬爾可夫模型對語料中的化合物、化學(xué)反應(yīng)、化學(xué)形容詞、酶、化學(xué)前綴進行有效地抽取。類似的,Jessop D M等[9]利用最大熵馬爾可夫模型對多種類型的化學(xué)實體進行識別,提出了OSCAR4化學(xué)實體識別工具,該工具可以識別有結(jié)構(gòu)的化學(xué)實體、反應(yīng)、化學(xué)形容詞、化學(xué)前綴等。Klinger R等[6]構(gòu)建了IUPAC語料庫,使用條件隨機場模型抽取語料中的化合物與化學(xué)修飾符。Rockt?schel T等[10]提出了ChemSpot化學(xué)物質(zhì)自動識別系統(tǒng),使用條件隨機場模型與基于詞典相結(jié)合的方法識別化學(xué)名稱、藥物、縮寫、分子公式等。Khabsa M等[11]提出了ChemXSeer化學(xué)實體自動提取工具,通過向條件隨機場模型中加入n-grams、詞綴、上下標(biāo)、化學(xué)符號等一系列新的特征指標(biāo)來識別化合物、化學(xué)修飾符等。
基于深度學(xué)習(xí)的抽取方法主要使用卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)等神經(jīng)網(wǎng)絡(luò)來自動化特征工程,實現(xiàn)對化學(xué)命名實體的有效抽取。近年來,隨著深度學(xué)習(xí)的大火,國外已將深度學(xué)習(xí)廣泛應(yīng)用于化學(xué)物質(zhì)識別,例如,Gu J H等[12]應(yīng)用最大熵模型與卷積神經(jīng)網(wǎng)絡(luò)來共同識別生物醫(yī)學(xué)領(lǐng)域中化學(xué)藥物、疾病實體;Xie J H等[13]使用雙向長短期記憶網(wǎng)絡(luò)識別電子煙使用反饋意見中的化學(xué)物質(zhì)。在國內(nèi),馬建紅等[14]從百度百科科學(xué)分類下的化工科技詞條庫的詞條中爬取相關(guān)信息建立語料庫,并采用BiLSTM-CRF方法來識別相關(guān)化學(xué)物質(zhì)、化學(xué)屬性、化學(xué)參數(shù)及其量值。楊培等[15]采用BiLSTM-CRF結(jié)合注意力機制的方法進行化合物與藥物的識別。
對于化學(xué)領(lǐng)域的關(guān)系抽取,相關(guān)研究則較少[12,16],并且大都只基于某一類關(guān)系進行抽取。程威等[16]使用基于最短依存路徑和注意力機制的雙向LSTM模型,從生物醫(yī)學(xué)文獻中自動抽取出化學(xué)物質(zhì)和蛋白質(zhì)之間的相互作用關(guān)系,如上調(diào)、下調(diào)、和催化作用等。Gu J H等[12]應(yīng)用最大熵模型與卷積神經(jīng)網(wǎng)絡(luò)來識別生物醫(yī)學(xué)領(lǐng)域中化學(xué)藥物與疾病之間的關(guān)系。此外,較為有代表性的是Pang N等[17]提出的兩階段聯(lián)合BERT-CRF模型,Pang N等在進行化學(xué)鍵能科學(xué)數(shù)據(jù)抽取實驗時,考慮到化學(xué)領(lǐng)域涉及廣泛的子領(lǐng)域,實體的類型非常復(fù)雜,并且科學(xué)論文中包含若干從句、復(fù)合句等長難句,機器學(xué)習(xí)方法在抽取復(fù)雜句子中的實體和關(guān)系時效果可能不是很好,因此他們在構(gòu)建抽取模型時,采用深度學(xué)習(xí)的方法來抽取復(fù)雜的語義關(guān)系。“兩階段”模型首先使用專家構(gòu)建的詞典和規(guī)則來識別包含許多未知單詞的化合物和化學(xué)鍵實體。然后用“$”將已識別的化合物和化學(xué)鍵的標(biāo)識符(化合物標(biāo)識符為$CMP$,化學(xué)鍵標(biāo)識符為$BON$)進行封裝,替換未登錄詞,然后將結(jié)果輸入到下一階段的深度學(xué)習(xí)模型中進行訓(xùn)練。該模型能夠?qū)瘜W(xué)鍵能語料庫中的化合物、溶液、反應(yīng)、方法、化學(xué)鍵、化學(xué)鍵能指示詞等實體以及之間的關(guān)系進行有效抽取。
可以看出,無論是使用機器學(xué)習(xí)的方法還是使用深度學(xué)習(xí)的方法進行化學(xué)領(lǐng)域?qū)嶓w關(guān)系的抽取,都要依賴于手工標(biāo)注好的語料,且上述研究使用的標(biāo)注語料大多是生物醫(yī)藥領(lǐng)域的數(shù)據(jù),而由于化學(xué)領(lǐng)域中手工標(biāo)注這些專業(yè)程度高的語料需要耗費大量的時間與人力成本,純粹基于化學(xué)領(lǐng)域的標(biāo)注數(shù)據(jù)開展的研究相對缺乏。雖然有學(xué)者使用BERT等大規(guī)模預(yù)訓(xùn)練模型來解決實體關(guān)系抽取任務(wù)中標(biāo)注數(shù)據(jù)缺乏的問題,但是由于相關(guān)領(lǐng)域數(shù)據(jù)專業(yè)程度極高,識別的難度依然較大,需要專家的介入。為了解決該問題,本文提出了一種端到端的化學(xué)鍵能自動抽取模型,該模型以Pang N等提出的兩階段聯(lián)合BERT-CRF模型為基礎(chǔ),通過結(jié)合本文構(gòu)建的化學(xué)鍵能知識庫和提出的領(lǐng)域高頻子詞的抽取方法,來保障模型在不需要專家介入下的識別準(zhǔn)確性。
本文所抽取的化學(xué)鍵能科學(xué)數(shù)據(jù)來自ChemBE語料庫,該數(shù)據(jù)包含7種類型的實體以及3種類型的實體之間的關(guān)系[17]。
7種實體分別為化合物、溶液、反應(yīng)、方法、化學(xué)鍵、化學(xué)鍵能(pKa)指示詞和化學(xué)鍵能值(pKa值),如圖1所示。3種實體之間的關(guān)系可以在一個句子中描述:XX化合物在A溶液中發(fā)生B反應(yīng),使用C方法去研究D化學(xué)鍵,其pKa值為E。上述關(guān)系可簡化為3種關(guān)系,如圖2所示。本文的研究目標(biāo)是從化學(xué)鍵能相關(guān)的科學(xué)論文中抽取7種實體和3種關(guān)系。

圖2 3種需要抽取的關(guān)系
本文提出的端到端聯(lián)合BERT-CRF抽取模型在輸入時,使用事先抽取好的領(lǐng)域高頻子詞詞典,將單詞切分成具有領(lǐng)域特征子詞作為后面BERT模型的輸入,從而提高抽取結(jié)果的準(zhǔn)確性。圖3為端到端聯(lián)合BERT-CRF抽取模型整體技術(shù)框架。

圖3 端到端聯(lián)合BERT-CRF抽取模型整體技術(shù)框架
2.2.1 化學(xué)鍵能知識庫構(gòu)建
通過對化學(xué)論文(如《JOURNAL OF THE AMERICAN CHEMICAL SOCIETY》等期刊的論文)、權(quán)威化學(xué)詞典(如《Dictionary of Chemistry》等詞典)與權(quán)威化學(xué)網(wǎng)站(如PubChem等網(wǎng)站)中包含的文本數(shù)據(jù)進行解析、清洗,本文構(gòu)建了包含化合物、化學(xué)反應(yīng)、化學(xué)形容詞、化學(xué)方法等詞典。
2.2.2 抽取領(lǐng)域高頻子詞
子詞是一個包含有位置信息的詞綴。而領(lǐng)域高頻子詞則指的是在某一專業(yè)領(lǐng)域內(nèi)被頻繁使用來表達特定含義的修飾詞綴,一般固定地出現(xiàn)在一些專業(yè)名詞的某一位置(前綴或是非前綴位置)。在抽取領(lǐng)域高頻子詞時,使用高頻字符串抽取的思想從知識庫中的語料抽取化學(xué)鍵能領(lǐng)域的高頻子詞。因此,該任務(wù)可以轉(zhuǎn)化為抽取帶有位置信息的詞綴的任務(wù)。
在抽取領(lǐng)域高頻子詞時,抽取知識庫中出現(xiàn)頻率大于5的最長子串。同時,抽取包含前綴和非前綴這兩個位置信息。用“0”表示前綴,用“1”表示非前綴。算法1為領(lǐng)域子詞抽取算法。然后根據(jù)抽取的領(lǐng)域子詞結(jié)果,改寫后面的BERT深度學(xué)習(xí)模型詞匯表,并在非前綴子詞前面添加“##”符號來標(biāo)識。后續(xù)輸入到BERT模型之前,需要首先根據(jù)改寫的詞匯表,將單詞切分成若干在詞匯表中的領(lǐng)域子詞進行表征。

算法1:領(lǐng)域子詞抽取算法

表1給出了典型實例,說明同一單詞“tetramethylpiperidine”的不同子詞切分后的結(jié)果。在改寫了包含領(lǐng)域子詞詞匯表后,與在公共領(lǐng)域中訓(xùn)練的BERT原始詞匯表相比,該詞被切分后保留了更多的語義信息,具有更多的領(lǐng)域特征,有助于在后續(xù)的深度學(xué)習(xí)任務(wù)中獲得更好的抽取效果。

表1 專業(yè)詞匯切分子詞效果前后對比
在后續(xù)再訓(xùn)練過程中,使用《Journal of Organic Chemmistry》等期刊中70萬篇化學(xué)論文的摘要,對谷歌訓(xùn)練的12層transformer的參數(shù)進行再預(yù)訓(xùn)練。在對transformer參數(shù)進行訓(xùn)練時,使用由化學(xué)領(lǐng)域高頻子詞構(gòu)成的改寫后的詞匯表。通過對領(lǐng)域無標(biāo)記語料進行再預(yù)訓(xùn)練,使參數(shù)可以更好地表征出化學(xué)領(lǐng)域語義特征,有助于提高后續(xù)抽取任務(wù)的準(zhǔn)確性。
2.2.3 端到端聯(lián)合BERT-CRF模型
端到端的聯(lián)合BERT-CRF模型如圖4所示。

圖4 端到端聯(lián)合BERT-CRF模型
與兩階段聯(lián)合BERT-CRF模型相比,端到端聯(lián)合BERT-CRF模型只使用深度學(xué)習(xí)模型來解決復(fù)雜的專業(yè)術(shù)語問題,因此減少了預(yù)測的時間。此外,端到端的聯(lián)合BERT-CRF模型在訓(xùn)練過程中更加簡單,因為它根據(jù)可以表示領(lǐng)域特征的領(lǐng)域高頻子詞直接進行訓(xùn)練,對專家的要求相對較少,當(dāng)遷移到其他領(lǐng)域時,再遇到復(fù)雜的專業(yè)術(shù)語問題,僅需要較少的專家支持和較少的領(lǐng)域資源即可以完成領(lǐng)域遷移。
之后使用規(guī)模較小的、基于特定任務(wù)的數(shù)據(jù)進行下游NER任務(wù)的微調(diào),在下游的網(wǎng)絡(luò)中,本文使用了BERT內(nèi)置的softmax層和CRF層來訓(xùn)練標(biāo)記的數(shù)據(jù)。首先,使用BERT內(nèi)置的softmax層來預(yù)測標(biāo)簽[18]。logitsi使用softmax進行歸一化之前的全連接層的輸出。i表示所屬類別,類別總數(shù)為C。Softmax常用于多分類問題。
(1)
為了避免概率太小而導(dǎo)致歸一化下溢的問題,本文使用了logSoftmax對數(shù)函數(shù)。logSoftmax函數(shù)可以寫為:
(2)
然后,在BERT模型后添加CRF層,完成下游實體識別與關(guān)系識別任務(wù)。CRF層由Lafferty J等[19]提出,常用于序列標(biāo)記任務(wù)中。本文使用CRF作為下游網(wǎng)絡(luò),共同抽取實體和關(guān)系。CRF層中有狀態(tài)轉(zhuǎn)換矩陣,可以使用過去和將來的標(biāo)簽來預(yù)測當(dāng)前的標(biāo)簽,并可以為可能的標(biāo)簽進行打分,以給出標(biāo)簽序列的概率。給定一個輸入序列x={x1,x2,…,xn},一個預(yù)測序列y={y1,y2,…,yn},標(biāo)簽序列如式(3)所示[20]:
(3)
式(3)中tj(yi-1,yi,x,i)是觀察序列的轉(zhuǎn)移特征函數(shù),表示在標(biāo)記序列i和i-1位置的標(biāo)記;sk(yi,x,i)為觀測序列的位置i處標(biāo)簽的狀態(tài)特征函數(shù);λj是訓(xùn)練數(shù)據(jù)中需要估計的參數(shù)。在式(3)中,Z(x)為標(biāo)準(zhǔn)化因子[20]:
(4)
最優(yōu)輸出序列為y*:
y*=arg maxp(y|x)
2.2.4 模型聯(lián)合抽取標(biāo)注體系
本文的模型中采用了聯(lián)合抽取標(biāo)注體系,目的是利用一個模型同時抽取科學(xué)實體和科學(xué)關(guān)系。傳統(tǒng)的模型先抽取實體,再根據(jù)抽取的實體結(jié)果抽取關(guān)系,準(zhǔn)確性較低。聯(lián)合抽取標(biāo)注體系同時抽取實體和關(guān)系,可以同時使用實體與關(guān)系的特征表示來支持兩個抽取任務(wù),減少傳統(tǒng)標(biāo)注方式帶來的二次誤差,提高關(guān)系抽取的準(zhǔn)確率。聯(lián)合抽取標(biāo)注體系包含“<位置信息、實體信息、關(guān)系信息>”3個部分。標(biāo)注體系編碼了位置信息、實體信息和關(guān)系信息這3類信息,標(biāo)簽中蘊含了實體信息和關(guān)系信息,如圖5所示。

圖5 聯(lián)合抽取標(biāo)注體系
位置信息有3種選項:B、I、O。其中B代表“Begin”,表示實體的開始;“I”代表“Inter”,表示實體的中間部分;O表示“其他”,即非實體詞。實體信息有7個選項:化合物CMP、溶液SVN、pKa指示詞ENG、化學(xué)鍵BON、方法MTH、化學(xué)反應(yīng)RCT、pKa值EGVL。關(guān)系信息有4種選擇:“CE”(化合物-pKa指示詞)、“SE”(溶液-pKa指示詞)、“EE”(pKa指示詞-pKa鍵能值)、“NR”(無關(guān)系,不需要考慮)。標(biāo)注體系的標(biāo)簽組成如表2所示。

表2 標(biāo)注體系的標(biāo)簽組成
在上面的標(biāo)注體系中,抽取實體時,

本文使用的實驗數(shù)據(jù)來自ChemBE(化學(xué)鍵能)語料庫[17]。ChemBE語料庫中的語料來自化學(xué)鍵能相關(guān)學(xué)科的20多本主流學(xué)術(shù)期刊,如《Journal of the American Chemical Society》等。該語料庫標(biāo)注了研究問題陳述中需要抽取的7種實體和3種關(guān)系,是一個用于自動抽取化學(xué)鍵能科學(xué)數(shù)據(jù)的小型語料庫。本文的實驗數(shù)據(jù)可從https://github.com/quewentian/ChemBE-BERT-CRF中獲取,實驗數(shù)據(jù)的詳細(xì)情況如表3所示。

表3 實驗數(shù)據(jù)詳細(xì)情況
本文的基線模型采用Pang N等提出的兩階段聯(lián)合BERT-CRF模型[17],該模型對有不同文本特征的實體關(guān)系采用不同的處理方法。兩階段BERT-CRF模型在第一階段使用了專家構(gòu)建的詞典和規(guī)則來抽取包含大量未知的專業(yè)詞匯的實體關(guān)系;在第二階段使用了標(biāo)識符替換第一階段識別出來的未登錄詞匯(即,沒有在BERT模型的詞表中出現(xiàn)過的詞),并將其輸入到BERT模型中進行訓(xùn)練。圖7為兩階段聯(lián)合BERT-CRF模型。

圖7 兩階段聯(lián)合BERT-CRF模型
本文對不同的端到端聯(lián)合BERT模型設(shè)置進行了實驗,并且在整體的實體關(guān)系聯(lián)合標(biāo)注數(shù)據(jù)上設(shè)計了幾組對比實驗:首先,對比不同的下游網(wǎng)絡(luò)組合,在BERT后添加不同的下游網(wǎng)絡(luò);其次,對比不同的BERT模型的輸入,即,對比是否使用到了領(lǐng)域高頻子詞。
不同的網(wǎng)絡(luò)組合有兩種下游網(wǎng)絡(luò)可以選擇:softmax層和CRF層。這兩個下游網(wǎng)絡(luò)可以將BERT模型的輸出歸一化為概率。
不同領(lǐng)域高頻子詞也有兩個選擇:原始的基于全領(lǐng)域訓(xùn)練得到的全領(lǐng)域高頻子詞,以及本文中基于化學(xué)鍵能領(lǐng)域知識庫訓(xùn)練得到的化學(xué)鍵能領(lǐng)域高頻子詞。使用不同的高頻子詞來切分未登錄單詞,然后將這些單詞切分后的子詞輸入到BERT模型中。
從表4可以看出,端到端模型最佳的識別結(jié)果可以媲美之前提出的兩階段模型的最佳結(jié)果,端到端BERT-CRF模型與化學(xué)鍵能領(lǐng)域高頻子詞都采用的情況下,相較于之前提出的兩階段BERT-CRF模型的F1值只下降了1.26%。但是考慮到中間不需要針對領(lǐng)域?qū)I(yè)術(shù)語去人工構(gòu)建規(guī)則,該結(jié)果的準(zhǔn)確性相對理想,這也證明了可以使用類似的想法以較低的成本遷移到其他領(lǐng)域。

表4 不同模型設(shè)置的實驗結(jié)果
表5和表6顯示了端到端BERT-CRF模型中使用化學(xué)鍵能領(lǐng)域高頻子詞分別在實體抽取和關(guān)系抽取上的結(jié)果(實體抽取的結(jié)果,不再考慮標(biāo)注體系中后面的關(guān)系信息),其中大多數(shù)實體和關(guān)系抽取效果較好。然而,對于一些實體和關(guān)系,由于語法結(jié)構(gòu)和構(gòu)詞規(guī)則的復(fù)雜性,準(zhǔn)確性仍有較大的提升空間。圖8展示了部分未準(zhǔn)確抽取的錯例,可以看到由于化合物實體的構(gòu)詞往往較為復(fù)雜,部分化合物難以完整且準(zhǔn)確地識別。由于語料中參考文獻的引用編號在預(yù)處理中未完全清除,因此部分?jǐn)?shù)值型實體會和參考文獻的編號混雜在一起,從而干擾數(shù)值型實體的抽取。此外,長難句等復(fù)雜的語言結(jié)構(gòu)會為實體和關(guān)系的識別造成一定的困難。因此,未來考慮在預(yù)處理階段盡可能地剔除參考文獻的引用編號來增加抽取的準(zhǔn)確性;考慮在模型中引入更多的外部知識來提高語義的表征能力,進一步提升復(fù)雜的實體與關(guān)系抽取準(zhǔn)確性。

表5 端到端BERT-CRF模型+化學(xué)鍵能領(lǐng)域高頻子詞實體抽取結(jié)果

表6 端到端BERT-CRF模型+化學(xué)鍵能領(lǐng)域高頻子詞關(guān)系抽取結(jié)果

圖8 錯例分析
本文將代碼部署為服務(wù),使用不同的顏色來顯示不同的實體,并使用下劃線來標(biāo)記具有重要關(guān)系的句子,如圖9所示。

圖9 系統(tǒng)部署界面
本文提出了一種端到端的聯(lián)合抽取模型,并提出了自動構(gòu)造化學(xué)鍵能領(lǐng)域高頻子詞的方法,利用蘊含豐富領(lǐng)域特征的領(lǐng)域高頻子詞對大量未登錄詞進行分解后再輸入深度學(xué)習(xí)模型中進行訓(xùn)練,解決了大量的未知專業(yè)詞匯的問題。實驗結(jié)果證明了該方法的有效性。該方法的抽取結(jié)果可以媲美兩階段BERT-CRF模型抽取的結(jié)果[17],但是該方法顯著降低了對領(lǐng)域?qū)<业囊螅⑶铱梢匝杆佟⒌统杀镜剡w移到其他領(lǐng)域。
未來將嘗試在之前構(gòu)建的知識庫中引入更多的外部知識,并向深度學(xué)習(xí)模型中加入更多的領(lǐng)域特征,例如詞法、句法等外部知識[21],以解決復(fù)雜的實體和關(guān)系抽取準(zhǔn)確度低的問題。