張淑霞 龔炳江



摘要:關系抽取是信息抽取的子任務,將關系抽取應用到煤礦的規范、章程等諸多復雜的文本信息方面,對于煤礦行業知識圖譜的構建等研究有重要的價值。文章將目前基于規則、基于機器學習和基于深度學習的關系抽取等主要技術的方法和思路進行分析,并提出了使用BiLSTM-ATT(雙向長短期記憶網絡一注意力機制)模型來實現煤礦行業文本信息中實體關系的抽取。該課題可以為從事煤礦行業的人員和其他領域的研究提供較大的實際意義。
關鍵詞:煤礦行業;關系抽取;主要技術;BiLSTM-ATT模型;文本信息
中圖分類號:TP391.1 文獻標識碼:A
文章編號:1009-3044(2020)22-0187-03
開放科學(資源服務)標識碼(OSID):
1 背景
近年來,隨著網絡信息資源的不斷擴充,信息數據呈現高速增長,在互聯網中準確高效地獲取所需要的信息成為當下研究的熱點,因此信息抽取技術得到廣泛關注。而煤礦行業本身就存在著諸多煩瑣的規章、條例、規范等信息,因此本課題旨在挖掘煤礦領域文本數據中的語義關系,為構建知識圖譜、智能問答等能夠快速獲取所需信息的研究提供堅實的基礎。關系抽取是信息抽取的主要步驟之一,在自然語言處理中有著廣泛的應用。
關系抽取具體來講是指從非結構化的文本數據中找出實體之間存在的關系,并表示為三元組:<實體1,關系,實體2>。通過關系抽取,可以找出實體間更多隱藏的關系,幫助計算機更好的理解大規模的文本數據信息。本文將對目前已有的關系抽取技術進行分析對比,并在此基礎上針對煤礦領域的條例、規范等數據,提出實現關系抽取的解決方法,為構建煤礦行業知識圖譜和實現智能問答提供有效的幫助。
2 關系抽取的發展歷程
MUC是美國一個研究委員會資助的信息理解會議,一直致力于信息抽取方法的研究,關系抽取最早是MUC于1998年的第七次會議上以關系模板的形式提出的[1]。MUC只召開過七次,之后在1999年,美國的研究院又召開了ACE(自動內容抽取)評測會議,ACE針對新聞行業的實體關系抽取展開研究,為以后關系抽取的發展提供了基礎的語料和關系類型,在一定程度上推動了關系抽取技術的進步。近年來,開放域關系抽取方法在語料獲取方面提供了有效的解決方法,逐漸走進研究人員的視野,慢慢受到越來越多的關注。目前的維基百科、Freebase等大規模知識庫涉及的領域更廣、關系類型更多,為研究人員在標注語料的獲取方面提供了有效的支持。在當今時代,中文在世界上的使用越來越廣泛,對中文實體關系抽取的研究越來越迫切。
3 關系抽取技術的分析比較
本文將中文實體關系抽取方法按照模型的特點分為規則、機器學習和深度學習三類分別進行分析。
3.1 基于規則的方法
基于規則的方法是通過專家對語料的深入分析,列舉出其中存在的各種關系模板,構建出大規模的關系模板庫,然后在數據集中尋找與模板相似的句子實例,從而獲取實體間的語義關系。Fukumoto等人根據謂語動詞來判斷實體之間的關系,實驗結果顯示召回率很低,在測試中F指數只達到了39.1%[2]。Aone利用語義關系特征,識別出句子的中心詞和修飾詞之間的關系,在測試中達到了75.6%的F指數,效果是最好的[3]。 人工規則往往是高精度的,可以針對特定領域進行定制,具有較好的準確率。但是通常會出現低召回率,信息缺乏覆蓋率,人工成本高、代價大,設計過程艱難。
3.2 基于機器學習的方法
基于機器學習的方法中最依賴于標注的就是有監督的關系抽取,主要包括特征向量和核函數兩種方法。特征向量方法速度很快,但因為語義關系復雜多樣,再找出更適合的有效特征來提高性能是不太容易的。核函數的方法是將句子構造為結構樹,使用核函數來計算樹和樹之間的距離,可以綜合利用多種不同方面的特征,但核函數計算過程復雜,需要花費大量時間。
最常見的半監督方法是自舉方法( Bootstrapping),在沒有足夠的標注語料時,只需要將每種關系標注少量種子實體對,選擇包含種子實體對的相關句子集合,再從句子中抽取關系的模式,以此循環迭代,最終得到關系數據[4]。此方法能自動挖掘句子中的部分詞法特征,適合沒有足夠語料標注的關系抽取場景,但是對種子的質量要求高。
無監督的抽取方法不需要人工標注語料,是通過聚類方法尋找相似度比較接近的實體對,將其歸為一類,再使用合適的詞語來標注這種關系[5]。相比有監督和半監督的方法有很大的優勢;但是聚類閾值確定困難,缺乏必要的語料庫,頻率少的實例抽取率也低,在評價標準上難以量化和統一。
3.3 基于深度學習的關系抽取方法
有監督關系抽取方法雖然抽取效果不錯,但是十分依賴于人工標注提供有效特征,而標注通常會存在一些誤差,在關系抽取過程中這些誤差最后可能使得結果產生很大偏差,達不到想要的效果。近年來,深度學習的神經網絡模型在關系抽取中受到許多研究者的關注,不但節省了人工的工作,并且取得不錯的效果,使用神經網絡模型來實現關系抽取時,可以自動提取特征,不需要有復雜的設計過程。卷積網絡可以通過卷積和池化操作提取句子的重要特征,長短期記憶網絡是通過記憶句子的上下文,來提取句子的重要特征。
3.4 方法對比總結
基于規則的方法精確率較高,但局限性強,數據集發生改變時,原來制定的規則可能就不能再滿足新的需要,人工再制定規則是非常困難的;而機器學習的方法不再過度依賴專家對語料庫的詳細分析,只需要有一定的專業知識來提取重要的特征,減少了一定的人工工作量;基于深度學習的方法其實是機器學習的發展分支,能夠避免人工特征選擇的步驟,自動提取出隱藏的實體關系特征,減少特征誤差,效果比機器學習要好。
4 煤礦領域文本關系抽取實現方案
4.1 方法選擇的原則
傳統的基于規則的方法實現關系抽取任務,需要專家針對語料庫手工編寫規則,設計規則耗時耗力,過程艱難,若規則設計得不好,會達不到預期的效果,基于機器學習的方法,需要提供標注好的語料庫,然后根據定義好的關系類型提取特征,但特征的提取需要經過復雜的設計和驗證,也是非常艱巨的任務。目前,基于深度學習的方法得到廣泛應用,構造神經網絡模型來自動提取特征,可以有效減少誤差和人工的工作量。本課題選擇使用深度學習的BiLSTM-ATT模型來實現關系抽取任務。
4.2 BiLSTM-ATT模型結構
該關系抽取模型主要分為四部分,分別為:詞向量、BiL-STM、注意力機制和Softmax分類器。詞向量層的作用是把輸入的句子用詞向量來表示,也就是將自然語言的文本轉換為計算機可以理解的向量形式,嵌入到輸入矩陣中;BiLSTM的作用是通過神經網絡抽取實體間的關系特征;注意力機制會計算出各個關系特征最終所占關系類型的權重;Softmax分類器會對實體間的關系類別做出最后的判斷。
4.3 詞向量
詞向量層是把自然語言的文本轉化為模型所需的數字化向量。使用訓練工具Word2vec進行訓練,并采用CBOW詞袋模型,將一個詞的上下文對應的詞向量輸入,得到該詞的詞向量。例如一個句子為:“…natural language processmg is an im-portant direction in the field of computer science -”,取上下文大小為6,那么“direction”的前六個和后六個詞的詞向量就作為輸入,“direction”就是需要輸出的詞向量,在詞袋模型中,關鍵詞前后的詞沒有順序,不需要考慮這些詞之間距離的大小。
4.4 雙向長短期記憶網絡
循環神經網絡(RNN)對于很長的文本,不能很好地聯系上下文,只能記住比較近的信息,比較遠的信息記憶不到。長短期記憶網絡(LSTM)通過引入門機制來決定需要被記住或者需要被丟棄的信息,實質上是優化過的RNN,可以有效記住長文本的內容。
所謂門機制,即模型中包含三個門:忘記門、輸入門和輸出門,通過公式來計算最終被傳遞的信息。公式中:輸入表示為X,詞向量表示為W,,BiLSTM模型對詞向量的編碼表示為ht。
輸入門用來決定當前傳人的信息和上一級傳送的信息哪些需要被傳遞,保留在細胞狀態C+中,公式為:
但是單純的LSTM只能單向傳遞信息,不能記住未來時刻的內容,在一個句子中,實體間的關系不僅僅會被前面所影響,還可能會被后面所影響,所以在BiLSTM中使用前向和后向兩個順序來記憶上下文,最后將兩個方向的輸出向量連接起來,可以更有效地利用上下文。
4.5 注意力機制
注意力機制的原理就像人在靠視覺感知周圍的事物時,往往不會完完全全的每個點都認真看,而是根據需要觀察特定的部分。在實體對的句子集合中,不同的句子對于分類的貢獻不一樣,使用注意力機制學習實例權重,可以從諸多復雜信息中快速注意到對于需求來說更重要的信息,在輸出層融入注意力機制,能夠更加有效的表征實體間的關系。輸出向量以Rh表示,注意力層的權重矩陣由以下公式得出:
4.7 BiLSTM-ATT模型訓練過程
首先使用word2vec訓練詞向量模型,也就是將文本以計算機可以理解的向量形式來表示,構建初始數據集,以詞向量矩陣作為BiLSTM層的輸入,將初始數據集分別放入forward cell和backward cell,把兩個方向的輸出向量合并,融合上下文信息,提取句子中的特征,再通過注意力機制計算出特征的權重,最后,使用softmax函數將特征轉換為對應的關系類別的概率。
5 結果分析
5.1 實驗環境
實驗采用的環境見表2。
5.2 實驗數據
本次研究針對的數據是煤易聯網站中的法規、標準和規范,由于條件限制,只選取了2300個句子作為數據集進行關系抽取,涉及的實體關系共有5種:包含、依據、裝配、禁止、影響。關系定義見表3。
5.3 實驗結果
由于條件限制,只選擇了小部分數據做實驗,將數據集中的1840個句子作為訓練集,460個句子作為測試集,各類關系的測試結果見表4:
由測試結果可知,“禁止”這類關系的準確率最高,“包含”關系、“依據”關系和“裝配”關系的識別準確率較高,“影響”這一關系的識別效果最差,召回率也是最低的。
6 結束語
本文首先分析了目前的關系抽取方法的優劣,然后提出了使用BiLSTM-ATT模型完成煤礦領域語料的關系抽取任務。首先使用word2vec將文本句子轉換為詞向量的形式,然后將詞向量輸入到BiLSTM提取關系特征,最后通過注意力機制計算特征的權重,使用分類器對關系類型做出概率計算。實驗結果表明,對整體語料庫的抽取效果較好,但是由于條件限制,語料不夠多,對于“影響”關系類型識別的效果較差,因此,需要在語料庫的獲取和優化上繼續進行研究。
參考文獻:
[1]陽小華,張碩望,歐陽純萍.中文關系抽取技術研究[J].南華大學學報(自然科學版),2018,32(1): 66-72.
[2] Fukumoto J,Masui F,Shimohata M,et al.Oki Eletricity In-dustry: Description of the Oki System as Used for MUC-7[C].Proceedings of the 7th Message Understanding Conference(MUC-7),1998.
[3] Aone C,Ramos-Santacruz M.REES:a large-scale relation and event extraction system[C]//Proceedings of the sixth confer-ence on Applied natural language processing .April 29-May 4,2000. Seattle, Washington. Morristown, NJ, USA: Associationfor Computational Linguistics, 2000: 76-83.
[4]武文雅,陳鈺楓,徐金安,等.中文實體關系抽取研究綜述[Jl.計算機與現代化,2018(8): 21-27,34.
[5]杜嘉,劉思含,李文浩,等.基于深度學習的煤礦領域實體關系抽取研究[J].智能計算機與應用,2019,9(1):114-118.
[6]陳鵬,郭劍毅,余正濤,等.融合領域知識短語樹核函數的中文領域實體關系抽取[Jl,南京大學學報(自然科學),2015(1):181-186.
[7]郭喜躍,何婷婷,胡小華,等.基于句法語義特征的中文實體關系抽取[Jl,中文信息學報,2014,28(6):183-189.
[8]朱珊珊,唐慧豐,基于BiLSTM_Att的軍事領域實體關系抽取研究[J].智能計算機與應用,2019,9(4): 96-99.
【通聯編輯:謝媛媛】
作者簡介:張淑霞(1997-),女,河北衡水人,碩士,主要研究方向為自然語言處理;龔炳江,教授,碩士。