面向科技情報分析的知識庫構建方法

2022-11-20 13:57:20王紅濱

計算機工程與應用 2022年22期

關鍵詞：模型

王勇，江洋，王紅濱，侯莎

1.哈爾濱工程大學計算機科學與技術學院，哈爾濱 150001

2.中國船舶集團有限公司第七一四研究所，北京 100101

信息時代的計算機技術迅猛發展，利用網絡能獲取大量的信息，這些信息包含方方面面，數據量大，結構多變，很難直接進行理解和應用，如何從這些信息中快速而準確地分析出有用的信息顯得尤為重要。信息抽取技術[1]在一定程度上解決了海量數據的提取問題，但是抽取出來的信息仍然很難進行人為的分析和管理，而知識庫（knowledge base）[2-4]作為知識的集合體，在智能信息處理中起著十分重要的作用。知識庫構建的核心之一就是針對大量的信息進行實體抽取和實體關系抽取。

1 相關工作

傳統的實體抽取方法有基于規則的方法。規則采用手工編寫的方式，將文本與規則進行匹配來進行實體的識別。但是這種方式需要大量的語言學知識才能構建規則，費時費力。其次，有基于統計機器學習的方法。這種方法將實體抽取視作序列標注任務，利用大規模語料學習出標注模型，從而對句子進行標注。

隨著硬件技術的提升和詞的分布式表示的出現，神經網絡成為有效解決自然語言處理任務的模型。實體抽取大多轉化為序列標注任務，通俗來講就是從一段自然語言文本中找出相關實體，并且標注出其位置和類型。Pappu等[5]提出了一個輕量級的多語言實體抽取方式，實現了高精度的實體抽取，并且降低了內存占用。Bartoli等[6]考慮從非結構化文本中以正則表達式的形式自動生成實體提取器，提出了一種主動學習方法，可以最大限度地減少用戶注釋的工作量。Yadav等[7]基于生物醫學語料對實體進行抽取，利用深度學習和粒子群優化的概念，提出了一種新穎的用于實體抽取的特征選擇方法。馮蘊天等[8]利用深度信念網絡對神經網絡語言模型進行了擴展，提出了一種可用于命名實體識別的深層架構。

關系抽取的主要任務是從文本中對實體進行識別并抽取實體間的語義關系。主流的關系抽取技術有：有監督的學習方法、半監督的學習方法和無監督的學習方法。與其他兩種方法相比，有監督的學習方法準確率和召回率更高，能夠學習更有效的特征。有監督的學習方法將實體間的關系抽取視為分類任務，根據訓練語料學習各分類模型，然后使用訓練好的模型對關系進行抽取。

Dewi等[9]對關系抽取中的卷積神經網絡（convolutional neural network，CNN）進行改進，提出了Deep-CNN模型，擴展了CNN的深度。Miwa等[10]提出了在LSTMRNN（long short term memory-recurrent neural network）上堆疊樹狀結構的LSTM-RNN的端到端的模型，同時提取實體與實體之間的關系。Xu等[11]提出一個基于神經網絡的關系提取器，并將其用于知識問答系統上。Gupta等[12]引入表格填充多任務回歸神經網絡（table filling multi-task recurrent neural network，TF-MTRNN）模型，將實體識別和關系分類任務簡化為填表問題并模擬它們的依賴關系。對遠程監督容易受到嘈雜標簽影響的局限性，遠程監督假設擁有相同實體對的句子都描述同一種關系，這種方法只能進行袋級分類，而不能抽取出實體與句子之間的映射。

2 基于神經網絡的實體抽取

對中文實體抽取的研究大多在詞級別，受近期深度學習的啟發，基于字的序列標注在不降低性能的情況下簡化了任務。但是字的語義信息往往比詞的語義信息薄弱，在保留字信息的同時又引入了詞的語義信息，即把詞向量作為字的附加特征，這樣可以加強字的語義信息。Encoder-Decoder是深度學習中常見的一個模型框架，應用非常廣泛。采用雙向長短期記憶網絡（bidirectional long short-term memory，BiLSTM）[13-15]對文本進行編碼，用長短期記憶網絡（LSTMd）進行解碼。為了提高模型的性能，采用了Attention機制，不要求編碼器將所有輸入信息都編碼成一個固定長度的向量之中，只需要將輸入編碼成一個向量的序列。綜上，提出了CWATTBiLSTM-LSTMd（character word attention-bidirectional long short-term memory-long short-term memory）模型。圖1給出了該模型的基本結構圖。

由圖1可以看出，CWATT-BiLSTM-LSTMd模型包含一個BiLSTM層來對輸入句子進行編碼和一個加入Attention機制的LSTMd解碼層。采用BILOU標注策略，B即Begin，表示開始，I即Inside，代表中間，L即Last，代表結尾，O即Outside，用于標記無關字符，U即Unit，代表單元字符。每個實體標簽代表實體類型和字在實體中的位置。模型的輸入是一串字的序列，需要對句子進行分詞，通過嵌入層將每個字映射為低維稠密的實數值向量，并且將其與字所在詞的詞向量拼接起來，將拼接之后的向量作為字的最終嵌入。之后經過一個BiLSTM層，自動提取句子特征，將正向LSTM輸出的隱狀態序列和反向LSTM輸出的隱狀態序列通過激活函數得到完整的隱狀態序列。最后通過加入Attention機制的LSTMd解碼層來生成標簽序列。下面將詳細講解如何用這個模型進行實體抽取。

2.1 嵌入層

在自然語言處理中，詞嵌入是一種流行的技術，它將單詞映射到相對較低維的空間中。用詞嵌入表示連續低維空間中的詞，可以捕獲詞的語義或者語法屬性：相似的詞具有類似的低維向量表示。基于字序列和基于詞序列是實體抽取的兩種方法，這兩種方法各有優劣。基于字的實體抽取簡化了任務，但字的語義信息不如詞的語義信息豐富；基于詞的實體抽取需要預先對句子進行分詞處理，比較依賴分詞的準確率。同時引入字向量和詞向量，在保留字信息的同時又附加了詞的語義信息，將經過分詞后訓練得到的詞向量作為字信息的附加特征。模型對當前字序列進行標注時，詞向量的加入可以告知其附加的語義信息，這樣增強了字序列中字的語義信息，在一定程度上減少了一字多義產生的語義混淆。

給定一觀測序列c={c1,c2,…,ct,ct+1,…,cn}，序列長度為n。首先對觀測序列進行分詞處理，對于觀測序列第t個字ct,將ct所在詞wt作為字ct的特征。定義embct為第t個字ct的字嵌入，embwt為該字所在詞wt的詞嵌入，然后將首尾拼接得到的向量[embct,embwt]作為最終結果嵌入xt。

2.2 BiLSTM編碼層

嵌入層將獨熱（one-hot）表示的字轉換為嵌入向量。編碼層使用來自嵌入層的向量用線性序列表示字序列，該層可以表示語義上下文信息。一個字序列可以表示為X={x1,x2,…,xt,xt+1,…,xn}，其中xt∈Rd對應于句子中第t個字的d維向量嵌入，n是給定句子的長度。在嵌入層之后緊接著編碼層，編碼層有兩個平行的LSTM層：前向LSTM層和后向LSTM層。LSTM體系結構由一組循環連接的子網組成，稱為記憶塊，每個時間步是一個LSTM記憶塊。BiLSTM編碼層中的LSTM記憶塊被用來計算當前隱藏向量ht。

第t個字的LSTM記憶塊由一組n維矢量組成：輸入門it、遺忘門ft、輸出門ot、記憶單元ct和隱藏向量ht。LSTM記憶塊接收n維的輸入向量xt、前一時刻的隱藏向量ht-1和前一時刻的記憶單元ct-1，然后用以計算當前隱藏向量ht。計算當前隱藏向量ht的詳細操作如式（1）～（6）所示。

其中，σ表示sigmoid函數，⊙表示點乘，W是權值矩陣，b是偏差向量。it、ft和ot分別表示輸入門、遺忘門和輸出門，輸入門和遺忘門的輸入都是[xt,ht-1,ct-1]，輸出門的輸入是[xt,ht-1,ct]，然后要經過一個激活函數，把值縮放到[0，1]附近，使用tanh作為激活函數。ct是記憶單元，由t時刻遺忘門的輸出、t-1時刻記憶單元的輸出、t時刻輸入門的輸出和經過激活函數計算的zt得到。如果遺忘門ft取值為0，那么前一時刻的狀態就會被全部清空，只關注此時刻的輸入。輸入門it決定是否接受此時刻的輸入，最后輸出門ot決定是否輸出單元狀態。

對于每個字xt，前向LSTM層將通過考慮從字x1到xt的上下文信息來編碼xt，其被記為，以類似的方式，后向LSTM層將基于從xn到xt的上下文信息來編碼xt，其被記為，最后，連接和來作為第t個字的編碼信息，記為ht=[]，并將其傳入下一層。

2.3 LSTMd解碼層

在BiLSTM編碼層，d1維隱藏向量ht=[h→t;h←t]表示輸入序列X中第t個字的編碼輸出。令Mt為包含序列X中每個字的連接雙向BiLSTM輸出的矩陣。Mt是一個ln×d2矩陣，其中ln是序列X中字的數目，d2是BiLSTM中連接隱藏向量的維度。令mit表示Mt的第i行，令P是d1×d2維的參數矩陣，p是長度為d2的偏差向量。通過式（7）～（9）計算Attention上下文向量at。

計算得出Attention上下文向量at之后，將其附加到隱藏向量ht以獲得連接向量ut,連接向量ut=[at;ht]。使用LSTM結構來顯式建模標簽交互。當生成字xt的標簽時，LSTMd解碼層的輸入是：從BiLSTM編碼層并經過Attention機制獲得的連接向量ut，前一個預測標簽矢量Tt-1，前一個記憶單元c(2)t-1和解碼層中前一個隱藏向量h(2)t-1。解碼層LSTMd內存塊的結構圖如圖2所示。

LSTMd的內存塊也擁有三個門，分別是輸入門、遺忘門和輸出門。解碼層的詳細操作如式（10）～（15）所示。

其中，σ表示sigmoid函數，⊙表示點乘，W是權值矩陣，b是偏差向量。i(2)t、f(2)t和o(2)t分別表示輸入門、遺忘門和輸出門，輸入門和遺忘門的輸入都是[ut,h(2)t-1,Tt-1]，輸出門的輸入是[ut,h(2)t-1,c(2)t]。ut表示Attention連接向量，h(2)t-1表示解碼層中前一個隱藏向量，Tt-1表示前一個預測標簽矢量，c(2)t表示當前記憶單元。當前隱藏向量h(2)t由輸出門o(2)t和經過tanh激活函數的記憶單元c(2)t得到。預測標簽矢量Tt從隱藏向量h(2)t的變換如式（16）所示。

其中，W是權值矩陣，b是偏差向量。得到預測標簽矢量Tt之后，最終經過一個softmax層來計算標準化的實體標簽概率pit，通過式（17）和式（18）計算。

其中，Wy是softmax矩陣，Nt是實體標簽總數。在解碼過程中，使用當前字的預測標簽來預測下一個字的標簽，以便將標簽依賴性考慮在內，比如標簽O之后不可能跟標簽I-LOC。因為T與標簽嵌入類似，并且LSTM能夠學習長期依賴性，這種方式可以模擬標簽交互。

3 基于強化深度學習的實體關系抽取

關系抽取也是構建知識庫的重要環節，在實體抽取完成之后需要對實體之間的關系進行抽取以構建三元組。針對遠程監督的局限性，提出了RL-TreeLSTM模型，這是一個采用強化深度學習的實體關系抽取模型，能夠有效降低數據噪聲。RL-TreeLSTM模型不從傳統的袋級層面考慮問題，而從句子層面來考慮問題，它包含一個選擇器和一個分類器，選擇器通過強化學習的方式選擇高質量的句子，并將所選語句輸入到關系分類器中，分類器進行句級測評并向選擇器回饋獎勵（reward）。分類器采用TreeLSTM來實現，通過句法分析和LSTM結合的方式來進行實體關系的抽取。與傳統的自底向上的TreeLSTM不同，采用雙向的TreeLSTM結構，即加入了自頂向下的方向，這種結構不僅傳播來自葉子的信息，還傳播來自根的信息。

將實體關系抽取分解成兩個子問題：實例選擇和關系分類。在選擇器中，每個句子di都有相應的動作ai來指定是否將句子di選作分類器的訓練實例。狀態si由當前句子di表示，{d1,d2,…,di-1}是已經被選作訓練實例的句子，句子di包含實體對e1i和e2i。選擇器根據隨機策略對給定當前狀態的動作進行采樣。分類器選擇TreeLSTM來確定給定句子中實體對的語義關系。選擇器將訓練數據提取到分類器以訓練TreeLSTM網絡，同時，分類器向選擇器提供反饋以改進策略函數。在選擇器的幫助下，模型直接過濾掉有噪聲的句子，分類器在過濾后的數據上進行句子級別的訓練和測試。模型的基本結構如圖3所示。

由圖3可以看出，實例選擇器根據策略函數選擇語句，然后使用這些選擇的語句來訓練關系分類器，之后從分類器中計算出獎勵，通過獎勵（reward）函數對選擇器的參數進行更新。

3.1 選擇器

關于實例選擇問題表述如下：定義D={(d1,r1),(d2,r2),…,(dn,rn)},(di,ri)是＜句子，關系標簽＞對。其中，di是擁有實體對(e1i,e2i)的句子，ri是由遠程監督產生的有噪關系標簽。選擇器的目標是確定哪個句子真正描述了這種關系，且應該被選作訓練實例。關于關系分類問題表述如下：給定句子di和句子di所提及的實體對(e1i,e2i)，關系分類的目標是預測句子di中的語義關系ri。

將實例選擇作為強化學習問題。選擇器是agent，agent與環境互相交互，環境由數據和分類器組成。選擇器的agent遵循一個策略，來決定每個狀態（state）的動作（action）。狀態包含當前語句、所選句子集合和實體對。動作是選擇當前語句與否，當所有的實例選擇結束時，從最終狀態的關系分類器向agent返回一個獎勵（reward）。只有當所有訓練實例的選擇都完成時，agent才能從分類器獲得延遲獎勵。因此，當掃描完整個訓練實例時，只能更新一次策略函數，這顯然很低效。

為了提高訓練過程的效率，得到更多的反饋信息，將訓練句子實例D={d1,d2,…,dn}分解為N袋B={B1,B2,…,BN},完成一個袋的語句選擇時計算獎勵（reward）。每一袋對應著不同的實體對，每個袋Bk是具有相同關系標簽rk的句子的序列{d1k,d2k,…,d|k Bk|}，但是關系標簽是有噪聲的。根據策略函數定義動作（action）為是否選擇當前語句，一旦一個袋子完成了選擇就計算獎勵（reward）。當實例選擇器的訓練過程完成時，將每個袋子中的所有選擇句子合并以獲得清潔的數據集X＾。然后，清理后的數據將用于訓練句子級別的分類器。下面從強化學習的狀態（state）、動作（action）和獎勵（reward）三方面來介紹其中某個袋的學習過程。

（1）狀態

當對袋B的第i個句子進行決策時，狀態si代表當前語句、所選句子集合和實體對。將狀態表示為連續實值向量F(si)。F(si)編碼了以下信息：

①用于關系分類的當前句子的向量表示；

②所選句子集的表示，它是所有選定句子的向量表示的平均值；

③句子中兩個實體的向量表示，從預訓練的查找表中獲得。

（2）動作

定義一個動作ai={0,1}，用以指示選擇器是否選擇袋B的第i個句子，ai取值為1表示選擇這個句子，ai取值為0表示過濾掉這個句子。通過其策略函數πΘ(si,ai)來對ai的取值進行選擇，其中Θ是要學習的參數。在這項實例選擇的任務中，定義的策略函數如式（19）所示。

其中，F(si)是狀態特征向量，σ(·)是sigmoid函數，參數是Θ={W,b}。

（3）獎勵

獎勵函數是所選句子效用的指標。對于某個袋B={d1,d2,…,d||B}，模型為每個句子選取一個動作，以確定是否應該選擇當前句子。假定該模型在完成所有選擇時具有最終獎勵，因此只有在最終狀態時才會收到延遲獎勵，其他狀態的獎勵為0。獎勵函數的定義如式（20）所示。

其中，＾是已選語句的集合，是B的子集，r是袋B的關系標簽。p(r|dj)表示句子dj的關系分類標簽為r的概率，取值由分類器來計算。對于特殊情況B＾=?，即袋B中所有句子中實體對的關系均與袋子的關系標簽不符合，將獎勵設置為訓練數據中所有句子的平均似然值，這使得實例選擇器模型能夠有效地排除噪聲包。

3.2 分類器

在RL-TreeLSTM模型中，實體關系的抽取由分類器來實現。選擇器通過策略函數決定是否選擇當前句子，之后將選擇的句子傳入分類器，在關系分類器中，用依存樹和LSTM結合的TreeLSTM模型來預測關系。TreeLSTM模型用以抽取依存樹中的一對目標詞之間的關系，如圖4所示。

由圖4可知，輸入句子通過句法分析構造成一棵依存樹，每個樹節點是一個LSTM單元。箭頭表示沿著依存樹的自底向上和自頂向下的計算，模型會得到來自兩個方向的隱藏向量↑ha、↑hb、↓ha和↓hb。

該模型主要關注依存樹中一對目標詞之間的最短路徑，即兩個目標詞之間擁有最小公共節點的路徑。采用雙向樹狀結構的LSTM，通過捕獲目標詞對周圍的依存結構來表示一個關系候選。雙向即自底向上和自頂向下兩個方向，這種雙向結構不僅傳播來自葉子的信息，還傳播來自根的信息。對于樹狀結構的LSTM模型而言，在關系抽取中尤為重要的一點就是利用靠近依存樹底部的參數節點。與標準的自底向上的TreeLSTM模型不同，提出的自頂向下的TreeLSTM將樹頂部的信息發送到近葉節點中。

實體關系抽取解決了原始文本中目標實體對之間的關系分類問題，它也是構建復雜知識庫的重要處理步驟。對于每個關系候選者，通過實體對之間的路徑形成依存樹結構，神經網絡接收從依存樹層輸出的關系候選向量，并且預測其關系標簽。當檢測到實體錯誤或者實體對沒有關系時，將這一實體對作為“NA”處理。

通過TreeLSTM從兩種序列中提取特征。每個LSTM單元的輸入是三部分的串聯，輸入wt通過式（21）計算。

其中，ht表示相應序列層中的隱藏向量，v(d)t表示依存類型的嵌入向量，是對父項的依存類型，v(T)t表示實體標簽嵌入向量。沿著自底向上序列所計算的最后LSTM單元輸出表示為↑ha和↑hb，沿著自頂向下序列所計算的最后LSTM單元輸出表示為↓ha和↓hb，目標詞的順序對應著關系的方向，而不是句子中的位置。

和實體抽取的網絡類似，也是用一個具有n維的隱藏層h(r)和softmax層的兩層神經網絡，輸入源的所有矢量被拼接在一起，然后在隱藏層中計算輸出h(r),softmax層計算關系預測的概率p(r|d)，通過式（22）和式（23）計算。

其中，W表示權值矩陣，b表示偏差向量。在預測時為每個實體對分配兩個標簽，因為考慮了從上到下和從下到上兩個方向。當預測標簽不一致時，選擇正面且更可靠的標簽。

4 實驗結果與分析

4.1 數據集選取和評價指標

實驗采用搜狗實驗室搜集的來自若干新聞網站的科技頻道的新聞數據來驗證模型的有效性，數據集保存了科技情報新聞的正文文體，主要是非結構化數據文本。實驗以6∶2∶2的比例將其分為訓練集、驗證集和測試集。訓練集用來建立模型，設置相應的分類器參數，訓練分類模型。當利用訓練集訓練出多個模型后，為了找出效果最佳的模型，使用各個模型，利用驗證集中的數據來確定網絡結構和控制模型復雜程度的參數。采用準確率（precision，P）、召回率（recall，R）和F值對實驗結果進行評價，其中F值能夠體現整體測試效果。

4.2 參數設置

本文提出的CWATT-BiLSTM-LSTMd模型包含一個BiLSTM編碼層和一個引入Attention機制的解碼層。編碼部分所使用的嵌入向量是通過運行word2vec軟件預訓練得到的。具體的參數設置如表1所示。

表1 實體抽取參數設置表Table 1 Parameter setting of entity extraction

本文提出的RL-TreeLSTM模型包含一個選擇器和一個分類器。在聯合訓練模型之前對選擇器和分類器進行了預訓練。因為需要根據分類器的TreeLSTM模型來計算反饋獎勵，所以需要先在整個訓練集上預訓練TreeLSTM模型。然后固定TreeLSTM模型的參數，從固定的TreeLSTM模型得到獎勵用以預訓練選擇器中的策略函數。最后再對兩個模型進行聯合訓練。參數的設置如表2所示。

表2 實體關系抽取參數設置表Table 2 Parameter setting of entity relation extraction

4.3 結果及分析

實驗1驗證CWATT-BiLSTM-LSTMd（C-B-L）模型的有效性。

為了驗證提出的CWATT-BiLSTM-LSTMd模型的有效性，與CRF模型、BiLSTM模型、BiLSTM+CRF模型和Stanford-NER模型進行了對比。

Stanford-NER模型是由斯坦福大學研發的實體抽取模型，這個模型是基于詞向量的實體抽取模型，不僅可以抽取英文的實體，還可以對中文的實體進行抽取。采用的分詞系統是由中科院研發的NLPIR漢語分詞系統。由于斯坦福大學也研發了基于中文的分詞系統Stanford-SEG，使用這兩種分詞系統在Stanford-NER模型上進行實驗以對比分詞對模型的影響。

實驗結果如圖5所示。

CRF在實驗中取得了79.05%的F值，而BiLSTM在實驗中取得了77.85%的F值。對出現這種情況的原因進行分析：首先，神經網絡的模型結構比較復雜，需要較大規模的語料對其進行訓練，在所用的數據集下，BiLSTM的性能受到了約束。當數據規模在較小的范圍內時，CRF的實驗效果要略優于BiLSTM，但是當數據規模在較大的范圍內時，BiLSTM的效果將會超過CRF。其次，CRF在對文本進行序列標注時考慮了標簽的依賴性，而BiLSTM對序列的標注是相互獨立的。因此此次實驗的CRF模型的F值要略高于BiLSTM模型的F值。

BiLSTM+CRF模型結合了BiLSTM模型和CRF模型，在輸出端將softmax與CRF結合起來，這樣既考慮了長遠的上下文信息，又考慮了標簽的依賴問題，因此取得了優于BiLSTM模型和CRF模型的80.25%的F值。

Stanford-NER模型在Stanford-SEG分詞系統上取得了61.81%的F值，在NLPIR分詞系統上取得了68.45%的F值，識別效果相對較差，是因為基于詞序列的實體抽取更容易丟失有效信息。Stanford-NER模型在兩種分詞系統中都能取得較高的準確率，但是召回率都偏低，主要因為數據集是基于科技新聞語料的，一些詞出現的頻率低，訓練集沒有訓練過的詞出現在了測試樣本中，所以往往不能取得理想的效果。從Stanford-NER模型較低的召回率可以看出，分詞模型的準確率將直接影響實體抽取的效果。

本文提出的CWATT-BiLSTM-LSTMd模型取得了89.23%的準確率，雖然準確率的提升不明顯，但是召回率卻有大幅度的提升，從而取得了比對比模型更好的F值。因為BiLSTM能學習長期依賴的問題，解碼層LSTMd能模擬標簽依賴的問題，為了提升模型的性能，還引入了帶詞向量的字向量來解決字向量邊界模糊的問題，引入Attention機制對解碼層進行優化。

實驗2驗證RL-TreeLSTM模型的性能。

選擇器過濾掉有噪聲的句子，選擇有效的句子傳入分類器。分類器預測了每個句子的關系標簽，而不是每個袋的關系標簽。它是一個句子級別的實體關系抽取模型。因為以遠程監督方式獲取的數據是嘈雜的，所以隨機從數據集中選取1 000個句子并手動標記每個句子的關系類型來評估分類器的性能。將提出的RL-TreeLSTM模型與RNN模型、CNN模型和PCNN+ATT模型進行了對比，對比實驗結果如圖6所示。

從圖6中可以看出，CNN模型要優于RNN模型。RNN引入了句法分析，但是RNN無法像LSTM一樣學習長期依賴問題，詞語在句子中的位置越靠后，越對RNN模型不利。

PCNN+ATT模型的F值低于CNN模型，它在所使用的數據集上并未取得優于CNN模型的成果。CNN是一個句子級的模型，而PCNN+ATT是袋級的模型，這說明袋級模型在句子級的預測中表現不佳。

本文提出的RL-TreeLSTM模型是句子級別的模型，要優于CNN模型，因為CNN模型不考慮數據的噪聲問題，這顯示了采用強化學習的實例選擇的有效性。

實驗3評估選擇器的性能。

為了測量通過選擇器所選句子的質量，對所選句子進行了關系分類實驗。首先使用選擇器從原始數據中選擇高質量的句子，之后采用CNN模型和TreeLSTM模型設置兩種對比實驗。

（1）采用原始數據對關系進行分類，分別命名為CNN（ori）和TreeLSTM（ori）；

（2）使用選擇器對原始數據進行選擇，選取高效的句子對實體之間的關系進行分類，分別命名為CNN（sel）和TreeLSTM（sel）。

實驗結果如圖7所示。

從圖7中可以看出，使用相同模型的情況下，采用選擇器的F值要優于使用原始數據的F值。結果表明選擇器能有效過濾有噪聲的句子并準確提取高質量的句子，從而獲取更好的實體關系抽取性能。

5 結束語

本文主要面向科技情報分析對實體抽取和實體關系抽取的方法進行了改進，針對實體抽取提出了一種CWATT-BiLSTM-LSTMd模型。在實體抽取的基礎上進行實體關系的抽取，為解決實體關系抽取中遠程監督的局限性，提出一種基于強化深度學習的RL-TreeLSTM模型。經實驗驗證，提出的模型取得了比基準模型更好的F值。在未來的工作中，在實體抽取已經取得了較好結果的基礎上，對關系抽取研究還有待改進。關系抽取很大程度上依賴句法分析，然后實際應用中句法分析的結果可能出錯，是否可以依據上層應用來自動調整句法分析的結果，也就是基于動態變化的網絡結構進行學習。