基于圖卷積網絡的產業領域科技服務資源命名實體識別*

2023-05-12 02:25:34趙卓峰

計算機與數字工程 2023年1期

張碩趙卓峰劉晨

（1.北方工業大學信息學院北京 100144）（2.大規模流數據集成與分析技術北京市重點實驗室北京 100144）

1 引言

科技服務業是將科技成果轉化為生產力的突破口［1］。隨著科技的快速發展，產業領域產生了大量的科技服務資源，包含論文、專利、項目、咨詢等。這些資源信息隱含著豐富的知識價值，通過信息抽取可以幫助我們分析挖掘科技知識之間的關聯關系，掌握當代科技研究的熱點，預測科技發展的動態規律。然而，產業領域科技服務資源所涉及的行業眾多，大多為半結構化數據和非結構化數據，并且缺乏統一的描述規范。因此，亟需找到可以將非結構化的產業領域科技服務資源信息轉化為結構化知識的信息抽取方法，便于之后的數據分析和知識挖掘。

命名實體識別是信息抽取的重要步驟［2］。產業領域科技服務資源實體識別需要抽取出專家人才、專業技術點、科技方法以及領域術語等信息?，F有常用的命名實體方法主要是基于深度學習的方法。基于深度學習的方法包括遞歸神經網絡（RNN）［3］、雙向長短期記憶網絡［4］（BiLSTM）以及雙向門控循環網絡（BiGRU）［5］等。為了避免RNN 帶來的梯度消失的問題，能夠獲取文本數據的上下文特征信息，提高實體識別的準確率，基于BiLSTM模型的方法在生物醫學、電子病歷、法律、軍事等領域得到廣泛應用。為了節省時間和內存空間，又提出了采用結構簡單的BiGRU 模型。雖然命名實體識別在許多領域得到廣泛應用，但針對產業領域科技服務資源命名實體識別的研究較少。

通過分析產業領域中科技服務資源信息，發現實體識別時有以下幾個難點：1）產業領域科技服務資源命名實體識別的邊界模糊，實體詞的長度不一。如“氧化硅”和“氧化硅氣凝膠”，“乙烯”、“苯乙烯”、“聚苯乙烯”和“聚苯乙烯螯合樹脂”均可作為實體出現。2）產業領域科技服務資源包含大量復雜的專業術語實體，包含了數字和特殊符號表示。如“Sm-Al-Co 系Sm 基三元塊體非晶合金”、“Pb-Si-N 三元化合物”和“鄰苯二甲酸二丁酯”等等。3）產業領域科技服務資源文本描述語句較長，缺乏特定的表述規則，很難充分獲取詞語的語義特征以及詞語之間的關系特征。如圖1 中，從“發明”到“氫化物”存在遠距離的VOB 動賓關系，再結合“鑭系”、“金屬”均與“氫化物”的存在近距離ATT定中修飾關系，可以更好地表征“鑭系金屬氫化物”這一實體的存在。

圖1 依存分析圖

因此，為了解決產業領域科技服務資源命名實體識別的問題，提高實體識別的準確率，本文提出了一種融合圖卷積網絡（GCN）的命名實體識別，記為BERT_pos-BiLSTM-GCN-CRF 模型。由于產業領域科技服務資源存在大量復雜的專業術語，為了解決word2Vec 模型只能表示一種靜態語義，不能表示多義的問題，通過BERT 詞嵌入模型進行字符編碼的表示。可以結合句子上下文信息來獲取字符的動態特征，有效解決一詞多義的問題。此外，BERT模型還可以通過下一句預測句子之間的上下文關系［6］，并通過其內部多頭注意力機制設置權重來獲取字符間的語義信息。另外，僅通過字符特征很難確定實體邊界，因此，還通過添加詞性特征對BERT 獲得的字符表示向量進行擴展。此外，由于產業領域科技服務資源文本描述沒有統一的標準，句子結構復雜，沒有充分利用句子中詞語之間的依賴關系進行實體識別。而BiLSTM只能獲取近距離字符間的特征信息，不能充分獲取句子遠距離詞語間的依賴關系。在BERT-BiLSTM-CRF 模型的基礎上引入圖卷積網絡，借助依存句法分析，挖掘字符及字符間關系的結構信息，將BiLSTM 提取到的特征向量與詞語間的依存關系矩陣進行拼接，充分獲取文本的全局特征。實驗結果表明，本文采取的BERT_pos-BiLSTM-GCN-CRF 模型優于傳統的實體識別方法。

2 相關工作

基于深度學習的方法進行實體抽取是近幾年研究的熱點。文獻［7］提出了一種適用于電力文本基于多個特征的字符級實體識別模型，結合了字符、左鄰熵和詞性來表示電力調度文本的領域特征，利用BiLSTM對字符序列標簽進行預測，最后利用CRF對預測的標簽進行優化。文獻［8］提出一種臨床命名實體識別模型（CNER），先將原始數據集的文本序列的字符向量和詞向量有機地結合起來，然后將序列分別輸入多頭自注意模塊和BiLSTM神經網絡模塊的并行結構中，以此獲得上下文信息和特征關聯權值等多層次信息。文獻［9］提出了一種基于BIBC的命名實體識別方法。該方法利用基于整詞掩蔽的BERT-WWM 模型進一步提取中文數據中的語義信息，并通過大規模無標注數據補充特征，結合BiLSTM-CRF 模型進行實體識別，實驗結果表明該方法能夠更準確地抽取出糖尿病病歷中的實體信息，獲得良好的實體識別結果，能夠滿足實際應用的要求。此外，由于BiLSTM結構復雜，模型訓練時需要消耗大量的時間和內存空間，而雙向門控循環網絡［8］結構較簡單。文獻［10］提出利用BiGRU 模型學習上下文特征提取肺癌醫案中的實體。

盡管這些方法在其他領域的實體識別任務上取得了較大的進步，但還是無法有效地應用于產業領域科技服務資源中的實體識別任務。由于產業領域科技服務資源文本描述語句較長，很難充分獲取詞語的語義特征以及詞語之間的關系特征，雖然BiLSTM-CRF 方法可以在一定程度上獲取到句子的上下文語義特征，但不能獲取遠距離依賴關系。所以本文引入GCN 層充分獲取句子的全局特征。另外，由于產業領域科技服務資源中存在大量復雜的專業術語，僅通過基于字的BERT 模型無法高效關聯出詞語之間的關系，使得實體邊界的識別變得困難。所以添加詞性特征作為外部輔助特征，將BERT獲取到字符特征、句子特征、位置特征與詞性特征進行拼接融合，可以幫助更好地識別實體的邊界，提高實體識別的準確率，所以本文采用BERT_pos-BiLSTM-GCN-CRF 模型對產業領域科技服務資源進行實體識別。

3 構建模型

本文采用的方法主要包含4 個模塊，分別為BERT 層、BiLSTM 層、GCN 層以及CRF 層。首先采用BERT 層將文本向量化，得到蘊含語義信息的字符表示；然后通過BiLSTM 層和GCN 層聯合深度學習提取全句特征信息；最后在CRF 層對GCN 模型的輸出特征序列進行解碼，根據所有標簽概率得分選取一個全局最優序列。該模型結構如圖2所示。

圖2 模型總體結構圖

3.1 BERT層

將文本字符輸入，通過BERT 詞嵌入模型輸出每個字符的向量表示。首先對科技服務資源文本中的每一句話進行處理，在每一句話開頭加［CLS］標志，代表一句話的開始，并在該句的末尾加［SEP］標志，代表一句話的結束。例如“［CLS］一種制備氨基乙酸的方法［SEP］”。該模型的最大序列長度seq_length 設為128，采用多退少補的原則，當文本句子字符長度超過128 時，進行截斷操作，當文本句子字符長度小于128 時，使用［PAD］進行填補。通過查找詞向量文件找到每個字符所對應ID映射編碼。然后通過訓練獲取字符ID 對應的向量，批大小batch_size 設為32，映射為768 維的向量?？偟那度氡硎鞠蛄渴怯勺址幋a、句子編碼和位置編碼三部分拼接組成［11］。其中，輸入的形狀為（32，128），輸出的形狀為（32，128，768）。

將獲取的總embedding 作為Transformer 層的輸入，Self-Attention 是Transformer 結構的重要組成部分，利用Self-Attention能有效得到蘊含語義信息的序列向量［12］。一共包含12 個layer 層，當前layer層的輸入為前一layer 層的輸出結果，第一個layer層的輸入為embedding 層獲取的向量，輸入的形狀為（4096，768）。每層都包含一個注意力機制，12個layer層共有12個頭?？傠[層大小為768，每個頭64 維特征向量，然后將這12 個頭提取的特征向量結果concat 拼接。每個頭擁有不同的3 個Q、K、V矩陣，其中Q、K、V分別表示query，key，value，將上一層的輸出矩陣與該層的Q、K、V相乘得到新的Q、K、V矩陣。注意力權重分數計算公式如下所示：

該層的輸出形狀為（32，128，768），然后進行歸一化殘差連接。為了提升特征表達的能力，加入全連接層將768 維特征向量提升為3072 維，激活函數采用gelu。最后將結果再變回一致的維度768。

另外，由于加入了外部特征詞性特征，所以對BERT 層輸出的embedding 進行擴展，加入詞性嵌入pos_embedding。

3.2 BiLSTM層

該層主要是為了提取文本字符的上下文特征信息，將從BERT 層獲取的各個字的embedding 序列作為雙向長短期記憶網絡的輸入。這里采用兩層LSTM，第一層LSTM 網絡計算前向的隱特征，第二層LSTM 網絡計算后向的隱特征，如“我愛你”和“你愛我”是兩個不同的語義特征，所以把這兩個LSTM 層輸出的隱狀態序列進行concat 拼接。LSTM 隱藏層的特征維度為128，隱層的層數為1，dropout-rate 為0.5。將LSTM 狀態類型以元組類型表示輸出，輸出狀態表示為［ht，ct］，包括兩部分內容，一部分為細胞狀態ct，另一部分隱藏層狀態ht，計算公式如下所示。

其中，it表示輸入門輸出的信息、ft表示遺忘門輸出的信息、ot表示輸出門輸出的信息［13］。ct通過tanh神經單元用于計算數據的輸入。

ht，ct的維度為當前LSTM單元的hidden_size，輸出的維度大小為128維。由于雙向LSTM 獲取上下文特征，最后將產生的前向隱特征和后向隱特征拼接聯合輸入到圖卷積網絡層，其輸出的維度大小為256維。

3.3 GCN層

將BiLSTM 層完整的隱藏層狀態送入GCN層。該層的輸入由兩部分構成：一部分是BiLSTM層輸出的特征向量，另一部分是依存關系分析圖的鄰接矩陣向量。本文采用LTP 工具構建依存分析圖。例如產業領域科技服務資源文本中的“本發明涉及新材料領域”其構建的依存分析圖如圖3 所示。

圖3 依存句法樹示例

然后將依存分析圖轉化為鄰接矩陣，若詞語之間存在依賴關系，則為1，否則為0。由于該模型的輸入是以字為單位的，而通過依存關系分析的是詞級別的，因此，對原來的詞鄰接矩陣進行修改，構建出字級別的矩陣向量，如圖4所示。

圖4 鄰接矩陣

圖卷積網絡中單元數設為128，GCN 層數為2，第一層作為前向圖卷積網絡層，獲取每個字符的出度信息，即該字符依賴哪些字符；第二層作為后向圖卷積網絡層，獲取每個字符的入度信息，即哪些字符依賴于該字符。然后將這兩層的最終輸出結果進行concat拼接。

首先進行前饋計算，將從BiLSTM 層輸出特征矩陣與每個節點的權重矩陣矩陣相乘，然后與一個自身相連的鄰接矩陣相乘，通過激活函數σ，得到融合句子中字符間依賴關系的特征矩陣，其輸出的形狀均為（256，128），兩個GCN 進行拼接輸出的形狀為（512，128）。

其中，L為BiLSTM 層傳入的特征向量，Wo為圖的出邊鄰接矩陣，Wi為圖的入邊鄰接矩陣，W→k和W←k為GCN 的前向權重矩陣和后向權重矩陣，I 為自旋單位矩陣，b為偏移矩陣，選ReLu函數為激活函數。

然后將GCN 輸出的每個字的128 維特征向量送入條件隨機場CRF層中。

3.4 CRF層

CRF 的主要作用是通過訓練自動學習最終預測的標簽之間約束關系［14］。如：句子以B 或O 開頭，B-M標簽只能在I-M標簽之前等。

CRF 對從GCN 層輸出的每個字的所有標簽得分進行篩選，對于給定的從BERT 層輸出的文本字序列向量X=｛x1，x2，…，xn｝，定義矩陣P為輸入序列X經BiLSTM 層和GCN 層聯合學習后輸出的對應標簽的分值。本研究中包含18 個標簽，分別為［O、X、［CLS］、［SEP］、B-service、I-service、B-person、I-person、B-organization、I-organization、B-time、I-time、B-domain、I-domain、B-term、I-term、B-tech、I-tech］，W為（18，18）維的狀態轉移矩陣，得到某一個預測序列y=｛y1，y2，…，yn｝與X的聯合概率，通過損失函數loss計算真實路徑得分與所有路徑得分的比值，選取給定序列中的最優聯合概率分布，即全局最高的為實體識別的結果，輸出的形狀為（4096，18），即一次訓練32 個樣本句子的所有字符對應的序列標簽。

4 實驗數據與結果分析

4.1 實驗數據

本文從國家知識產局、知網、科技資源共享平臺、科易網等網站爬取產業領域科技服務資源信息，包括科技專利資源、科技論文資源、科技咨詢資源、科技項目資源以及儀器設備資源等。一共獲取8954 個科技服務資源的描述文本，通過對產業領域科技服務文本內容進行分析，定義了7 種實體類型：科技服務名稱、專家人才、機構組織、發布時間、所屬行業、行業術語以及技術點。

采用BIO 的方式對產業領域科技服務信息進行序列標注，利用Brat標注工具對文本進行數據標注，“B”代表實體的起始位置，“I”代表實體的中間部分，“O”代表與實體無關的詞［15］，“-”代表實體的類型。產業領域科技服務資源信息實體標注標簽如表1所示。

表1 實體標簽標注

另外，本文在原有標注上加入詞性特征，“-”后代表實體的詞性，標注示例如表2 所示，將經過序列標注和詞性標注的文本數據作為實驗數據集進行訓練預測。

表2 實體標注示例

4.2 實驗環境及參數設置

本文實驗環境如表3所示。

表3 實驗環境配置

在實驗中，參數設置如表4所示。

表4 模型參數設置

4.3 評價指標

本模型采用實體標簽的準確率（P）、實體標簽的召回率（R）以及實體標簽的調和平均數（F1）作為評價指標［16］，計算公式如下：

其中，Ec為標注正確的實體數量，Ei為標注錯誤的實體數量，Ed為未標注出的實體數量。

4.4 實驗結果分析

采用交叉驗證的方式，將實驗數據的訓練集與測試集按8∶2 比例進行劃分。設置隨機種子為1～5，取5 次測試結果的平均值作為最終的評估值。具體實體標簽分布如表5所示。

表5 實體個數統計情況

為了驗證BERT_pos-BiLSTM-GCN-CRF 模型的性能，本文通過實驗與常見的實體識別模型BiL?STM-CRF、SelfAtt-BiLSTM-CRF、BERT-BiGRUCRF、BERT-BiLSTM-CRF、BERT-BiLSTM-GCNCRF進行比較。各模型的F1值變化如圖5所示，由圖可知，基于BERT 模型的算法在初始訓練時基本能達到一個較好水平，其中本文的BERTpos-BiL?STM-GCN-CRF模型的實體識別的效果最好。

本文模型與其他模型的對比實驗結果見表6，實驗對比分析結果如下。

表6 相關模型對比

1）對比BERT-BiGRU-CRF 和BERT-BiLSTMCRF 算法，目的是驗證BiLSTM 與BiGRU 兩者之間哪個更有益于實體識別，從圖6 中可以看出，在本實驗中，采用BiLSTM 模型的效果略優于BiGRU 模型，可以獲取豐富的上下文特征，幫助提高實體識別的準確率，F1值提高了2.2%。

圖6 第1組實驗結果

2）對比BiLSTM-CRF 算法和BERT-BiLSTMCRF，目的是驗證選取不同的詞詞嵌入模型對實體識別的效果是否存在影響。其中，BiLSTM-CRF 中使用的是word2Vec詞嵌入模型，從圖7中的實驗結果可知，BERT 詞嵌入模型與word2Vec 詞嵌入模型相比，F1 值平均提升了27.10%。結果表明，使用BERT 預訓練語言模型可以，由于它能充分提取字符間關系的特征，能更好地表達科技服務資源文本中字符隱含的語義信息。

圖7 第2組實驗結果

3）對比BERT-BiLSTM-CRF和BERT-BilLSTMGCN-CRF 算法，目的是驗證加入基于依存分析圖的圖卷積網絡是否有助于提高實體識別的準確性。從圖8 中可以發現，在BERT-BiLSTM-CRF 模型基礎上融入圖卷積網絡能更好地提取全局特征，提高了科技服務資源信息實體抽取的準確率，F1值提高了1.21%。

圖8 第3組實驗結果

4）對比BERT-BiLSTM-GCN-CRF 和BERT_pos-BiLSTM-GCN-CRF 算法，目的是為了驗證添加詞性特征后是否可以更有效地識別實體的邊界，從圖9 中可以看出添加詞性特征后使得實體識別的準確率提高，F1值提高了0.91%。

圖9 第4組實驗結果

為了驗證實驗結論的正確性，使用該模型在CoNLL2003 語料上進行實驗，該語料中包含人名、地名、組織和其他。實驗結果如表7所示。

表7 CoNLL2003語料的實驗結果

由表7 可以看出，與BiLSTM-CRF 和BERTBiLSTM-CRF 模型相比，本模型在CoNLL2003 語料上的訓練集準確率為97.75%，測試集的準確率為96.25%，由此可文中模型可以有效提高實體識別的準確率。

5 結語

本文提出了一種基于圖卷積網絡的產業領域科技服務實體識別方法。該模型采用BERT 預訓練語言模型提取產業領域科技服務資源文本中的上下文語義特征，引入詞性特征作為輔助特征，對BERT 獲取的語義特征進行擴充，并通過GCN 學習文本句子中詞語之間的依存關系，用以獲取句子的遠距離特征。通過實驗發現，該模型優于傳統的實體識別方法，能夠有效提取產業領域科技服務資源中的實體信息。此外，該模型雖在一定程度上提升了產業領域科技服務資源信息中實體識別的準確性。但為了避免實體抽取模塊產生的誤差影響整個知識圖譜構建的質量，后續將進一步研究實體關系聯合抽取的方法，從而完善產業領域科技服務資源信息的提取。