高速公路突發事件實體識別及事件分類聯合模型研究

2021-06-08 12:30:01范曉武葛嘉恒

計算機時代 2021年1期

范曉武葛嘉恒

摘? 要：針對高速公路突發事件實體識別和事件分類任務中文本表征時存在的一詞多義問題，提出使用層次多頭注意力網絡HMAN來學習文本字向量的高層次特征表示，結合經典的BiLSTM-CRF模型，構建一個稱為HMAN-BiLSTM-CRF的多任務聯合學習模型。模型共享文本特征表示模塊，使用CRF對共享表征進行解碼獲得最優實體標注序列，而全連接層則根據輸入的文本特征預測事件類別。在FEIC數據集上的實驗結果顯示，本文所提出的HMAN-BiLSTM-CRF在突發事件實體識別和分類兩項任務中都優于其他對比模型。

關鍵詞：實體識別; 事件分類; 層次多頭注意力網絡; HMAN-BiLSTM-CRF模型

中圖分類號：TP391.1????????? 文獻標識碼：A???? 文章編號：1006-8228（2021）01-11-05

Research on the joint model of entity recognition and event

classification of freeway emergency

Fan Xiaowu， Ge Jiaheng

（Zhejiang Comprehensive Transportation Big Data Center Co.， Ltd.， Hangzhou， Zhejiang 310018， China）

Abstract： Aiming at the polysemy problem in text representation in freeway emergency entity recognition and event classification tasks， this paper proposes to use a hierarchical multi-head self-attention network to learn high-level feature representations of text word vectors， and combines with the classic BiLSTM-CRF Model to construct a multi-task joint learning model called HMAN-BiLSTM-CRF. The model shares the text feature representation module， and uses CRF to decode the shared representation to obtain the optimal entity annotation sequence. Meanwhile， the fully connected layer predicts the event category according to the input text feature. The experimental results on the FEIC data set show that the HMAN-BiLSTM-CRF proposed in this paper is superior to other comparison models in the two tasks of emergency entity recognition and classification.

Key words： entity recognition; event classification; hierarchical multi-head self-attention network; HMAN-BiLSTM-CRF model

0 引言

隨著我國高速公路建設規模的不斷增長與道路交通量的快速增加，交通事故、惡劣天氣、道路擁堵，以及?；沸孤兜雀咚俟吠话l事件日益增長，嚴重影響高速公路的通行能力和運營效率。當高速公路突發事件發生后，交通應急指揮部門應根據報警信息快速定位事故點，調配應急救援物資并制定最佳救援路徑，使高速公路能夠迅速恢復平穩通行。在整個應急救援實施的過程中，精確確定事發點并分析出事件類別是應急救援能夠正確、順利開展的關鍵。然而，突發事件報警信息大多以語義來表述事發地理位置和事件情況，如何識別出突發事件位置等實體信息并對事件進行分類是亟待解決的問題，兩者本質上是自然語言處理領域的經典任務：命名實體識別和文本分類。

目前，國內外對特定領域實體識別的研究已有很多，研究方法主要包括基于規則的方法[1]、基于統計機器學習的方法[2]以及基于深度神經網絡的方法。將深度神經網絡與條件隨機場（Conditional Random Field，CRF）相結合的模型取得了比較有競爭力的結果，此類模型先利用神經網絡自動提取文本特征，再通過CRF進行實體標簽預測。比如，Xu等人[3]提出將雙向長短時記憶網絡（Bi-directional Long Short-Term Memory neural network，BiLSTM）與CRF結合起來構建基于BiLSTM-CRF的模型，在NCBI疾病語料庫上取得了80.22% 的F1值;李等人[4]在BiLSTM-CRF模型的基礎上融入了卷積神經網絡（Convolutional Neural Network，CNN）訓練字符級向量，提出了CNN-BLSTM-CRF模型進行生物醫學命名實體識別，在Biocreative II GM和JNLPBA 2004數據集上的F1值分別達到了89.09%和74.40%。張等人[5]將生成式對抗網絡（Generative Adversarial Network， GAN）與基于注意力機制的BiLSTM-CRF模型相結合，構建了一種新的實體識別模型BiLSTM-Attention-CRF-Crowd，在信息安全領域的眾包標注數據集上取得了較高的F1值87.2%。

高速突發事件分類是指根據事件的起因、影響等因素將其歸類到某個類別中，屬于文本分類任務中的單標簽多分類問題。文本分類的核心是文本特征表示，基于深度神經網絡的方法在此方面表現出很好的性能成為了研究的主流模型。先前的研究大多使用基于CNN[6]或基于循環神經網路（Recurrent Neural Network，RNN）[7-8]的單一神經網絡模型處理文本分類問題，但受限于網絡結構，這兩類模型在提取文本特征時具有一定的局限性。最近研究者嘗試將不同的神經網絡結合起來以利用他們的優點，取得了非常顯著的研究進展。Zhang等人[9]提出了一個結合CNN和LSTM的情感分類模型CNN-LSTM的，模型首先使用CNN提取文本序列的局部N-Gram特征，然后通過LSTM學習文本的語義表示并輸出分類結果。Li等人[10]提出的BLSTM-C模型利用BiLSTM從正向和逆向同時處理輸入序列，獲取能夠捕捉雙向語義依賴的文本表示，并輸入到CNN進行特征提取和分類。

實體識別和文本分類通常被視為兩個不同的任務獨立進行，但實際上這兩個任務是相關的，兩者可以共享底層的文本特征表示，進行聯合訓練。目前，多任務聯合學習模型已被廣泛應用。Wu等人[11]提出使用CNN-LSTM-CRF模型來進行命名實體識別任務和分詞任務的聯合學習，提高了識別實體邊界的準確率。Zhang等人[12]提出了CNN-BiLSTM-CRF模型來識別實體及其關系，使兩個任務的效果都得到了提升，達到了聯合處理的目的。這兩個模型都使用CNN來訓練高層次字符向量，但CNN只能提取文本序列的局部特征，無法捕捉長距離依賴關系。

受Vaswani等人[13]在機器翻譯中提出的Transformer網絡結構的啟發，本文提出使用層次多頭自注意力網絡HMAN（Hierarchical Multi-head Self-attention Network）來訓練字符特征向量，自注意力網絡能夠直接建立文本序列中不同位置之間的關系，所以使用層次多頭自注意力網絡訓練出的字符特征向量具有全局語義信息，從而解決了突發事件文本特征表示時存在的一字多義問題。

本文提出了一個多任務聯合模型同時完成高速突發事件實體識別和事件分類任務，該模型將層次多頭自注意力網絡HMAN和BiLSTM相結合來學習輸入文本的共享表征，并輸入到CRF和全連接網絡分別進行實體識別和事件分類，從而構建出一個稱為HMAN-BiLSTM-CRF的聯合學習模型。在高速突發事件語料庫上的實驗結果表明，與其他對比基線模型相比，HMAN-BiLSTM-CRF模型在各評價指標上都有顯著提升。

1 數據預處理與數據標注

本文實驗所使用的數據由杭州市高速公路管理相關部門提供，我們對其進行了預處理和實體分類標注，從而建立了一個基于實體識別和事件分類的高速突發事件語料庫FEIC。這個數據集中包含15937個用于訓練的突發事件示例、2601個用于驗證的突發事件示例以及3985個用于測試的突發事件示例。

本文采用人工標注方式對高速突發事件實體進行標注。為了更加清晰地劃分實體邊界，在對高速突發事件語料進行實體標注時采用BIEO（Begin，Inside，End，Outside）標簽方案。B表示高速突發事件實體的第一個字符，I表示實體的內部字符，E表示實體的結尾字符，O表示非實體字符。表1展示了實體類型及其具體標注方法。給定一個含有n個字符的高速突發事件文本句子[S={w1，w2，…，wn}]，

采用上述標注方法標記句子[S]的每個字符[wi]。同時，本文將高速公路突發事件進行了分類標注，每個類別的數據分布情況如表2所示。

2 HMAN-BiLSTM-CRF模型

2.1 模型概述

HMAN-BiLSTM-CRF模型的結構如圖1所示，包括字符編碼層、HMAN層、BiLSTM層、CRF層以及FNN層。模型首先將輸入的文本序列隨機初始化為高維度數值向量矩陣，然后使用HMAN訓練字符向量的高層次特征表示，并輸入到BiLSTM提取文本的上下文特征，最后，CRF層對BiLSTM層輸出的共享表征進行解碼獲得實體標記序列，全連接層的作用是對事件進行分類。

2.2 字符編碼層

模型的第一層是字符嵌入層，目的是將輸入的文本句子映射為高維度數值向量序列。假設輸入的突發事件文本句子為[S={w1，w2，…，wn}]，本文使用隨機初始化的嵌入矩陣將每個字符[wi ]表示為字符向量[xi∈Rd]，[d]為字符向量的維度，那么整個輸入文本句子可被表示為[ X0=[x1，x2，…，xn]∈Rd×n]。

2.3 HMAN層

本節將詳細介紹把字嵌入序列編碼為高層次語義表示的過程。HMAN層由[L]個相同的層堆疊而成，每個層又包含兩個子層。第一個子層是多頭自注意力網絡，被定義為：

[M1=MultiHead X0， X0， X0]

其中，[M1∈Rd×n]是第一個多頭注意力子層的輸出狀態，[MultiHeadQ，K，V]表示一個多頭注意力函數（圖2），不同的注意力頭旨在捕獲不同的依賴信息，其將查詢矩陣[Q]、鍵矩陣[K]以及值矩陣[V]作為輸入，具體計算過程參考文獻[13]。

第二個子層是全連接前饋網絡（feed-forward network），其使用帶有[ReLU]激活的線性轉化函數進一步處理第一個子層的輸出：

[FFNx=W1ReLU0，W2x+b1+b2]

其中，[W ]和[ b ]是可學習的網絡參數。

對于輸入的任意字符序列[ X0]，上述過程被迭代[L]次，用公式表示：

[M=MultiHead Xl-1， Xl-1， Xl-1]

[Xl=[FFNxl1;…;FFNxln]]

其中，[xlk∈Rd]是句子中第[k]個字符在第[l]層的向量表示。

為了防止加深網絡層數導致的梯度消失問題，每個子層之后都進行殘差連接和層歸一化操作：

[LayerNorm（A+B）]

其中，[A， B∈Rd×Nm]分別表示每一個子層的輸入輸出狀態。

2.4 BiLSTM層

由于LSTM模型在處理文本序列時，只能保留過去時刻的文本信息，無法同時對上下文信息進行建模，所以本文采用BiLSTM提取文本特征。BiLSTM由一個正向LSTM和一個反向LSTM組成，正向LSTM用來學習上文的特征信息，反向 LSTM 用來學習下文的特征信息。

LSTM模型通過3個控制門結構來決定信息的保留和丟棄，具體計算過程如下：

[it=σ（Wixt+Uiht-1+ViCt-1+bi）]

[ft=σ（Wfxt+Ufht-1+VfCt-1+bf）]

[ct=tanh（Wcxt+Ucht-1+bc）]

[ct=ftct-1+itct]

[ot=σ（Woxt+Uoht-1+VoCt-1+bo）]

[ht=ottanh （ct）]

其中，?[σ]為激活函數，?[W]為權重矩陣，? [b]為偏置向量;[it]，[ft]?和?[ot]分別為輸入門，遺忘門和輸出門的輸出;[ct]是輸入信息后的中間狀態，[ct]是更新之后的cell狀態，?[ht]是[ t]時刻的最終輸出。

BiLSTM模型的在[t]時刻的隱狀態由前向LSTM的隱狀態[ht]和反向LSTM的隱狀態[ht]共同決定，可以表示為：

[ht=[ht，ht]]

之后，使用tanh激活函數來計算每個字符可能的實體標簽的概率得分，其公式表示如下：

[P=W1tanhW1ht+b1+b2]

其中，[W]和[b ]為可訓練的網絡參數。

2.5 CRF層

BiLSTM模型是獨立預測實體標簽的，會出現[{B-Time、I-Pos}]等序列標注錯誤的情況。因此，本文添加 CRF 層來保證預測標簽的合法性，其能夠建立相鄰標簽之間的依賴關系。BiLSTM輸出的概率矩陣[ P ∈Rn×k ]，其中[ n ]為輸入序列的字符個數，?[k]為標簽種類數。輸入序列[ X=（x1，…，xn）]對應的輸出序列[Y=（y1，…，yn）]的得分為：

[scoreX，Y=i=0nAyi，yi+1+i=1nPi，yi]

其中，[Pi，j]表示第[i]個字符對于第[j]個標簽的分數，[Ai，j]表示標簽[i]轉移為標簽[j]的概率。

最后，使用一個softmax函數來計算標簽序列[ Y ]的概率：

[pY|X=escoreX，YY∈YXescore（X，Y）]

其中，[YX]表示所有可能的標簽序列。

2.6 全連接層

全連接層的主要任務是將BiLSTM層輸出的文本特征向量作為輸入，經過線性變換后，使用softmax函數計算高速突發事件屬于某一類別的概率，即：

[P=softmax（W1tanhW2X+b1+b2）]

其中，[W]為權重矩陣，[b]為偏置向量，兩者都是可學習的網絡參數。

3 實驗與結果分析

3.1 模型參數設置

在模型訓練過程中，使用Adam算法對模型進行優化。字嵌入大小設置為200，隱藏向量大小也設置為200，層次多頭注意力的層數為3，頭數為5，以批次量為64的小批量進行訓練，學習率選取為0.0001。同時，模型使用Dropout來防止過擬合問題，參數取值為0.3。

3.2 評價指標

本文使用準確率（Precision）、召回率（Recall）和F1值（F1-score）作為評價指標對突發事件實體識別與事件分類的效果進行評估，計算公式如下：

[Precision=TPTP+FP×100%]

[Recall=TPTP+FN×100%]

[F1=2×Precision×RecallPrecision+Recall×100%]

其中，TP（True Positives）表示測試集中被正確識別的實體或事件的個數，FP（False Positives）表示測試集中被錯誤識別的實體或事件個數，FN（False Negatives）表示測試集中沒有被識別出的實體或者事件個數。

3.3 實驗結果

本文使用高速突發事件數據集的測試集來對訓練后的HMAN-BiLSTM-CRF模型進行評價。表3展示了高速突發事件中不同類型的實體識別結果。從表3可以看出，事發時間、高速名稱、高速編號和事發方向實體類型取得了相對較高的結果，這是因為它們的表達形式相對較為固定且實體語義簡單。事發路段、事發位置、實體的各項指標相對較低，主要是因為這幾類實體的字符數相對較長且其實體語義比較復雜。通過查看實例發現，在高速突發事件數據集中事發位置的實體分布低于其他實體，這也是造成其識別準確率等指標較低的原因。

表3? 高速突發事件實體識別實驗結果

[實體類型??????? 準確率???? 召回率???? F1 值?????? 事發時間???????? 0.955??????? 0.954??????? 0.955??????? 高速名稱???????? 0.967??????? 0.97 0.968??????? 高速編號???? 0.986??????? 0.988??????? 0.987??????? 事發路段???????? 0.769??????? 0.805??????? 0.787??????? 事發方向???????? 0.927??????? 0.948??????? 0.938??????? 事發距離???? 0.822??????? 0.846??????? 0.834??????? 事發位置???????? 0.629??????? 0.586??????? 0.607??????? 總體指標???????? 0.865??????? 0.871??????? 0.868??????? ]

高速突發事件的分類結果如表4所示。從表中可以看出，道路施工類和其他情況類的準確率最高，分別達到了85%和86%，而大流量類的準確率僅為59%，這在一定程度上證明了數據量的規模對模型的訓練結果有較大影響，大規模訓練數據有利于提升模型的性能。值得注意的是，雖然交通事故類的訓練數據較大，但其性能指標的提升相對不是太高，這可能是因為造成交通事故的原因有很多，交通事故情況也較為復雜，從而增大了語義識別的難度。

4 結束語

針對高速公路突發事件實體識別和事件分類任務，?本文提出了HMAN -BiLSTM-CRF多任務聯合學習模型，該模型使用多頭自注意力網絡學習字向量的高層次特征表示，解決了文本表征時的一詞多義問題。本文提出的HMAN -BiLSTM-CRF模型在突發事件實體識別任務和事件分類任務中均取得了最佳結果，證明了模型的有效性。

參考文獻（References）：

[1] EftimovT， Seljak B K， Koroec P. A rule-based namedentity recognition method for knowledge extraction of evidence-based dietary recommendations[J].Plos One，2017.12（6）.

[2] The role of fine-grained annotations in supervised recognition of risk factors for heart disease from EHRs[J]. Journal of Biomedical Informatics，2015.58：S111-S119

[3] Xu K， Zhou Z， Hao T， et al. A Bidirectional LSTM and Conditional Random Fields Approach to Medical Named Entity Recognition[J].2017.

[4] 李麗雙，郭元凱.基于CNN-BLSTM-CRF 模型的生物醫學命名實體識別[J].中文信息學報，2018.32（1）：116-122

[5] 張晗，郭淵博，李濤.結合GAN與BiLSTM-Attention-CRF的領域命名實體識別[J].計算機研究與發展，2019.9.

[6] Kim Y. Convolutional neural networks for sentence

classification[C].Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing（EMNLP），2014：1746-1751

[7] BansalT，BelangerD，Mccallum A. Ask the GRU： multi-task

learning for deep text recommendations[C]. The 10th ACM Conference on Recommender Systems （RecSys）， 2016：107-114

[8] Zhou P， Shi W， et al. Attention-Based Bidirectional Long

Short-Term Memory Networks for Relation Classification[C]. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics （Volume 2：Short Papers），2016.

[9] Zhang Y，YuanH，WangJ，et al. YNU-HPCC at EmoInt-

2017：Using a CNN-LSTM model for sentiment intensity prediction[C]. Proceedings of the 8th Workshop on Computational Approaches to Subjectivity， Sentiment and Social Media Analysis，2017：200-204

[10] Li Y，WangX，XuP，et al. Chinese text classification model

based on deep learning[J]. Future Internet，2018.10（11）：113

[11] Wu F， Liu J， Wu C， et al. Neural Chinese Named Entity

Recognition via CNN-LSTM-CRF and Joint Training with Word Segmentation[J]. 2019.

[12] Zhang Z， Zhan S， Zhang H， et al. Joint model of entity

recognition and relation extraction based on artificial neural network[J]. Journal of Ambient Intelligence and Humanized Computing，2020：1-9

[13] Vaswani A， Shazeer N， Parmar N， et al. Attention is all

you need[C].Advances in neural information processing systems，2017：5998-6008

收稿日期：2020-08-31

基金項目：浙江省交通運輸廳科研計劃項目（ZJXL-JTT-2019061）

作者簡介：范曉武（1972-），男，浙江紹興人，碩士，高級工程師，主要研究方向：交通大數據應用和智慧高速車路協同。

計算機時代2021年1期

計算機時代的其它文章: 基于熱力圖的公共自行車站點時間與用戶類型分析; 區塊鏈技術面臨的挑戰及其應對策略研究; 基于X射線圖像的LED芯片邦定線斷裂缺陷的自動檢測方法研究; 基于二階差分的頻域濾波反銳化增強算法; 基于ResNet網絡的東巴象形文字識別研究; 基于Opensim的柔性外骨骼機器人的模擬仿真