王麗亞 陳哲



摘要: 提出一種基于中文BERT-wwm-ext嵌入的BIGRU網絡模型。利用中文BERT-wwm-ext得到字向量,加強了模型對深層次語言表征的學習能力。將得到的字向量輸入到BIGRU網絡中,進一步學習上下文語義特征。將模型預測的邊界分數向量利用解碼算法轉化成最終的答案。在多組數據集上做對比實驗表明,所提模型能有效地提高中文意見目標提取的準確率。
關鍵詞: BERT-wwm-ext; BiGRU; 邊界預測; 中文意見目標提取
中圖分類號:TP391? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)05-94-05
Chinese opinion target extraction based on BERT_BiGRUboundary prediction
Wang Liya1, Chen Zhe2
(1. College of artificial intelligence,Zhejiang Industry & Trade Vocational College, Wenzhou, Zhejiang 325003, China;
2. College of Computer Science and Engineering, Wuhan Institute of Technology)
Abstract: In this paper, a BIGRU network model based on Chinese BERT-wwm-ext embedding is proposed. First, the word vectors are obtained by using Chinese BERT-wwm-ext, which strengthens the learning ability of the model for deep level language representation. Then, the obtained word vectors are input into the BIGRU network to further learn the context semantic features. Finally, the boundary score vectors predicted by the model are converted into the final answers using the decoding algorithm. The experimental results show that the proposed model can effectively improve the accuracy of Chinese opinion target extraction.
Key words: BERT-wwm-ext; BiGRU; boundary prediction; Chinese opinion target extraction
0 引言
意見目標提取(OTE)[1]是意見挖掘和情感分析的基本任務,是自然語言處理(NLP)領域的研究熱點。意見目標提取主要是對文本中表達意見的主體進行抽取。例如文本“煙臺最好吃的烤翅尖就在所城里阿宋燒烤。滿墻都是老煙臺的剪貼畫,招牌菜就是烤翅尖。”是對目標“阿宋燒烤”表達建議。OTE任務就是對文本中意見目標“阿宋燒烤”的提取。傳統方法將意見目標提取建模為序列標簽任務。意見目標提取任務要求從文本中定位出意見表達的目標,目標片段由文本中的一個片段組成的情況,因此,本文把該任務重新建模為邊界預測任務,預測出文本中兩個位置索引去指示答案的起始和結束位置。在抽取過程中避免了繁瑣的序列標記操作。
1 相關研究
傳統的意見目標提取方法可分為三類:基于規則[2]、基于統計[3]、基于規則和統計相結合[4]。但是這三種方法具有很強的局限性,過于依賴人工制定的規則,過程復雜。而基于深度學習的方法不再依賴于人工特征,減少了人力代價,提高了工作效率。
Liu等人[5]利用遞歸神經網絡(RNN)和單詞嵌入來提取意見目標。Poria等人[6]引入深度卷積神經網絡(CNN)并結合語言模式以實現更好的性能。Wang等人[7]2016年提出RNCRF模型,由遞歸神經網絡和CRF組成。Li等人[8]2018年提出基于字符的BILSTM-CRF結合POS和字典用于中文意見目標提取。在3組共10萬條數據上進行實驗,并與最流行的抽取框架BILSTM_CRF模型比較,證明其方法是最佳的。
但是以上基于深度學習的方法將OTE任務建模為序列標記任務,且文本表示利用單詞嵌入或字嵌入,對語言表征學習深度不夠。
Devlin等人[9-10]受神經概率語言模型[11]思想的啟發提出BERT(Bidirectional Encoder Representations from Transformers)模型。BERT刷新了11項NLP任務的性能記錄。可以預見的是,BERT將為NLP帶來里程碑式的改變,也是NLP領域近期最重要的進展。針對中文文本,Sun等人[12-13]2019年提出ERNIE模型,是BERT在中文NLP任務上的改進。提出了命名實體級遮罩的概念,對BERT的遮罩語言模型在遮罩方式上進行了修改。近期,Cui等人[14]提出BERT-wwm模型,緊跟谷歌在2019年5月31日發布的一項BERT的升級版本,利用全詞覆蓋(Whold Word Masking,WWM)技術,更改了原預訓練階段的訓練樣本生成策略,針對中文文本使用了WWM技術,在中文維基百科(包括簡體和繁體)進行訓練。
預訓練語言模型會直接影響方法的效果。所以本文針對中文短文本,將OTE任務重新建模為邊界預測任務,使OTE任務不依賴于序列標記。引入中文版BERT對語言表征進行預訓練,加強了模型的語言表征學習能力。在此基礎上添加BIGRU網絡,進一步學習文本的語義特征。最后將模型預測的邊界分數向量利用解碼算法轉化成最終的答案輸出。實驗使用Li等人[8]相同的數據集,在三組共10萬條數據上實驗結果表明,針對本文數據集,將OTE任務重新建模為邊界預測任務,BERT_BIGRU邊界預測方法在不依賴序列標記的基礎上,能有效的提高OTE任務的準確度。
2 BERT_BIGRU邊界預測
針對中文短文本將OTE任務重新建模為邊界預測任務。主要分為三部分:一是BERT預訓練語言模型,二是BIGRU模型,三是邊界預測。模型結構如圖1所示。
2.1 BERT預訓練語言模型
BERT模型使用多層Transformer的編碼器來作為語言模型,在語言模型預訓練的時候,提出了兩個新的目標任務,即遮擋語言模型(Masked Language Model,MLM)和預測下一個句子的任務。
本文采用的是哈工大訊飛聯合發布的全詞覆蓋中文BERT預訓練模型(BERT-wwm-ext)。此模型也采用了WWM技術,主要更改了原預訓練階段的訓練樣本生成策略,如果一個完整的詞的部分字被Mask,則同屬該詞的其他部分也會被Mask,即全詞覆蓋。但較之前的BERT-wwm模型,BERT-wwm-ext模型使用了更大規模的數據中文維基百科數據和通用數據訓練而成,進一步提升了預訓練語言模型的性能。WWM的生成樣例如表1所示。
BERT-wwm-ext模型中預測下一個句子的任務,即生成句子嵌入(segmentembedding)。每個序列的第一個標記始終是一個特殊的分類標記[CLS]。對應于該token的最終隱藏狀態(Transformer的輸出)被用作分類任務的聚合序列表示。用特殊標記[SEP]將它們分開。這樣句子對被打包成一個帶有兩標記的序列。在每個標記上,添加一個學習嵌入,指示它是否屬于句子A或句子B。
BERT-wwm-ext模型使用12層Transformer編碼器。對于給定的字,BERT-wwm-ext模型通過深層Transformer編碼器獲得字嵌入(token embeddings)、句子嵌入(segment embeddings)和位置嵌入(position embeddings),然后將三者相加作為該字的輸入嵌入(input embedding)。具體結構可視化如圖2所示。
2.2 BIGRU網絡
BERT_BIGRU模型直接使用BERT層的輸出作為BIGRU層的輸入。若記t時刻正向GRU輸出的隱藏狀態為[ht],反向GRU輸出的隱藏狀態為[ht],則BiGRU輸出的隱藏狀態[ht],具體計算過程如下:
[ht=GRU(ht-1,Ut)] ⑴
[ht=GRU(ht-1,Ut)] ⑵
[ht=wtht+vtht-1+bt] ⑶
其中,[wt,vt]是權值矩陣,GRU:GRU函數,[Ut]:t時刻的GRU輸入,[bt]:偏置向量。
2.3 邊界預測
邊界預測模塊對意見目標的邊界進行建模。文本通過BERT_BIGRU網絡被表示為一個矩陣[H=h+h]。通過兩個全連接層(Dense Layer)得到文本中每個字的兩個分數向量,[starti]代表文本的第i個字作為意見目標項起始的概率,[endi]表示文本的第i個字作為意見目標項結束的概率,start和end通過相同結構不同參數計算得出。本文采用交叉熵損失函數,用來評估當前訓練得到的邊界概率分布與真實目標邊界分布的差異情況,對模型進行優化訓練。過程如下:
[Losss=-1Ni[ysilnstarti+(1-ysi)ln(1-starti)]]? ⑷
[Losse=-1Ni[yeilnendi+(1-yei)ln(1-endi)]]? ⑸
[Loss=Losss+Losse] ? ⑹
其中,[ysi]和[yei]是真實意見目標邊界的指示。
將OTE任務重新建模為邊界預測任務。由于OTE任務需要輸出的是具體目標實體片段,而BERT_BIGRU模型的預測結果是兩個分數向量,則需要解碼算法將分數向量轉化成最終的目標實體輸出。
利用兩個softmax分別預測結果首尾,選擇概率最大的片段。softmax函數如下:
[softmaxx=exp(x-max(x))/sum(exp(x-max(x)))] ⑺
3 實驗
3.1 實驗數據
數據[16]來自百度(baidu)、點評(dianping)、馬蜂窩(mafengwo)這三個互聯網公司,具體數據集設置如表2所示。
3.2 評價指標
實驗所用評價指標為Accuracy、Precision、Recall、F1,其值越高,代表模型分類能力越好。定義TP:為模型識別完全正確的實體個數,FP:為模型識別出的結果包含正確的實體,但邊界判定出現錯誤的個數,FN:識別錯誤的個數。評價指標公式如下:
[Accuracy=TP/(TP+FP+FN)]? ⑻
[Precision=TP/(TP+FP)]? ⑼
[Recall=TP/(TP+FN)]? ⑽
[F1=2*(Precision*Recall)/(Precision+Recall)]? ⑾
經觀察抽取結果,本文模型在實驗過程中不存在抽取為空的情況,在計算FP時注意了抽取結果不存在原句,且容錯字符個數小于10,為避免指標計算理解差別,這里給出具體的打分代碼算法。見表3。
3.3 實驗結果與分析
文獻[8]中的工作,已針對相同數據集設置了多組詳細的對比實驗,其中包括了最流行的抽取框架BILSTM_CRF模型。并證明其方法是最佳的。所以,本文直接與其對比。
⑴ BILSTM_CRF[8]:建模為序列標記任務。首先生成字符位置信息特征([CP-POS]@C)并構建字典特征(DictFeature),最后將[CP-POS]@C和DictFeature整合到基于Word2vec字符嵌入的BILSTM_CRF模型中。
⑵ BERT:建模為邊界預測任務。與本文唯一差別是神經網絡模型為BERT-wwm-ext模型加普通Dense層。
⑶ BERT_BIGRU:建模為邊界預測任務。本文方法。
為了測試模型的有效性,在實驗過程中,所有模型都執行相同的數據預處理和分類器。測試集的實驗結果如表4所示。
表4顯示了3組模型在測試集上的對比結果。從綜合評測指標Accuracy、F1上來看。第一組與第二組的比較可知,對意見目標提取任務重新建模為邊界預測任務的方法更優。基于BERT邊界預測的方法引入BERT-wwm-ext模型進行語言表征學習,再結合線性網絡層,得到邊界預測的分數向量,最后利用兩個softmax分別預測結果首尾,選擇概率最大的片段。相對第一組實驗,減少了預處理部分對生成字符位置信息特征([CP-POS]@C)和構建字典特征(DictFeature)的工作,即很大程度上減少了繁瑣的特征生成工程。
第三組與第二組的比較,三個數據集,BERT_BIGRU模型在點評數據集上稍低,即Accuracy值低0.0007、F1值低0.0004。但在百度、馬蜂窩兩個數據集上均高于BERT模型,所以在一定程度上,添加BIGRU網絡學習文本上下文語義特征有利于提高模型對文本邊界預測的準確度。綜上,本文提出的BERT_BIGRU模型比其余二組模型更優。
為了量化模型的優劣,本文在測試集上進行預測。預測值統計結果如表5所示。Right為模型提取完全正確的樣本總數,Wrong為模型提取錯誤的樣本總數。另外,本文實驗結果及模型最優的權重已分享至谷歌云盤[17]。
4 總結
本文提出了一種基于BERT_BIGRU邊界預測的中文意見目標提取方法。將意見目標提取任務建模為邊界預測任務,并引入BERT-wwm-ext模型進行語言預訓練,且添加BIGRU網絡學習文本上下文語義特征,有利于提高模型對目標實體邊界預測的準確度。實驗在百度、點評、馬蜂窩三個共10萬條數據集上進行訓練和測試,結果表明BERT_BIGRU邊界預測方法在不依賴數據序列標記的基礎上,將準確度提高近8%,能有效地提高中文意見目標提取的準確率,但由于BERT模型的復雜化,一定程度上增加了模型時間代價。今后研究如何提高抽取工作的準確率且時間代價更小的模型,是下一步工作的目標。
參考文獻(References):
[1] Kang Liu, Liheng Xu, and Jun Zhao. Opinion target
extraction using word-based translation model. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, EMNLP-CoNLL 2012, July 12-14, 2012, Jeju Island, Korea,2012:1346-1356
[2] Feng Chunsheng, Hao Aimin. Automaric Recognition of
Natural Language Based on Pattern matching[J]. Computer Engineering and Applications,2006,42(19):144-146
[3] Liu Zhiqiang, Du Yuncheng, Shi Shuicai. Extraction of Key
Information in Web News Based on Improved Hidden Markov Model[J].Data Analysis and Knowledge Discovery,2019(3):120-128
[4] Cheng Zhigang. Research on Chinese Named Entity
Recognition Based on Rules and Conditions Random Fields[D]. Central China Normal University,2015
[5] Pengfei Liu, Shafiq R. Joty, and Helen M. Meng. Fine-
grained opinion mining with recurrent neural networks and word embeddings. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015,Lisbon, Portugal, September 17-21,2015:1433-1443
[6] Soujanya Poria, Erik Cambria, and Alexander F. Gelbukh.
Aspect extraction for opinion mining with a deep convolutional neural network. Knowl.-Based Syst.,2016,108:42-49
[7] Wenya Wang, Sinno Jialin Pan, Daniel Dahlmeier, and
Xiaokui Xiao. Recursive neural conditional random fields for aspect-based sentiment analysis.In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, EMNLP 2016, Austin, Texas, USA, November 1-4,2016:616-626
[8] Yanzeng Li, Tingwen Liu, Diying Li, et al. Character-
based BiLSTM-CRF Incorporating POS and Dictionaries for Chinese Opinion Target Extraction. Asian Conference on Machine Learning,ACML,2018:518-533
[9] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of
deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805,2018
[10] https://github.com/google-research/bert.
[11] Bengio Y, Ducharme R, Vincent P. A neural probabilistic
language model[J]. Journal of machine learning research,2003,3:1137-1155
[12] Sun Y, Wang S, Li Y, et al. ERNIE: Enhanced
Representation through Knowledge Integration[J]. arXiv preprint arXiv:1904.09223,2019
[13] https://github.com/PaddlePaddle/ERNIE.
[14] Yiming Cui, Wanxiang Che, Ting Liu, et al. Pre-Training
with Whole Word Masking for Chinese BERT[J]. arXiv preprint arXiv:1906.08101,2019
[15] https://github.com/ymcui/Chinese-BERT-wwm.
[16] https://github.com/kdsec/chinese-opinion-target-
extraction
[17] https://drive.google.com/drive/folders/1t7jFhO2T_-
UfmBzcXCHU2QLDnRvo4QIj?usp=sharing