融合了問句釋義和詞級別注意力的關系檢測模型

2019-10-08 06:43:30李寬宇袁健沈寧靜

軟件 2019年5期

李寬宇袁健沈寧靜

摘 ?要：在知識庫問答系統任務中，由于自然語言表達方式的多樣性與復雜性，語義相同表達方式不同的問句得到的答案可能不同，生成問句釋義可以緩解這一問題。其次，關系檢測是知識庫問答系統中至關重要的一步，問答系統回答問題的準確性主要受這一步驟的影響，傳統的基于注意力機制的關系檢測模型沒有考慮到答案路徑不同抽象級別的不同重要程度。因此，本文提出了基于問句釋義和詞級別注意力機制的關系檢測模型，用于知識庫問答系統任務中，實驗表明本文模型回答問題準確率較高。

關鍵詞：問句釋義;詞級別注意力;關系檢測;知識庫問答系統

中圖分類號： TP391.1 ? ?文獻標識碼： A ? ?DOI：10.3969/j.issn.1003-6970.2019.05.013

本文著錄格式：李寬宇，袁健，沈寧靜. 融合了問句釋義和詞級別注意力的關系檢測模型[J]. 軟件，2019，40（5）：7176

【Abstract】： In the knowledge base question answer system， due to the diversity and complexity of natural language expression， the question with the same semantic but different expressions may yield different answer. The generation of paraphrase can alleviate this problem. Secondly， relation detection is a crucial step in the knowledge base question answer system. The accuracy of the question answering system to answer questions is mainly affected by this step. The traditional attention-based relation detection model does not take into account the importance of different part of the different abstract levels of the answer path expression. Therefore， this paper proposes a relation detection model based on paraphrase and word-level attention mechanism， which is used in the knowledge base question answer system end task. Experiments show that the model has higher accuracy in answering questions.

【Key words】： Paraphrase; Word-level attention; Relation detection; KB-QA

0 ?引言

知識庫問答系統以自然語言為基本輸入方式，給用戶返回一個精準的答案。隨著越來越多的大規模知識庫的發展，比如像Freebase[1]、yago[2]、DBpedia[3]，基于知識庫的問答系統使得傳統的搜索引擎處于深度變革的尖端。不同于現有的基于關鍵字匹配的搜索方式，基于知識庫的問答系統需要從語義角度對自然語言進行理解，然后從知識庫中進行推理查詢找出問題答案。常見的基于知識庫的問答系統大致遵循兩個步驟：（1）實體鏈接，將問句中的主題詞對應到知識庫中的節點實體，找出包含問題答案的候選知識庫子圖。（2）關系檢測，檢查知識庫中某個節點到主題詞節點之間的路徑是否與問句中的謂詞相匹配。

在自然語言表達中，相同的意思可以有多種不同的表達方式，例如“阿里巴巴的創始人是誰？”和“誰創建了阿里巴巴？”。這種情況在問答系統中普遍存在，對于語義相同但表達方式不同的句子，問答系統給出的答案可能會不同。在關系檢測這一子任務中，需要依據某些規則對問句和知識庫子圖中候選答案到主題詞節點之間的路徑進行信息抽取，利用深度學習方式進行自動特征提取是近幾年主流的研究方向，首先需要對自然語言問句和候選答案進行向量化建模，考慮到問句不同部分具備不同的重要程度，因此在深度學習模型中引入注意力機制。對于答案路徑的向量化表示中，有兩種不同抽象級別的表示方法，一種是關系級別表示法，另一種是詞級別表示法，前者更考慮的是與問句全局語義信息進行匹配，而后者考慮的局部信息的匹配，目前很多文章結合這兩種不同抽象級別的表達方式。傳統注意力機制只考慮了問句各部分的注意力程度，沒有考慮到不同表達方式問句適合用不同抽象級別答案路徑表示來與它進行匹配。

為解決以上問題，本文為知識庫問答系統提出了一種基于融入了問句釋義（paraphrase）和詞級別注意力的關系檢測模型，用問題-答案對進行端到端的訓練，將整個模型分成釋義預測和關系檢測模型兩個部分，實驗表明本文模型能提高問答系統回答問題的準確率。

1 ?相關研究

現有的知識庫問答系統主要有兩大分支：（1）基于語義分析的方式，例如有文獻[4]文獻[5]。（2）基于信息檢索的方式，例如有文獻[6]文獻[7]。基于語義分析方式為了將自然語言翻譯成包含語義信息的邏輯形式，需要大量帶注解的邏輯形式作為訓練數據，嚴重消耗人工成本。

語義分析方式最主要的缺點沒有利用到知識庫提供的背景知識，為此，Yao和Van Durme等人[6]提出信息檢索的方法，通過實體鏈接縮小了查找范圍。針對關系檢測這一步驟，最開始Yao和Van Durme通過手工構建問題與候選答案路徑的特征，構造分類器對問句中的關系謂詞進行識別，再與候選答案路徑進行相似度匹配。為減少人工成本bordes等人[8]將問題和答案路徑都映射到低維空間，通過模型的訓練，學習到它們的向量化表示，向量相似度最高的那條答案路徑對應的節點作為問題的答案。

用深度學習模型在知識庫問答系統當中進行關系檢測是目前主流的方法，Zeng等人[9]用CNN-RNN（卷積神經網絡-循環神經網絡）網絡提取問句特征，依據候選關系對問句關系類型進行分類，Bordes等人[15]將自然語言問句與候選答案路徑用神經網絡映射到相同維度的向量空間，然后比較他們的相似度，Wang等人[10]在此基礎上加入注意力機制對反應實體關系更重要的詞基于更大的權重，從而提高關系檢測的精度，Dong等人[9]用卷積神經網絡（CNN）對自然語言進行建模，依據候選答案的三個方面分別求得相同問句不同部分不同的注意力權重，簡單的將答案路徑表示為固定的向量。

大多數深度學習方法都需要對自然語言和候選答案的答案路徑進行相似度評估，在這之前需要對問句和路徑信息進行向量化建模，以上這些方法重點在于對問句的向量化建模，對于答案路徑的向量化表示，主要有兩類，第一類將關系表示為一種語義單元，用提前訓練好的神經網絡模型例如TransE[12]生成它的向量化表示，另一類將關系表示為一系列的單詞或者是一系列符號[13]，與自然語言共享詞嵌入，Yu等人[14]結合了兩種不同的表示方法，但不能求得答案路徑不同抽象級別的部分的注意力權重。

為了解決語義相同表達方式不同的問句獲得的答案不同這一問題，很多深度學習模型將問句和它的釋義都輸入到問答系統模型當中進行訓練，以求得問句與它的釋義相似的向量化表示，如文獻[9]文獻[15]。現有的問句釋義生成模型有很多，但將生成所有的釋義同等看待并不合理，為此Chen等人[17]構建語法特征來評估其與原問句之間的相似性，Narayan等人[18]提出了一種基于深度學習的相似性評估模型，將與問句相似度高的釋義作為最終的釋義。然而這些模型沒有充分利用問題答案對這種監督數據，生成的釋義不能放到問答系統任務中檢驗其有效性。

本文提出了一種融合問句釋義和答案路徑詞級別注意力模型，將模型分成兩個模塊：（1）首先生成問句的釋義，基于神經網絡的評估模型評估其與原問句之間的語義相似度，將問句與它的釋義作為問答系統的輸入，來預測候選答案子圖中的答案概率分布，整個系統用問題-答案作為訓練數據進行端到端的訓練。（2）用已有的實體鏈接系統得到候選答案子圖，然后用Bi-LSTM為自然語言和候選答案路徑進行向量化建模，用交叉注意力模型求得他們之間的詞級別注意力得分，最終求得他們之間帶權重的向量化表示，用點乘積求它們之間的相似性得分，得分最高的作為最終答案。

2 ?模型概述

自然語言問句表示為q，答案表示為a。模型先通過實體鏈接找到對應的候選答案知識庫子圖，然后對這些候選答案求概率分布，即求，概率最高的即為問題的答案。本文將整個問答系統分解成問句與釋義語義相似度評估模塊和問答系統模塊，將分解為公式1。

Yih等人[13]提出的AMPCNN模型用CNN（卷積神經網絡）最大池化操作對問句進行編碼，在當時的基于答案路徑注意力的一系列關系檢測模型中取得了最高的準確度。Yu等人[14]利用了不同抽象級別的答案路徑表示，為匹配不同抽象級別的答案路徑表示，用HR-Bi-LSTM網絡為問句進行建模。Zhang等人[20]提出的ABWIM模型，讓比較操作在問句和答案路徑的詞級交互信息上進行。本文模型同樣利用了問句與答案路徑的詞級交互信息，并且受益于融入問句釋義這種端到端訓練方式，增加了問句與謂詞之間重疊的可能性，即使原問句不能生成正確答案，但它的某個釋義卻能生成正確答案，因此模型的精確度會提高。

（2）模型消融分析

為分析模型不同部分所起的作用，將對應部分替換為普通方法，并進行對比實驗，結果如表3所示。

無注意力的模型將注意力矩陣中注意力權重都置為1，基于路徑的注意力的模型只求問句不同部分的注意力權重，沒有求答案路徑方面的注意力得分，實驗結果說明注意力機制在對于提高關系檢測模型的準確度具有相當的作用，并且詞級別注意力機制不僅求得更精確的問句向量表示，而且能更加精確地求得答案路徑向量。本文的這種問句釋義模型使得準確度提高了0.5%，說明本文這種融入問句釋義的端到端訓練模型具有一定作用。

5 ?結論

關系檢測模型是知識庫問答系統中最重要的一步，這一步的準確率直接影響知識庫問答系統回答問題的準確度。從實驗結果來看，可以得出如下結論：（1）同時使用詞級別和關系級別的答案路徑表示法，能充分匹配不同表達形式的問句。（2）若模型能充分利用問句與答案路徑的詞級別交互信息，并且求得帶權重的細粒度的問句和答案路徑向量表示法，對于提高關系檢測的準確度起到非常大的作用。（3）本文融入的問句釋義模型，并利用端到端的訓練，生成了新的訓練數據，提高了模型的準確度。

參考文獻

[1] Bollacker， Kurt， Evans， Colin， Paritosh. Freebase： a colla-boratively created graph database for structuring human kno?w?ledge[C]// Sigmod Conference. 2008.

[2] Fabian M. Suchanek， Gjergji Kasneci， Gerhard Weikum. Yago： a core of semantic knowledge[C]// International Confere?nce on World Wide Web. 2007， pp. 697-706.

[3] Sren Auer， Christian Bizer， Georgi Kobilarov， Jens Lehmann， Richard Cyganiak， Zachary . DBpedia： A Nucleus for a Web of Open Data[C]// Semantic Web， International Semantic Web Conference， Asian Semantic Web Conference， Iswc + Aswc， Busan， Korea， November. 2007.

[4] Jonathan Berant， Andrew Chou， Roy Frostig， and Percy Liang. 2013. Semantic parsing on freebase from question- answer pairs[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. 2013： 1533-1544.

[5] Wen-tau Yih， Xiaodong He， and Christopher Meek. Semantic parsing for single-relation question answering[C]//Proc?eedings of the 52nd Annual Meeting of the Association for Computational Linguistics （Volume 2： Short Papers）. 2014， 2： 643-648.

[6] Xuchen Yao and Benjamin Van Durme. Information extrac-tion over structured data： Question answering with freebase[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. 2014， 1： 956-966.

[7] Kun Xu， Yansong Feng， Songfang Huang， and Dongyan Zhao. Hybrid question answering over knowledge base and free text[C]//Proceedings of COLING 2016， the 26th International Conference on Computational Linguistics： Technical Papers. 2016： 2397-2407.

[8] Antoine Bordes， Sumit Chopra， and Jason Weston. 2014a. Question answering with sub-graph embeddings[C]//Proc-eedings of the 2014 Conference on Empirical Methods in Natural Language Processing （EMNLP）. Association for Computational Linguistics， pages 615-620.

[9] Daojian Zeng， Kang Liu， Siwei Lai， Guangyou Zhou， and Jun Zhao. 2014. Relation classification via convolutional deep neural network[J]. In Proceedings of COLING 2014， the 25th International Conference on Computational Linguistics： Tec?hni?cal Papers. Dublin City University and Association for Computational Linguistics， Dublin， Ireland， pages 2335- 2344.

[10] Li Dong， Furu Wei， Ming Zhou， and Ke Xu. Question answering over freebase with multi-column convolutional neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing （Volume 1： Long Papers）. 2015， 1： 260-269.

[11] Linlin Wang， Zhu Cao， Gerard de Melo， and Zhiyuan Liu. Relation classification via multi-level attention cnns[J]//Pro-ce?edings of the 54th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）. Asso-ciation for Computational Linguistics， Berlin， Germany. 2016， pages 1298-1307.

[12] Antoine Bordes， Nicolas Usunier， Alberto Garcia-Duran. Translating embeddings for modeling multi-relational data[C]//Advances in neural information processing systems. 2013： 2787-2795.

[13] Wenpeng Yin， Mo Yu， Bing Xiang， Bowen Zhou， Hinrich Schütze， Simple question answering by attentive convolu-tional neural network[J]. arXiv preprint arXiv： 1606.03391， 2016.

[14] Mo Yu， Wenpeng Yin， Kazi Saidul Hasan， Cicero dos Santos， Bing Xiang， Bowen Zhou. Improved Neural Relation Detec?tion for Knowledge Base Question Answering[J]. In Procee?dings of the 55th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）， Associa?tion for Computational Linguistics， Vancouver， Canada， 2017， pp. 571-581.

[15] Antoine Bordes， Jason Weston， Nicolas Usunier. Open Question Answering with Weakly Supervised Embedding Models[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer-Verlag New York， Inc. 2014.

[16] Shashi Narayan， Siva Reddy， and Shay B Cohen. Paraphrase generation from Latent-Variable PCFGs for semantic parsing[J]. arXiv preprint arXiv： 1601.06068， 2016.

[17] Bo Chen， Le Sun， Xianpei Han， and Bo An. Sentence rewriting for semantic parsing [C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics （Volume 1： Long Papers）， 2016， pages 766-777.

[18] Ellie Pavlick， Pushpendre Rastogi， Juri Ganitkevitch， Benjamin Van Durme， and Chris Callison-Burch. PPDB 2.0： Better paraphrase ranking， fine-grained entailment relations， word embeddings， and style classification[C]//Proceedings of the 53rd Annual Meeting of the Association for Computa?tional Linguistics and the 7th International Joint Conference on Natural Language Processing （Volume 2： Short Papers）. 2015， 2： 425-430.

[19] Dzmitry Bahdanau， Kyunghyun Cho， and Yoshua Bengio. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv： 1409.0473， 2014.

[20] Zhang Hongzhi， Xu Guangdong， Liang Xiao， et al. An Attention-Based Word-Level Interaction Model： Relation Detection for Knowledge Base Question Answering[J]. arXiv preprint arXiv： 1801. 09893， 2018.

軟件2019年5期

軟件的其它文章: 數據庫中存儲過程教學探討; 基于MIMU的FastICA算法鉆頭故障振動信號分析; 移動互聯網技術在高校思政課教學中的輔助作用探討; 基于52單片機的農田溫濕度監測系統; 基于JMP的神經網絡設計實例分析; 高墩大跨連續剛構橋地震響應參數分析