999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機制的改進CLSM檢索式匹配問答方法

2019-08-01 01:54:12于重重曹帥潘博張青川徐世璇
計算機應用 2019年4期

于重重 曹帥 潘博 張青川 徐世璇

摘 要:針對檢索式匹配問答模型對中文語料適應性弱和句子語義信息被忽略的問題,提出一種基于卷積神經網絡潛在語義模型(CLSM)的中文文本語義匹配模型。首先,在傳統CLSM基礎上進行改進,去掉單詞和字母的N元模型層,以增強模型對中文語料的適應性;其次,采用注意力機制算法,針對輸入的中文詞向量信息建立實體關注層模型,以加強句中核心詞的權重信息;最后,通過卷積神經網絡(CNN)有效地捕獲輸入句子上下文結構方面信息,并通過池化層對獲取的語義信息進行降維。基于醫療問答對數據集,將改進模型與傳統語義模型、傳統翻譯模型、深度神經網絡模型進行對比,實驗結果顯示所提模型在歸一化折現累積增益(NDCG)方面有4~10個百分點的提升,優于對比模型。

關鍵詞:潛在語義模型;注意力機制;檢索式匹配問答

中圖分類號:TP391

文獻標志碼:A

文章編號:1001-9081(2019)04-0972-05

Abstract: Focusing on the problem that the Retrieval Matching Question and Answer (RMQA) model has weak adaptability to Chinese corpus and the neglection of semantic information of the sentence, a Chinese text semantic matching model based on Convolutional neural network Latent Semantic Model (CLSM) was proposed. Firstly, the word-N-gram layer and letter-N-gram layer of CLSM were removed to enhance the adaptability of the model to Chinese corpus. Secondly, with the focus on vector information of input Chinese words, an entity attention layer model was established based on the attention mechanism algorithm to strengthen the weight information of the core words in sentence. Finally, Convolutional Neural Network (CNN) was used to capture the input sentence context structure information effectively and the pool layer was used to reduce the dimension of semantic information. In the experiments based on a medical question and answer dataset, compared with the traditional semantic models, traditional translation models and deep neural network models, the proposed model has 4-10 percentage points ?improvement in Normalized Discount Cumulative Gain (NDCG).

Key words: Convolutional Latent Semantic Model (CLSM); attention mechanism; Retrieval Matching Question and Answer (RMQA)

0?引言

檢索式匹配問答系統的研究伴隨搜索引擎技術的發展不斷推進。1999年,隨著文本信息檢索會議中自動問答任務(Text REtrieval Conference (Question & Answering track), TREC(QA))[1]的發起,檢索式匹配問答系統迎來了真正的研究進展。TREC(QA)的任務是給定特定Web數據集,從中找到能夠回答問題的答案。這類方法是以檢索和答案抽取為核心的問答過程,具體過程包括問題分析、篇章檢索和答案抽取[2]。

根據答案抽取方法的不同,現有的檢索式匹配問答系統可以分為兩類[3]:第一類是基于模式匹配和統計文本信息抽取的問答方法。該方法需要人工線下設定好各類問題答案的模式,需要構建大量的問答模式,代價高。第二類是利用神經網絡模型對文本作語義表示后進行語義匹配的方法。2013年Huang等[4]針對搜索引擎中問答之間的語義匹配問題,提出了基于多層感知器的深度語義表示模型(Deep Structured Semantic Model, DSSM)。在DSSM中,輸入層是基于文本的詞袋向量,該模型忽略了文本中的詞法、句法和語法信息,將其僅僅看作詞的多種組合,這樣就無法捕捉句子的上下文信息。基于此,2014年Shen等[5]對DSSM作出改進,提出了一種基于卷積神經網絡的隱語義模型(Convolutional Latent Semantic Model, CLSM)。該模型將文本的語義信息加入到檢索問答過程中,有效地提高了檢索式問答模型的精確度。2016年CLSM得到了廣泛應用,如用它來捕捉目標語言在局部上下文或者全局上下文中的含義[6],也有人用它來構建推薦系統[7]。

CLSM是基于英文文本作出的改進:其中字母N元組合模型主要是針對大量不同的英文單詞,從中提取出多種字母組合,對其進行特征提取。然而中文漢字的個數遠遠超過了英文字母的個數,漢字的組合數更是遠遠超過了英文字母的組合數,因此通過原始CLSM很難對中文文本進行語義特征提取。本文結合中文語料的特點,提出了一種基于注意力機制的改進CLSM檢索式匹配問答模型,該模型一方面解決了由于中文漢字遠遠多于英文字母而導致的文本特征難提取問題;另一方面加入了基于命名實體的注意力機制,能有效提高匹配問答結果的準確率。

1?CLSM

如圖1所示,CLSM主要是將一個潛在語義空間中任意長度的詞語序列所包含的語義信息映射成一個低維向量。

圖1中:90k表示在不包含下劃線和標點符號的情況下;字母的N元模型層維度是90k;卷積層以及池化層的維度均為300;最終輸出語義信息的維度是128。

CLSM主要由五個部分構成:

1)單詞的N元模型層。此部分的作用是通過一個自定義大小的滑動窗口將輸入的文本序列劃分為多個固定長度的單詞組合。

2)字母的N元模型層。此部分的作用是將第1)步中的單詞組合轉換為由字母組合的向量表示。Wf是轉移矩陣。對于單詞N元模型層中的第t個N元單詞組合,其對應的N元字母組合表示為:

3)卷積層。該層通過自定義大小的滑動窗口將基于每個單詞的N元字母特征lt轉換為其在上下文中的特征向量ht。

4)最大池化層。通過最大池化將單詞在上下文中的特征向量ht轉化為一個固定長度的句子級特征向量v。

5)語義層。為輸入的單詞序列提取高級特征語義向量y。

CLSM是基于英文文本提出的語義特征提取模型,其單詞N元模型層和字母N元模型層都是為了提取英文文本中的特征信息,然而中文文本中漢字的組合數量遠遠超過了英文字母的組合數量,因此通過N元模型不能有效提取其重要特征。基于此,本文對CLSM進行了改進。

2?基于CLSM的改進模型

在CLSM中,CNN網絡扮演了極其重要的作用,對文本序列進行字母N元組合卷積。由于本文處理的是中文語料,其漢字組合總數遠多于字母組合總數,因此需要將中文語料進行分詞,將英文字母組合替換成中文詞組,用中文詞組作為文本序列基本單元。

除此之外,經過分詞之后的中文詞組種類繁多,其中含有大量的虛詞以及不相關的實詞,這些詞會嚴重影響模型的精度。因此本文首先通過命名實體識別方法得出文本序列中相關實體,然后構建實體關注層(Entity-attention Layer),目的就是為了更好地解析句子語義,提高模型的精確度。實體關注層的結構如圖2所示。

將Wi輸入CNN之后,模型訓練與CLSM相同。下面給出數據結構的形式化定義:

定義1?實體類型所對應的權重向量Wentity(t+i)定義為一個和輸入詞向量v(word(t+i))維度相同的向量。

定義2?實體關注層的輸出Wi指的是輸入詞向量矩陣Vx經過實體關注層后的輸出矩陣,包含句子本身的信息及其權重信息。

定義3?表示層的輸出y即為最終的語義輸出,其大小定義為128維。

步驟3?構建CLSM表示層。該層的輸入為步驟2中計算獲得的突出命名實體信息的矩陣Wi,通過與win=1×3進行卷積運算之后得到初步得到語義信息ht,最終輸出為y=tanh(Ws·max(ht))。

步驟4?最后借助語義匹配模型,通過計算向量余弦相似度來獲得問答對匹配度sim(ysrc, ytgt),其中ysrc代表問題的語義信息, ytgt代表回答的語義信息。

模型結構如圖3所示。依據經驗,本文將詞向量的維度設為300;卷積層和最大池化層的維度分別設置為300和128;學習效率初始值為0.01;卷積層的Filter的大小設為1×3,這樣既包含了上下文信息,也去除了冗余信息。其輸出是可變長度序列,長度與輸入序列的長度成比例。 在輸入序列的開始和結尾分別添加一個特殊的“填充”單詞〈s〉,目的是形成詞組序列中任何位置的單詞的完整窗口。

3?實驗與結果分析

3.1?實驗數據和評測指標

本文采用尋醫問藥網站上大規模的在線問答對數據作為訓練評估模型的數據集。問答對數據經過分詞和標簽替換等預處理后輸入模型。問答對有47萬對。數據分為三個部分:訓練集40萬對、驗證集4萬對、測試集3萬對。每個問答對中問句和答句的平均長度分別為25詞和50詞。問答對數據形式如表1所示。實體代表的是醫學領域的核心詞匯,比如疾病、癥狀的名稱等。如表2所示。

神經網絡的初始權重通過隨機初始化獲取。模型采用基于小批量隨機梯度下降的方法進行訓練,每個最小批次包括1024個訓練樣本。實驗使用雙重交叉驗證方法。模型的評估都是通過NDCG(Normalized Discounted Cumulative Gain)方法[9]來衡量的。NDCG常用于作為對排序結果的評價指標,當通過模型得出某些元素的順序時,便可以通過NDCG來測評這個排序結果的準確度,其計算公式如下:

其中:NDCG@K表示前K個位置累計得到的效益;lb (i+1)表示第i個位置上答案的影響因子的倒數;r(l)表示第l個答案的相關度等級,如3表示非常相關,2表示較相關,1表示相關,0表示無關,-1表示垃圾文件。

NDCG其實是由DCG的值計算得出的,由式(10)可看出,分子為模型計算出的Ranking的DCG值,分母為理想情況下的DCG值。

3.2?實驗設計

本文設計了三組對比實驗:1)與傳統語義模型的對比實驗。為了驗證本文模型的優越性,設計了在實驗數據集與模型參數均相同的情況下,本文模型與兩組傳統潛在語義模型的對比實驗。潛在語義模型只能以監督學習方式或非監督學習方式在文檔中學習,其中雙語主題模型(Bilingual Topic Model, BLTM)[10]是監督學習,而概率潛在語義分析模型(Probabilistic Latent Semantic Analysis, PLSA)[11]和文檔主題生成模型(Latent Dirichlet allocation, LDA)[12]是非監督學習。實驗結果如表3所示。

2)與傳統翻譯模型的對比實驗。目前,很多學者將問答對看成源語言和目標語言,通過用翻譯模型計算二者的短語與短語之間的對齊關系來建立簡單的問答匹配模型。因此,為了驗證本文的改進模型較傳統翻譯模型的優越性,設計了一個基于短語的翻譯模型(Phrase-based Translation Model, PTM)[13]和一個基于詞的翻譯模型(Word-based Translation Model, WTM)[14]的對比實驗,PTM旨在直接模擬多詞短語中的上下文信息。而WTM實質上是PTM的一個特例。實驗結果如表4所示。

3)與深度神經網絡模型的對比實驗。為了驗證改進之后模型的準確性,設計了基于深度神經網絡模型的對比實驗。本文模型是檢索式問答模型,也就是說從眾多候選答案中通過某種方法篩選出最符合要求的答案,理論上可以看作是對候選答案進行分類,因此加入一定數量的負樣本可以增強和驗證模型的檢索匹配的能力。在進行與深度神將網絡模型的對比實驗之前,本文按照以往的經驗分別將負樣本數設置為0~100,發現負樣本數為50時訓練效果最好,其次是4。因此,分別將J(代表負樣本數量)設置為50和4進行了對比實驗。實驗結果如表5所示。

3.3?結果分析

1)與傳統語義模型的對比實驗。從表3可看出,CLSM+entity_attention模型明顯優于傳統的潛在語義模型:在NDCG@1方面較PLSA提升了11個百分點,在NDCG@3方面較LDA提升了12個百分點,與BLTM相比,模型的平均精度提高了10個百分點。PLSA和LDA均采用了詞袋(bag of words)的方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉化為了易于建模的數字信息,導致詞與詞之間的順序信息丟失,這不僅簡化了問題的復雜性,也降低了模型的精度。本文提出的改進模型中通過卷積神經層恰當地解決了這一問題。

2)與傳統翻譯模型的對比實驗。從表4可看出,在檢索式問答場景下,PTM優于WTM;而CLSM+entity_attention模型與PTM和WTM相比,均有一定幅度的提升。近幾年來,在統計機器翻譯領域,基于短語的翻譯模型的性能優于基于詞的翻譯模型;但對于句子中非連續的固定搭配等問題仍然沒有得到有效的解決。本文通過自定義大小的滑動窗口來抽取句子中基于詞的上下文信息,然后通過最大池化層進行信息篩選,從而提升了模型的優越性。

3)與深度神經網絡模型的對比實驗。從表5可看出:CLSM+entity_attention模型較CLSM在NDCG方面有4個百分點的提升,說明實體關注層對模型的精確度提高具有極其重要的作用。在負樣本數量J的設置方面,分別進行了三組對比實驗:DSSM、CLSM以及CLSM+entity_attention,J=50時三者各自的NDCG@1和NDCG@2比J=4時均有一定幅度的提升,因此本文將J設置為50。

綜上所述,CLSM+entity_attention能夠通過實體關注層加強核心詞的信息,同時利用卷積神經網絡有效地捕獲語義匹配有用的上下文結構方面信息,從而提升檢索式匹配問答的準確率。

4?結語

CLSM的新型深度學習架構主要由CNN的卷積結構支撐,一般通過卷積層來提取句子級別的特征,通過最大池化層來提取N-gram級別的局部上下文特征。本文在此基礎上進行調整,加入了基于實體類型的關注層,同時與幾種最先進的語義模型進行比較,發現在大規模真實問答數據集上,改進的CLSM檢索式匹配問答模型可進一步提高模型對句子的語義理解能力,在NDCG方面有4%以上的提升。不過該模型仍然存在不足,即用于訓練模型的中文語料句子復雜度是不同的,本文主要針對簡單句進行了實驗,因此未來的工作將在原有基礎上加入基于知識圖譜的推理式方法,以提高模型應用的廣泛性。

參考文獻(References)

[1] AHN D D, JIJKOUN V, MISHNE G A, et al. Using Wikipedia at the TREC QA track[EB/OL]. [2018-05-10]. http://staff.science.uva.nl/~mdr/Publications/Files/uams-trec-2004-final-qa.pdf.

[2] 湯庸, 林鷺賢, 羅燁敏, 等. 基于自動問答系統的信息檢索技術研究進展[J]. 計算機應用, 2008, 28(11): 2745-2748. (TANG Y, LIN L X, LUO Y M, et al. Survey on information retrieval system based on question answering system[J]. Journal of Computer Applications, 2008, 28(11): 2745-2748.)

[3] GAO J F, HE X D, YIH W T, et al. Learning continuous phrase representations for translation modeling [EB/OL]. [2018-05-10]. http://www.aclweb.org/anthology/P14-1066.

[4] HUANG P S, HE X D, GAO J F, et al. Learning deep structured semantic models for Web search using clickthrough data[C]// CIKM 2013: Proceedings of the 22nd ACM International Conference on Information & Knowledge Management. New York: ACM, 2013: 2333-2338.

[5] SHEN Y, HE X D, GAO J F, et al. A latent semantic model with convolutional-pooling structure for information retrieval[C]// CIKM 2014: Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management, New York: ACM, 2014: 101-110.

[6] HE X, GAO J, DENG L, et al. Convolutional latent semantic models and their applications: US 9477654B2[P]. 2015-10-01.

[7] GAO J, PANTEL P, GAMON M, et al. Modeling interestingness with deep neural networks[EB/OL]. [2018-05-10]. http://www.aclweb.org/anthology/D14-1002.

[8] BELLOS C C, PAPADOPOULOS A, ROSSO R, et al. Identification of COPD patients health status using an intelligent system in the CHRONIOUS wearable platform[J]. IEEE Journal of Biomedical and Health Informatics, 2014, 18(3): 731-738.

[9] BUSA-FEKETE R, SZARVAS G, LTETHO T, et al. An apple-to-apple comparison of Learning-to-rank algorithms in terms of normalized discounted cumulative gain[C]// ECAI 2012: Proceedings of the 20th European Conference on Artificial Intelligence. Montpellier, France: IOS Press, 2012:16.

[10] GAO J F, TOUTANOVA K, YIH W T. Clickthrough-based latent semantic models for Web search[C]// SIGIR 2011: Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2011: 675-684.

[11] 徐佳俊, 楊飏, 姚天昉, 等. 基于LDA模型的論壇熱點話題識別和追蹤[J]. 中文信息學報, 2016, 30(1): 43-49. (XU J J, YANG Y, YAO T F, et al. LDA based hot topic detection and tracking for the forum[J]. Journal of Chinese Information Processing, 2016, 30(1): 43-49.)

[12] LU Z D, LI H. A deep architecture for matching short texts[EB/OL]. [2018-05-10]. http://papers.nips.cc/paper/5019-a-deep-architecture-for-matching-short-texts.pdf.

[13] GAO J, HE X, NIE J Y. Clickthrough-based translation models for Web search: from word models to phrase models[C]// CIKM 2010: Proceedings of the 19th ACM International Conference on Information and Knowledge Management. New York: ACM, 2010: 1139-1148.

[14] 劉紅光, 魏小敏. Bag of Words算法框架的研究[J]. 艦船電子工程, 2011, 31(9): 125-128. (LIU H G, WEI X M. Research on frame of bag of words algorithm[J]. Ship Electronic Engineering, 2011, 31(9): 125-128.)

主站蜘蛛池模板: 热伊人99re久久精品最新地| 国产无码在线调教| 国产成人综合在线视频| 99在线观看免费视频| 免费又爽又刺激高潮网址| 亚洲国产日韩在线成人蜜芽| 激情网址在线观看| 中文字幕人成乱码熟女免费| 国产精品亚洲专区一区| 夜精品a一区二区三区| 中文成人在线视频| 在线观看av永久| 福利视频一区| 三级国产在线观看| 67194成是人免费无码| 亚洲综合专区| 久久精品波多野结衣| 四虎成人精品在永久免费| 久久精品亚洲专区| 精品国产美女福到在线不卡f| 欧美在线国产| 亚洲国产看片基地久久1024| 中文字幕1区2区| 久久中文字幕av不卡一区二区| 国产精品亚欧美一区二区三区| 亚洲无码高清一区| 日本人妻丰满熟妇区| 狠狠亚洲婷婷综合色香| 亚洲乱码视频| 精品欧美日韩国产日漫一区不卡| 福利在线免费视频| 欧美笫一页| 91口爆吞精国产对白第三集| 在线观看国产黄色| 91免费国产高清观看| 国产成人综合在线视频| 国产91特黄特色A级毛片| 激情乱人伦| 亚洲手机在线| 亚洲天堂网在线观看视频| 国产午夜精品鲁丝片| 天天做天天爱夜夜爽毛片毛片| 国产不卡网| 自慰网址在线观看| 在线日本国产成人免费的| 国产精品冒白浆免费视频| 国产69囗曝护士吞精在线视频| 伊人久久大线影院首页| 精品无码人妻一区二区| 国产高清无码第一十页在线观看| 亚洲人在线| 亚洲一级毛片在线观| 91九色国产porny| 欧美日韩第三页| 国产精品毛片一区| 成年人国产网站| 国产成人无码播放| 青青草国产在线视频| 亚洲欧洲综合| 青青青国产视频手机| 综合人妻久久一区二区精品| 99久久亚洲精品影院| 韩日无码在线不卡| 国产在线拍偷自揄拍精品| 99re66精品视频在线观看| 精品日韩亚洲欧美高清a| 久久精品国产国语对白| 五月婷婷综合在线视频| 97人妻精品专区久久久久| 丁香婷婷激情综合激情| 久久狠狠色噜噜狠狠狠狠97视色| 夜夜操天天摸| 亚洲天堂首页| 国产成人综合久久精品尤物| 亚洲一区二区三区香蕉| 99伊人精品| 58av国产精品| 国产尹人香蕉综合在线电影| 99久久精品美女高潮喷水| 永久毛片在线播| 色欲色欲久久综合网| 狠狠亚洲婷婷综合色香|