999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于數據重構和富特征的神經網絡機器閱讀理解模型

2018-12-20 06:18:28尹伊淳
中文信息學報 2018年11期
關鍵詞:特征文本模型

尹伊淳,張 銘

(北京大學 信息科學技術學院,北京 100871)

0 引言

“2018機器閱讀理解技術競賽”旨在讓機器根據問題和搜索引擎返回的相應證據文檔,抽取或生成合理的答案文本,推動搜索引擎場景下智能問答技術的發展。具體而言,競賽要求構建機器閱讀理解系統,自動對給定問題q及搜索引擎返回來的候選文檔集合D={d1,d2,…,dn},其中n=5,輸出對應的答案文本a。評測基于人工標注問題答案,采用ROUGE-L和BLEU4作為評價指標,其中ROUGE-L是主閱讀評價指標。

本文將機器理解問題建模成文本抽取問題,認為答案文本a來自候選文檔中某個連續的文本片段,基于問題和數據的特點構造神經網絡模型。為了充分利用人工標注答案信息,本文首先對數據進行重構,使同一個問題的多個候選文檔具有各自不同的答案文本;接著提出了基于語義富特征的神經交互網絡,得到問題感知的文檔表征;最后采用基于不同詞向量的模型集成方法,進一步提升模型效果。在測試集上,本文提出的模型得到ROUGE-L60.99和 BLUE-4 55.93的結果,在所有105支參賽隊伍中排名第2位。

1 數據重構

給定的數據集基于真實標注答案集(一個問題往往含有多個答案),在文檔中尋找相對應的匹配文本段,進行偽答案的標注。這種簡單的標注方法在答案覆蓋度上存在以下不足: (1)以段落為單位標注和預測,忽略了候選文檔其他段落的信息; (2)所有5篇候選文檔中只把匹配度最高的一條真實標注答案作為基準信息,忽略了其他真實標注答案的信息。

為了緩解原始標注對真實答案信息利用不足的問題,本文對給定數據集進行了重構。具體來說,本文從文檔級出發,基于每個真實標注答案對文檔進行匹配。每個文檔選擇匹配分數最大的作為偽答案片段。這樣真實的標注答案信息會出現在多個候選文檔中,其分別匹配不同的真實答案。本文基于F1的詞匹配指標,對提供的訓練集進行重構,同時過濾掉匹配分數小于0.65的答案片段。為了提高數據重構的速度,使用多進程并行處理方式。

2 模型

本節介紹富特征的神經交互網絡(圖1),整個網絡分為: (1)詞富語義表征層,使用特征工程建模詞向量表征; (2)序列語義編碼層,使用句子序列信息對詞進行語義編碼; (3)問題與文檔交互層,旨在得到有效的問題感知文檔表征; (4)答案文本預測模塊,在所有候選文檔上抽取答案文本a; (5)模型集成模塊。

圖1 模型框架圖

2.1 詞富語義表征

為了得到豐富的詞語義表征,本文使用了以下8種特征。

詞向量特征: 本文使用了從大規模122GB中文語料中使用Word2Vec預訓練得到的64維詞向量[注]https://pan.baidu.com/s/1o7MWrnc。

文檔排序特征: 排名越靠前的文檔越可能出現答案文本,因此本文使用了Mrank∈5×5待學習排序矩陣,每個位置上都對應一個5維的向量。

問題類別特征: 考慮到問題類別對答案文本抽取影響較大,這里使用了Mques∈6×5的待學習排序矩陣,分別對應“SEARCH_DESCRIPTION”“SEARCH_ENTITY”“SEARCH_YES_NO”“ZHIDAO_DESCRIPTION”“ZHIDAO_ENTITY”和“ZHIDAO_YES_NO”6種問題類型,每種問題類型使用5維向量表示。

詞性特征: 本文同時使用了詞性特征,統計全部語料,選取了30個不同詞性作為特征,使用Mpos∈30×5進行表征。

精確匹配特征: 指示當前詞是否同時存在于文檔和問題中。

上下文匹配特征: 指示在此前詞的上下文中窗口詞精確匹配的比例,例如考慮當前詞上下文中的4個詞,如果其中3個是精確匹配的,那么匹配比例即為0.75。

是否由數字組成: 指示當前詞是否由數字組成。

是否由字母組成: 指示此前詞是否由字母組成。

本文對問題和文檔中的詞采用了不同的特征表征形式,其中問題詞使用了詞向量特征、問題類型特征和詞性特征;文檔詞使用了詞向量特征、詞性特征、排序特征、精確匹配、上下文匹配和是否為數字、字母特征。

2.2 序列語義編碼

2.3 問題感知的文檔表征

2.4 答案文本預測

其中,v、Wp、Wq是待學習的參數;qs是問題的表征,本文使用注意力機制得到式(6)、式(7)。

其中,u是待學習參數。為了訓練模型,本文最小化金標準start和end位置的negativelogprobabilities。

在得到start和end的概率之后,本文基于兩個概率的積,在全局文本上搜索答案文本,選擇積最大者作為最終答案文本,其中設定文本的最大長度為max_a_len。

2.5 模型集成

本文假設不同語料學習得到embedding具有不同的語義知識,采用基于embedding的方法[1]進行模型集成。具體而言,本文使用了: (1)從大規模122GB中文語料中使用Word2Vec[2]預訓練得到的64維詞向量E1; (2)將訓練數據集作為語料采用fasttext[3]預學習得到的128維詞向量E2。模型集成采用兩個64維向量學習得到的模型和兩個128維詞向量學習得到的模型,最終的起止位置的概率值采用4個模型結果的平均值。

3 實驗

3.1 實驗設置

實驗采用了比賽提供的數據集(此數據集是之前DuReader[4]公開數據集的超集),總共30萬個問題,其中訓練數據27萬;開發數據1萬;測試數據2萬。直接使用數據集提供分詞結果。

本文的模型構建采用Tensorflow1.4.1、Python2.7.12,整體調優在開發集上進行,參數值設置見表1;模型采用Adam優化模型參數。實驗運行的硬件條件為: TITAN12GB顯存;內存為132GB。

得到結果文本之后,去掉了HTML符號標記的冗余部分,作為最終的預測文本。

表1 模型參數設置

3.2 實驗結果

基于不同詞向量的模型結果如表2所示,可以發現我們的模型顯著高于baseline,模型集成對效果也有一定的提升。最終,我們的模型在測試集上的排名第2。

表2 模型結果

為了評價富特征和數據重構的有效性,我們在開發集上做了相應的對比實驗: (1)有無富特征模塊的效果對比; (2)是否進行數據重構處理的效果對比; (3)富特征模塊和數據重構兩者一起對模型效果的影響。整個實驗結果如表3所示。從結果中可知,富特征模塊和數據重構對整個模型貢獻很大,分別在ROUGE-L指標上有5%和7%的提升,其中數據重構比富特征對結果提升更大;同時加入兩個模塊,模型得到了接近14%的提升,這說明了本文提出方法的有效性。

表3 模塊對比

注: 實驗結果基于開發集,所有模型使用E1;無富特征表示只是用詞向量。

3.3 錯例分析

從模型在開發集上的表現,可以總結出以下幾種錯誤類型。

(1) 真實答案為非連續片段;例如ID=186572,問題是[“2017”, “有”, “什么”, “好看”, “的”, “小說”],答案由多個文本片段組成,每個答案之間包含大量的無關介紹文本。目前本文框架還無法解決此類問題,未來可以將其轉化成序列標注問題或者生成問題。

(2) 真實答案不在文檔中,例如,ID=181576。這種錯誤只能寄希望于補充更多的事實文本信息,進行答案補充處理。

(3) 文檔標題信息融合不夠導致的錯誤,例如,ID=181579;問題是["csgo", "讀取", "游戲", "后", "提示", "已", "停止", "工作"],所提出模型給出的答案是定位在題目為“csgo一點開始就停止工作”的文檔下。下一步本文將考慮如何將標題信息進行融入。

4 總結

本文面向機器閱讀理解提出了一種簡單且有效的神經交互網絡。首先,為了充分使用標注的答案信息,本文對發布的數據進行了重構;在建模詞表征的時候,使用了多種詞語義特征;接著使用問題到答案的注意力操作以及雙向GRU完成文檔和問題信息的有效融合。在最終的測試集上,本文模型達到了現有的先進的效果,名列所有參賽隊的第2名。

猜你喜歡
特征文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产91在线|中文| 欧美一级高清免费a| 亚洲 欧美 中文 AⅤ在线视频| 五月综合色婷婷| 国产精品yjizz视频网一二区| m男亚洲一区中文字幕| 国产精品不卡片视频免费观看| 青青国产视频| 欧美中文字幕在线视频| Aⅴ无码专区在线观看| 欧美激情一区二区三区成人| 久久99久久无码毛片一区二区| 亚洲第一视频免费在线| 精品欧美一区二区三区久久久| 亚洲天堂区| 欧美国产精品不卡在线观看| 日韩少妇激情一区二区| 精品99在线观看| 精品国产欧美精品v| 波多野结衣久久精品| 欧美日韩国产综合视频在线观看| 色综合久久88色综合天天提莫| 国产97区一区二区三区无码| 国产国产人成免费视频77777| 996免费视频国产在线播放| 成人国产免费| 香蕉eeww99国产精选播放| 一区二区在线视频免费观看| 91精品啪在线观看国产| 重口调教一区二区视频| 国产一二视频| 黄色福利在线| 综1合AV在线播放| 高清色本在线www| 色婷婷电影网| 欧美在线视频不卡第一页| 国模私拍一区二区三区| 999福利激情视频| 亚洲天堂视频在线观看| 日韩欧美网址| 免费女人18毛片a级毛片视频| 亚洲精品无码抽插日韩| 一级毛片免费不卡在线| 麻豆国产精品视频| 国产日产欧美精品| 色综合久久久久8天国| 国产自视频| 国产白浆一区二区三区视频在线| 国产精品女同一区三区五区| 午夜国产精品视频黄| 国产色网站| 欧美成人h精品网站| 久久这里只有精品8| 嫩草国产在线| 91小视频在线播放| 日韩在线欧美在线| 婷婷亚洲综合五月天在线| …亚洲 欧洲 另类 春色| 美女潮喷出白浆在线观看视频| 免费人成视网站在线不卡| 国产永久免费视频m3u8| 成人福利在线视频| 青青久久91| 夜夜高潮夜夜爽国产伦精品| 久久99热这里只有精品免费看| 欧美日本在线观看| 免费国产无遮挡又黄又爽| 亚洲人成网线在线播放va| 99久久精品免费看国产电影| 国产精品永久久久久| yy6080理论大片一级久久| 日本三区视频| 黄色在线不卡| 91在线精品麻豆欧美在线| 91色在线视频| AV网站中文| 真人免费一级毛片一区二区| 美女视频黄频a免费高清不卡| 欧美日韩v| 欧美另类图片视频无弹跳第一页| 亚洲中文字幕精品| 九色在线观看视频|