999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向機(jī)器閱讀理解的高質(zhì)量藏語數(shù)據(jù)集構(gòu)建

2024-05-09 02:56:44劉思思陳超凡旦正錯趙小兵
中文信息學(xué)報 2024年3期
關(guān)鍵詞:模型

孫 媛,劉思思,陳超凡,旦正錯,趙小兵

(1. 中央民族大學(xué) 信息工程學(xué)院,北京 100081;2. 國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081;3. 民族語言智能分析與安全冶理教育部重點(diǎn)實(shí)驗(yàn)室,北京 100081)

0 引言

近年來,機(jī)器閱讀理解引起了人們的廣泛關(guān)注,并成為了人工智能研究與應(yīng)用領(lǐng)域的熱點(diǎn)任務(wù)之一[1-3],其旨在教機(jī)器在閱讀人類文章后回答出與文章相關(guān)的一些問題[4],它需要機(jī)器能夠理解人類的語言文字。 目前,機(jī)器閱讀理解通常以數(shù)據(jù)驅(qū)動方式建模,因此數(shù)據(jù)集是其技術(shù)發(fā)展的基礎(chǔ)。到目前為止,已經(jīng)出現(xiàn)了很多大規(guī)模的機(jī)器閱讀理解數(shù)據(jù)集,如CNN/Daily Mail[5]、 MCTest[6]、 CBT[7]、 RACE[8]、 SQuAD[9]、 DuReader[10]等,這些數(shù)據(jù)集推動了機(jī)器閱讀理解的研究,其中以2016年Rajpurkar等人發(fā)布的大規(guī)模英文機(jī)器閱讀理解數(shù)據(jù)集SQuAD為代表,許多學(xué)者在這一數(shù)據(jù)集上提出了自己的方法和模型。根據(jù)最新官方數(shù)據(jù),截止到2021年3月發(fā)布的模型榜單排名在SQuAD 的數(shù)據(jù)集上最高得分為93.183,而人類的得分是89.452(1)https://rajpurkar.github.io/SQuAD-explorer/。

藏語作為中國少數(shù)民族語言之一,由于缺乏公開的藏語機(jī)器閱讀理解數(shù)據(jù)集,目前藏語機(jī)器閱讀理解任務(wù)還處于起步階段。近年來隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)上也出現(xiàn)了大量的藏文信息,藏文信息處理等相關(guān)工具也得到了很好的發(fā)展[11-14],但如何有效利用這些藏文信息并推動藏文機(jī)器閱讀理解的發(fā)展成為目前藏文信息化建設(shè)需要解決的問題之一。

藏語是一種拼音語言,屬輔音字母文字型,分輔音字母、元音符號兩個部分。其中有30個輔音字母、4個元音字母和5個反寫字母(用于拼外來語)。藏文中的語法比較復(fù)雜,但有很明確的組織形式和動詞變化。其中,3個上加字,4個下加字,5個前加字,10個后加字,2個后后加字組合在任意一個基礎(chǔ)字理論上便可以寫出任何一個藏文詞。藏語單詞的最小單位是一個音節(jié),一個音節(jié)包含一個或最多七個字符,音節(jié)默認(rèn)是用音節(jié)之間的標(biāo)記“·”來分割的。輔音簇是用特殊的字母連寫而成的[15]。另外,藏文是謂語在后、動詞作為核心的語言。在藏文中,有一些特殊的助詞,可以清楚地表示句子的語義結(jié)構(gòu)。這些特殊助詞主要包括作格助詞、屬格助詞、位格助詞和從格助詞。例如,作格助詞可以表示動作的代理、工具和動作的方式。基于藏語的這些特點(diǎn),我們可以識別這些格助詞來分析藏語機(jī)器閱讀理解的問題。同時,嚴(yán)格的藏文語法規(guī)則要求構(gòu)建更高水平的藏語機(jī)器閱讀理解數(shù)據(jù)集。

為了進(jìn)一步推動藏語機(jī)器閱讀理解的發(fā)展,同時為了滿足相關(guān)研究人員對高質(zhì)量的藏語閱讀理解數(shù)據(jù)集的需求,本文構(gòu)建了一個藏語機(jī)器閱讀理解數(shù)據(jù)集(TibetanQA),并將部分?jǐn)?shù)據(jù)公開在 https://tibetanqa.cmli-nlp.com,數(shù)據(jù)集的示例如表1所示,每個段落下包含多個問題和答案,其中答案來自于文本中。

表1 TibetanQA樣例(包含一個段落和多個問答對)

本文的主要貢獻(xiàn)如下:

(1) 構(gòu)建了一個藏語機(jī)器閱讀理解數(shù)據(jù)集(TibetanQA),其中包含1 513篇藏語文章和20 000個藏語問答對。這些文章均來自云藏網(wǎng),問答對采用眾包的方式人工構(gòu)建。文章涵蓋了12個領(lǐng)域的實(shí)體知識,其中包括自然、文化、教育、地理、歷史、生活、社會、藝術(shù)、技術(shù)、人物、科學(xué)和體育。

(2) 采用嚴(yán)格的人工構(gòu)建流程來保證數(shù)據(jù)集的質(zhì)量,盡管目前TibetanQA中問答對的數(shù)量不多,但該數(shù)據(jù)集在文章收集、問題構(gòu)建、答案驗(yàn)證、回答多樣性和推理能力等方面均采用嚴(yán)格的流程以確保數(shù)據(jù)的質(zhì)量。另外,數(shù)據(jù)集中的問答對數(shù)量還在不斷增加中。

(3) 探索性地以BiDAF、R-Net和QANet三種典型的英語機(jī)器閱讀理解模型作為TibetanQA數(shù)據(jù)集上的基線模型,并展開實(shí)驗(yàn),其結(jié)果顯示模型最好實(shí)驗(yàn)結(jié)果的F1值比人類表現(xiàn)低21.4%。這表明,在藏語機(jī)器閱讀理解任務(wù)上還需要進(jìn)行更多的探索。另外,本文采用基于語言特征消融輸入的方法進(jìn)行評估,實(shí)驗(yàn)結(jié)果表明該數(shù)據(jù)集對模型的閱讀理解能力提出了更高的要求。

1 相關(guān)工作

大規(guī)模閱讀理解數(shù)據(jù)集是驅(qū)動機(jī)器閱讀理解任務(wù)研究發(fā)展的重要因素,數(shù)據(jù)集的質(zhì)量和規(guī)模直接影響到閱讀理解模型的理解能力和表現(xiàn)。近年來,出現(xiàn)了大量的機(jī)器閱讀理解數(shù)據(jù)集,本文對這些數(shù)據(jù)集進(jìn)行調(diào)查。按照答案的形式,機(jī)器閱讀理解數(shù)據(jù)集可大致分為四個類型: 填空型數(shù)據(jù)集、選擇型數(shù)據(jù)集、篇章片段型數(shù)據(jù)集和多任務(wù)型數(shù)據(jù)集[16]。表2列舉了常見的幾種數(shù)據(jù)集及其相關(guān)信息。

表2 常見機(jī)器閱讀理解數(shù)據(jù)集的大小和文章來源比較

1.1 填空型數(shù)據(jù)集

填空型數(shù)據(jù)集將復(fù)雜的機(jī)器閱讀理解問題簡化為對一個單詞的簡單預(yù)測,填空型閱讀理解的答案是一個單詞而非一個句子,機(jī)器需要理解上下文的內(nèi)容來預(yù)測段落中丟失的關(guān)鍵詞,CNN/Daily Mail[5]語料庫中的數(shù)據(jù)來自美國有線電視新聞網(wǎng)和每日郵報網(wǎng)中的文章,語料庫剔除了單篇超過2 000個字的文章和問題答案不在原文出現(xiàn)的文章。The Children’s Book Test (CBT)[7]是經(jīng)典的閱讀理解數(shù)據(jù)集,它從每個兒童故事中提取20個連續(xù)的句子作為文檔,第21個句子作為問題,并從中剔除一個實(shí)體類單詞作為答案,該數(shù)據(jù)集只關(guān)注命名實(shí)體識別和普通名詞類型的答案預(yù)測。

1.2 選擇型數(shù)據(jù)集

選擇型閱讀理解任務(wù)包含一個文章片段和多個問題,每個問題又包含多個選項(xiàng),要求機(jī)器理解給定的文章片段并從給定的答案選項(xiàng)中選出最合適的一個答案。選擇型數(shù)據(jù)集要求能夠在一個問題的多個答案候選項(xiàng)中準(zhǔn)確地選出答案。MCTest[6]是一組和故事相關(guān)的問題集,該數(shù)據(jù)集的文章來自童話故事,它的問題選項(xiàng)基本為原文中的內(nèi)容,因此對模型的推理能力要求較低,數(shù)據(jù)集要求機(jī)器能夠回答有關(guān)虛構(gòu)故事的多項(xiàng)選擇閱讀理解問題,直接解決開放域機(jī)器理解的高級目標(biāo)。RACE[8]數(shù)據(jù)集是中國中學(xué)生英語閱讀理解題目,該數(shù)據(jù)集規(guī)模較大且領(lǐng)域覆蓋廣泛,題型的正確答案并不一定直接體現(xiàn)在文章中,需要從語義層面深入理解文章,通過分析文章中線索并基于上下文推理,選出正確答案,因此基于該數(shù)據(jù)集的機(jī)器閱讀理解模型需要一定的推理能力。

1.3 篇章片段型數(shù)據(jù)集

篇章片段型閱讀理解任務(wù)可以描述為: 給定一段文章片段,給定一個問題,要求機(jī)器根據(jù)該問題從文章片段中找到一個連續(xù)的片段作為答案。SQuAD[9]是一個大規(guī)模的閱讀理解數(shù)據(jù)集。它包含的文章來自維基百科,并采用眾包的方式人工構(gòu)建問題,該數(shù)據(jù)集擁有10萬以上高質(zhì)量的問題答案對,由于其高質(zhì)量和可靠的自動評估,該數(shù)據(jù)集引起了NLP領(lǐng)域的廣泛關(guān)注。

1.4 多任務(wù)型數(shù)據(jù)集

多任務(wù)型閱讀理解任務(wù)需要構(gòu)建高難度的真實(shí)世界的數(shù)據(jù)集,該數(shù)據(jù)集的問題不限制段落范圍,回答一個問題可能需要理解多個段落,并且答案是人為創(chuàng)造的,而不是來自文章原文,這就要求機(jī)器具有更高的推理能力,從而能真正實(shí)現(xiàn)機(jī)器閱讀理解。DuReader[10]是一個中文閱讀理解數(shù)據(jù)集,該數(shù)據(jù)集的問題和文章均來自百度搜索和百度知道,答案是人們根據(jù)多篇文章推理出來的,而不是原始上下文中的片段,DuReader提供了新的問題類型yes、no、和opinion。

目前,英文和中文的閱讀理解數(shù)據(jù)集已經(jīng)得到了很好的發(fā)展,而對于低資源語言的閱讀理解數(shù)據(jù)集則很少有人研究,這嚴(yán)重阻礙了低資源語言的機(jī)器閱讀理解的發(fā)展,為了解決這個問題,我們構(gòu)建了一個高質(zhì)量的藏語閱讀理解數(shù)據(jù)集,稱為TibetanQA,該數(shù)據(jù)集的文章來自云藏網(wǎng),涵蓋了多領(lǐng)域的知識,并采用眾包的方式人工構(gòu)建。TibetanQA面向藏語篇章片段型閱讀理解任務(wù),數(shù)據(jù)集中的答案來自文章。

2 構(gòu)建過程

首先,本文從云藏網(wǎng)上獲取了藏文實(shí)體的文本,然后對文本信息進(jìn)行篩選,并采用人工標(biāo)注的方式構(gòu)建問答對,最后對問答對的有效性進(jìn)行人工審核,該工作過程主要包括文章收集、問題構(gòu)建和答案驗(yàn)證。

2.1 文章收集

為了獲取大量的文章,本文利用爬蟲技術(shù)對云藏網(wǎng)站中的實(shí)體知識信息進(jìn)行爬取,共獲取了1 600個實(shí)體知識信息文本。文本的選取涵蓋了廣泛的主題,包括自然、文化、教育、地理、歷史、生活、社會、藝術(shù)、技術(shù)、人物、科學(xué)、體育共12個領(lǐng)域。此外,本文利用正則表達(dá)式對獲取到的文章段落中的噪聲信息進(jìn)行處理,刪除了圖像、表格和網(wǎng)站鏈接等非文本數(shù)據(jù),并丟棄了小于100個音節(jié)的段落,最終選取了1 513篇文章。

2.2 問題構(gòu)建

為了有效地收集問題,我們開發(fā)了一個問答收集的Web應(yīng)用程序,如圖1所示,并邀請了母語為藏語的學(xué)生來使用該應(yīng)用程序,這些藏族學(xué)生從小接受藏語學(xué)習(xí),目前為藏學(xué)專業(yè)研究生,方向?yàn)檎Z言文學(xué),具有較高的藏文水平。在問題構(gòu)建的過程中,對于文章中的每一個段落,他們首先需要選擇文章中的一段文本作為答案,然后將問題用自己的語言寫入輸入字段中,學(xué)生的任務(wù)是提問并回答關(guān)于該段落的問題,答案必須為段落中的一部分。當(dāng)他們完成一篇文章后,系統(tǒng)會自動為其分配下一篇文章。為了構(gòu)建更具挑戰(zhàn)性的語料庫,我們對每個學(xué)生進(jìn)行了短期培訓(xùn),并指導(dǎo)他們?nèi)绾翁峁┯行Ш途哂刑魬?zhàn)性的問題,對于每個學(xué)生,我們首先會教其如何進(jìn)行提問和回答,之后利用少部分?jǐn)?shù)據(jù)來對他們進(jìn)行測試,只有準(zhǔn)確率達(dá)到90%的學(xué)生才可以進(jìn)行后續(xù)工作。此外,我們不對問題的形式施加限制,并鼓勵他們使用自己的語言來進(jìn)行提問。

圖1 用于收集藏語問答對的Web應(yīng)用程序

2.3 答案驗(yàn)證

為了進(jìn)一步提高數(shù)據(jù)集的質(zhì)量,我們在獲取到初始的數(shù)據(jù)集后,邀請另一組藏族學(xué)生來檢查,他們選擇有效的問答對,丟棄不完整的答案或問題,剔除語法不正確的問題。最終,我們?nèi)斯ばΤ?0 000個問題答案對。

3 數(shù)據(jù)分析

一個高質(zhì)量的數(shù)據(jù)集要能夠從多個角度對機(jī)器閱讀理解模型進(jìn)行準(zhǔn)確的評估,因此,本文研究了當(dāng)前自然語言處理領(lǐng)域中一些流行的機(jī)器閱讀理解數(shù)據(jù)集,發(fā)現(xiàn)目前流行的數(shù)據(jù)集主要為英文和中文的,很少有低資源數(shù)據(jù)集。因此,構(gòu)建一批有價值和開放的藏語機(jī)器閱讀理解數(shù)據(jù)集顯得尤為重要。本文重點(diǎn)分析最為權(quán)威的篇章片段型機(jī)器閱讀理解數(shù)據(jù)集SQuAD,該數(shù)據(jù)集不僅有超過10萬個的問題答案對,而且采用人工構(gòu)建,可以保證語料庫的質(zhì)量。參考SQuAD數(shù)據(jù)集的構(gòu)建方式,我們構(gòu)建了TibetanQA 藏語數(shù)據(jù)集。為了驗(yàn)證構(gòu)建的數(shù)據(jù)集更具挑戰(zhàn)性,本文將TibetanQA與SQuAD進(jìn)行比較,并簡要對TibetanQA面臨的挑戰(zhàn)進(jìn)行了介紹。

3.1 答案的多樣性

本文對 TibetanQA中的答案進(jìn)行了分類,生成答案的音節(jié)標(biāo)簽和命名實(shí)體識別標(biāo)簽。首先,將數(shù)據(jù)分為數(shù)字答案和非數(shù)字答案,之后利用命名實(shí)體識別標(biāo)簽將名詞短語分為人、地點(diǎn)、組織機(jī)構(gòu)和其他實(shí)體。表3顯示不同答案類型所占的比例,答案中30.4%是短語,26.5%是其他實(shí)體和其他類型,17.6%是數(shù)字,8.5%是人名,7.2%是地名,日期和時間占6.3%,剩下的3.5%是組織機(jī)構(gòu)名。

表3 不同的答案類型所占的比例

3.2 問題前綴的統(tǒng)計(jì)

表4 TibetanQA和SQuAD中不同類型問句所占的比例

從表4中可以看出,疑問詞“什么”在兩種數(shù)據(jù)集中的占比均很大,疑問詞“哪里”“誰”“何時”和“如何”的占比分別為10.5%、8.7%、11.9%和14.4%,這表明TibetanQA中問題類型的分布比較均衡。

3.3 回答問題所需要的推理

為了獲得更具有挑戰(zhàn)性的數(shù)據(jù)集,我們在TibetanQA 數(shù)據(jù)集的答案中增加了推理,機(jī)器提取正確答案也需要推理能力。我們將所有的問題分成四類: 單詞匹配、同義詞替換、多句推理和模糊問題,類型樣例如表5所示。

表5 各種推理類型舉例

單詞匹配: 這類問題是針對段落中的某個關(guān)鍵詞(通常為名詞)進(jìn)行提問,即將該關(guān)鍵詞用疑問詞替換來進(jìn)行提問,該關(guān)鍵詞即為答案,問題中的其余部分的單詞均可以直接在文章原文中找到。回答這類問題只需要使用簡單的相似算法便可找到答案,不需要任何的推理過程。在表5段落1中,問題中的“蛋白質(zhì)組成成分”直接在原文中出現(xiàn),根據(jù)一個簡單的相似算法便可以確定答案為“氨基酸”。

多句推理: 這類問題并不能只根據(jù)當(dāng)前的句子來獲得答案,而需要將多個句子組合起來進(jìn)行簡單的推理。表5段落3中展示了TibetanQA中需要進(jìn)行多句推理類型的數(shù)據(jù),其中,我們需要知道代詞指的是什么。在這個例子中,第二個句子中的“它”指的是第一個句子中的“蛋白質(zhì)”,所以第二個句子可以轉(zhuǎn)換成“蛋白質(zhì)是人體肌肉的主要成分”,因此,通過指代消解后可以得到答案為“蛋白質(zhì)”。

模糊問題: 這類問題理論上沒有標(biāo)準(zhǔn)答案,即不同的人給出的答案可能不同。表5段落4中展示了TibetanQA數(shù)據(jù)中的模糊性問題,問題為“兔子有什么特點(diǎn)?”,根據(jù)段落可知兔子存在許多特點(diǎn),不同的人會得到不同的答案,因此,在實(shí)際的問題中我們會指定一個答案。

4 實(shí)驗(yàn)

機(jī)器閱讀理解數(shù)據(jù)集的質(zhì)量直接影響到模型的理解能力,因此需要對構(gòu)建的數(shù)據(jù)集進(jìn)行評估。本文使用三種經(jīng)典的英語閱讀理解模型R-Net[17]、BiDAF[18]和QANet[19]來測試TibetanQA,并采用一種基于語言特征消融輸入的評估方法來直觀地評估TibetanQA數(shù)據(jù)集[20]。本文將這三個模型作為基線方法,使用EM和F1來評估模型的準(zhǔn)確性。EM是指預(yù)測答案和標(biāo)準(zhǔn)答案之間的匹配程度,例如,有m個問題,如果模型能正確回答n個問題,則可以用式(1)計(jì)算EM。

(1)

F1值是準(zhǔn)確率(Precision)和召回率(Recall)的調(diào)和平均,準(zhǔn)確率、召回率和F1值的計(jì)算如式(2)~式(4)所示。

其中,N(TP)表示預(yù)測答案和標(biāo)準(zhǔn)答案之間相同的詞數(shù),N(FP)表示不在標(biāo)準(zhǔn)答案中而在預(yù)測答案中的詞數(shù),N(FN)是標(biāo)準(zhǔn)答案中的詞而不是預(yù)測答案中的詞數(shù)。

4.1 在不同模型上的實(shí)驗(yàn)

對于傳統(tǒng)的數(shù)據(jù)驅(qū)動閱讀理解來說,數(shù)據(jù)集可以使用基于規(guī)則的系統(tǒng)[21]和邏輯回歸模型[22]來改進(jìn)它們的模式匹配基線。盡管這種類型的數(shù)據(jù)集是真實(shí)的和具有挑戰(zhàn)性的,但由于數(shù)據(jù)集太小,無法支持非常有表現(xiàn)力的統(tǒng)計(jì)模型。從SQuAD數(shù)據(jù)集公開發(fā)布之后,基于注意力機(jī)制的深度學(xué)習(xí)匹配模型開始大量出現(xiàn),與傳統(tǒng)的基于規(guī)則的方法相比,深度學(xué)習(xí)的方法可以更好地對文本的特征進(jìn)行表示,能夠在很大程度上提高模型的學(xué)習(xí)能力,也就能使機(jī)器更好地理解文章內(nèi)容。

目前,基于數(shù)據(jù)集的機(jī)器閱讀理解任務(wù)主要采用深度學(xué)習(xí)的方法進(jìn)行研究。Mingoon等人[18]首次引入了“雙向注意力機(jī)制”的機(jī)器閱讀理解模型BiDAF,他們在交互層引入段落對問題的注意力和問題對段落的注意力,采用這兩個方向的注意力來獲得文章和問題之間的表征,他們認(rèn)為這些注意力可以提取更多的信息。Wang等人[17]首次在機(jī)器閱讀理解任務(wù)中加入自注意力機(jī)制并提出了R-Net模型,他們通過計(jì)算段落中單詞與單詞之間的注意力值,學(xué)習(xí)已經(jīng)融合了問題信息的段落內(nèi)部單詞之間的權(quán)重分布,實(shí)驗(yàn)結(jié)果證明引入自注意力機(jī)制提高了模型的準(zhǔn)確率。此外,為了解決RNN在編碼過程中會導(dǎo)致訓(xùn)練速度變慢的問題,Adams等人[19]將卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制結(jié)合提出了QANet模型,他們認(rèn)為提高了訓(xùn)練速度以后可以在同樣的時間內(nèi)訓(xùn)練更多的數(shù)據(jù),因此可以提高模型的泛化能力,該模型在SQuAD上取得了更好的成績。以上三個模型均在SQuAD上取得了不錯的成績,因此本文將BiDAF、R-Net和QANet模型引入到藏語數(shù)據(jù)集TibetanQA上進(jìn)行實(shí)驗(yàn)。

本文將文章中的段落和問題隨機(jī)分為訓(xùn)練集和測試集,TibetanQA和SQuAD數(shù)據(jù)集的統(tǒng)計(jì)信息如表6所示。

表6 兩種數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計(jì)信息

本文從測試集中隨機(jī)抽取100個樣本,分成10個部分,然后分發(fā)給10個不同的藏族學(xué)生進(jìn)行測試,把他們的平均分?jǐn)?shù)作為人類的表現(xiàn),得到F1值為89.2%。錯誤匹配的原因主要是藏語中短語的替換和不必要短語的添加或刪除,而不是答案的根本分歧。之后,本文分別使用BiDAF、R-Net和QANet模型在TibetanQA上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。

表7 不同模型在兩種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

在SQuAD數(shù)據(jù)集上,BiDAF模型的EM和F1分別為68%和77.3%。在TibetanQA數(shù)據(jù)集上,BiDAF模型的EM和F1分別為58.6%和67.8%。R-NET和QANet模型在TibetanQA數(shù)據(jù)集上的結(jié)果也比在SQuAD數(shù)據(jù)集上的結(jié)果要低,主要原因如下:

(1) 現(xiàn)有藏文分詞工具的錯誤會傳播到下游任務(wù)中。

(2) SQuAD的訓(xùn)練集明顯多于TibetanQA的訓(xùn)練集。對于低資源語言來說,在小規(guī)模數(shù)據(jù)集上很難獲得良好的性能,因此需要機(jī)器閱讀理解模型來加強(qiáng)模型的理解能力,傳統(tǒng)的英語閱讀理解模型不能直接應(yīng)用到TibetanQA上。因此,該數(shù)據(jù)集對未來的MRC任務(wù)提出了新的挑戰(zhàn)。

(3) TibetanQA中的大多數(shù)段落長度約為150個詞,SQuAD中的大多數(shù)段落長度約為100個詞,而長文本的段落信息中會存在更多問題無關(guān)的信息,因此對模型理解能力的要求也越高。

4.2 基于語言特征消融輸入的評估方法

Saku等人[20]提出了基于消融輸入的方法來評測機(jī)器閱讀理解數(shù)據(jù)集,他們假設(shè)輸入文本中的某一項(xiàng)特征對應(yīng)了現(xiàn)實(shí)中的一種閱讀理解技能,然后通過刪除文本中一些特定語言特征,觀察刪除前后的實(shí)驗(yàn)結(jié)果來對數(shù)據(jù)集難度進(jìn)行驗(yàn)證。他們認(rèn)為一個數(shù)據(jù)集在經(jīng)過某一種消融方法后準(zhǔn)確率下降越大,則說明這個數(shù)據(jù)集對于該技能的要求越嚴(yán)格。反之,如果一個數(shù)據(jù)集對多數(shù)的消融處理都不敏感,則說明它不能有效地評估模型的閱讀理解能力。受他們的工作啟發(fā),本文針對藏文中詞性消融、詞順序、隨機(jī)單詞掩蓋以及句子順序四個角度評估 TibetanQA 數(shù)據(jù)集。

(1)詞性消融: 將輸入的文本信息替換成詞對應(yīng)的詞性組成的序列,以便于考察模型是否僅憑詞性進(jìn)行預(yù)測。

(2)詞順序: 對非答案片段的詞順序進(jìn)行隨機(jī)調(diào)整,本文以句子為單位針對每個句子中的3個詞的順序進(jìn)行隨機(jī)替換,目的是考察模型對詞序的認(rèn)知和句子的語義構(gòu)成。

(3)隨機(jī)單詞掩蓋: 將答案所在句子中的一個詞隨機(jī)替換成UNK,以便于考察模型的推理能力。

(4)句子順序: 對段落中句子之間的順序隨機(jī)打亂后進(jìn)行重新組合,目的是考察機(jī)器是否理解句子之間的邏輯。

本文以R-Net模型為基準(zhǔn)實(shí)驗(yàn),觀察不同的輸入對模型效果的影響,計(jì)算結(jié)果如表8所示。

表8 不同的輸入信息對R-Net網(wǎng)絡(luò)模型的影響

從表8可以看出,四種消融輸入對R-Net模型的預(yù)測準(zhǔn)確率都有所下降,其中以詞性消融后的結(jié)果最為明顯,模型的F1值和EM值分別下降了49.6%和47.6%,這說明模型對詞性以外的信息要求較大,單憑詞性的特征信息難以獲得較高性能表現(xiàn)。除此之外,其他三組實(shí)驗(yàn)也分別說明數(shù)據(jù)在詞順序、隨機(jī)單詞掩蓋和句子順序三個方面對模型提出了更高的要求。

5 總結(jié)

本文構(gòu)建了藏語機(jī)器閱讀理解數(shù)據(jù)集TibetanQA,其中包含20 000個問題答案對和1 513篇文章。本數(shù)據(jù)集的文章均來自云藏網(wǎng),問題答案對采用眾包的方式人工構(gòu)建。TibetanQA為藏語機(jī)器閱讀理解研究提供數(shù)據(jù)基礎(chǔ)。目前,TibetanQA基線模型的F1值分別為67.8%、63.4%和66.9%。最好模型的性能比人類表現(xiàn)要低21.4%,這說明現(xiàn)有的模型可以在該數(shù)據(jù)集上有更好的改進(jìn)。接下來,我們將進(jìn)一步擴(kuò)展數(shù)據(jù)集,并鼓勵更多的人去探索新的表示模型,以促進(jìn)低資源語言機(jī)器閱讀理解的研究發(fā)展。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲色图狠狠干| 亚洲天堂久久久| 欧美激情视频二区三区| 亚洲综合九九| 亚洲欧美成aⅴ人在线观看| 久青草免费在线视频| 欧美精品影院| 制服丝袜国产精品| 国产91色| 97人妻精品专区久久久久| 欧美综合中文字幕久久| 国产午夜一级毛片| 凹凸国产分类在线观看| 中文字幕乱码中文乱码51精品| 亚洲成a人片在线观看88| 国产一级特黄aa级特黄裸毛片 | 538精品在线观看| 日韩高清成人| 亚洲国产日韩一区| 国产精品永久久久久| 亚洲日韩国产精品无码专区| 亚洲男女在线| 色妺妺在线视频喷水| 幺女国产一级毛片| 国产精品一区在线麻豆| 国产成人91精品免费网址在线| 色婷婷亚洲综合五月| 亚洲天堂福利视频| 91精品小视频| 亚洲日韩精品无码专区97| 久久亚洲欧美综合| 国产欧美在线观看视频| 国产一区二区免费播放| 97se亚洲综合在线| 日韩资源站| 亚洲人在线| 在线毛片网站| 免费 国产 无码久久久| 日韩免费毛片| 欧美日韩国产高清一区二区三区| 69免费在线视频| 高清无码不卡视频| 久久免费成人| 国产国产人成免费视频77777| 亚洲αv毛片| 国产欧美精品专区一区二区| 亚洲天堂在线免费| 不卡国产视频第一页| 国产亚洲精品无码专| 亚洲欧美成人综合| 国产一在线| 久久久久人妻精品一区三寸蜜桃| 欧美丝袜高跟鞋一区二区| 亚洲国产日韩视频观看| 亚洲精品国偷自产在线91正片| 91丝袜美腿高跟国产极品老师| 国产一区二区免费播放| 99这里只有精品在线| 亚洲一本大道在线| 婷婷午夜影院| 精品国产www| 五月婷婷综合在线视频| 国产无码制服丝袜| 第一区免费在线观看| 四虎永久在线| 91福利免费| 日本三级欧美三级| 国产精品网址在线观看你懂的| 欧美日韩第三页| 成人午夜视频免费看欧美| 久草网视频在线| 成人午夜视频免费看欧美| 97成人在线视频| 国产欧美成人不卡视频| 久久久久国产精品熟女影院| 四虎影视永久在线精品| 五月婷婷伊人网| 亚洲精品福利视频| 在线观看欧美国产| 国内精品免费| 久久精品无码国产一区二区三区| 不卡午夜视频|