999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的文本匹配研究綜述

2021-08-06 05:24:16曹帥
現(xiàn)代計(jì)算機(jī) 2021年16期
關(guān)鍵詞:語義深度文本

曹帥

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

0 引言

自然語言處理是人工智能領(lǐng)域的重要分支,其中包含了很多研究方向:文本分類、信息抽取、機(jī)器翻譯和問答系統(tǒng)等。其中文本匹配是基礎(chǔ)并重要的研究方向,其在問答系統(tǒng)、信息檢索和對(duì)話系統(tǒng)等很多領(lǐng)域都發(fā)揮著決定性的作用。文本匹配在不同場(chǎng)景下的含義略有不同,例如在內(nèi)容推薦上實(shí)質(zhì)的任務(wù)為長文本之間的語義匹配,在這種情況通過使用主題模型,來獲取到兩個(gè)長文本的主題分布,再通過衡量?jī)蓚€(gè)多項(xiàng)式分布的距離去衡量它們之間的相似度;又比如在檢索式問答系統(tǒng)中,則是通過對(duì)比問題和答案之間的相似度來召回最為相關(guān)的答案返回給用戶。

文本匹配的發(fā)展經(jīng)歷著從傳統(tǒng)方法到深度神經(jīng)網(wǎng)絡(luò)方法的演變。傳統(tǒng)方法中主流的是BOW、TF-IDF、BM25等算法,它們?cè)谒阉饕娴脑碇惺褂幂^為廣泛。這些算法多為解決詞匯層面的匹配問題,如BM25算法通過計(jì)算候選項(xiàng)對(duì)查詢字段的覆蓋程度來得到兩者之間的匹配得分,得分越高的網(wǎng)頁則匹配度越高。而類似TF-IDF這種方法,通過建立倒排索引可使查詢變得很快,但實(shí)際上解決的只是詞匯層面的相似度問題。這些方法實(shí)則上有很大的局限,解決不了更深層的語義或知識(shí)缺陷。而之后出現(xiàn)的基于深度學(xué)習(xí)的方法則在一定程度上開始解決這些問題。

研究者將介紹目前在深度學(xué)習(xí)中主流的三種文本匹配算法:基于向量相似度計(jì)算的方法、基于深度神經(jīng)網(wǎng)絡(luò)匹配的方法和基于預(yù)訓(xùn)練模型匹配的方法。研究者會(huì)詳細(xì)闡述這三種方法的實(shí)現(xiàn)方式和原理,并對(duì)其各自的優(yōu)勢(shì)和局限性進(jìn)行簡(jiǎn)要的闡述。最后會(huì)在此基礎(chǔ)上總結(jié)目前亟待解決的問題和未來的研究趨勢(shì)。

1 基于向量相似度計(jì)算的算法

傳統(tǒng)方式中文本與文本之間的相似度計(jì)算有多種方式:BOW、TF-IDF和N-Gram等,這些算法通過對(duì)句子分詞之后得到每個(gè)詞語或詞塊的表示,之后再對(duì)所有表示取平均獲取到整個(gè)句子的表示。假設(shè)兩個(gè)句子分別為p1和p2,則通過以上方式獲取到兩個(gè)句子的句向量,再對(duì)兩個(gè)向量求余弦相似度則獲取到兩個(gè)文本的相似度:

如果在兩個(gè)句子中出現(xiàn)了同義詞,雖然它們字面不同,但其表達(dá)的意思是一樣的,傳統(tǒng)方法則不能解決這類問題。詞嵌入最早是出現(xiàn)于Bengio在2003年提出的NNLM[1]中,其將原始的one-hot向量通過嵌入一個(gè)線性的投影矩陣映射到一個(gè)稠密的連續(xù)向量中,并且通過建立一個(gè)語言模型的任務(wù)來學(xué)習(xí)這個(gè)向量的權(quán)重,而這個(gè)向量也就可以看作詞向量。后面在2013年出現(xiàn)的Word2Vec[2]以及其他更多的NLP模型都運(yùn)用到了這種思想。在Word2Vec出現(xiàn)后,基于詞向量來做更多的NLP衍生任務(wù)也成為了一時(shí)的主流。Word2Vec中主要可以利用CBOW和Skip-Gram兩種模型來分別學(xué)習(xí)向量的權(quán)重,它們的本質(zhì)實(shí)質(zhì)上都是對(duì)NNLM模型的改進(jìn)。如圖1所示,如果是用一個(gè)詞語作為輸入,來預(yù)測(cè)它的周圍的上下文,那這個(gè)模型叫做Skip-Gram模型;而如果是一個(gè)詞語的上下文作為輸入,去預(yù)測(cè)這個(gè)詞語本身,則是CBOW模型。

圖1 CBOW和Skip-Gram模型

之前的NNLM模型其實(shí)存在比較嚴(yán)重的問題,就是訓(xùn)練太慢了。即便是在百萬量級(jí)的數(shù)據(jù)集上,借助了40個(gè)CPU訓(xùn)練,NNLM也需要數(shù)周才能給出一個(gè)稍微靠譜的結(jié)果。Word2Vec中引入了兩種優(yōu)化算法:層次Softmax和負(fù)采樣來加速訓(xùn)練,兩者的本質(zhì)分別是將N分類問題轉(zhuǎn)變成log(N)次二分類和預(yù)測(cè)總體類別的一個(gè)子集。在詞嵌入領(lǐng)域,除了Word2Vec之外,還有基于共現(xiàn)矩陣分解的Glove[3]等詞嵌入方法。鑒于詞語是NLP任務(wù)中最細(xì)粒的表達(dá),所以詞向量的運(yùn)用很廣泛,不僅可以執(zhí)行詞語層面的任務(wù),也可以作為很多模型的輸入,執(zhí)行句子層面的任務(wù)。

使用Word2Vec這種詞向量作為每個(gè)單詞的表示之后,能夠更好地解決之前所說的同義詞問題。這種對(duì)每個(gè)詞語取平均的方式是獲取句子向量的最簡(jiǎn)單方式,但實(shí)質(zhì)上其并沒有很好地解決句子主題含義相似的問題,雖然兩個(gè)句子字面可能很相似,但主題意思卻完全相反。之后出現(xiàn)的很多研究人員提出了例如Sentence2vec和Doc2vec之類的方法,也有像Sentence-Bert[4]這樣結(jié)合孿生網(wǎng)絡(luò)和預(yù)訓(xùn)練模型獲取句子向量的方式。由于目前神經(jīng)網(wǎng)絡(luò)的參數(shù)越來越多,在每次推測(cè)的過程中通過神經(jīng)網(wǎng)絡(luò)會(huì)消耗很多時(shí)間,而在實(shí)時(shí)性要求很高的情況下例如搜索引擎,將候選項(xiàng)文本都轉(zhuǎn)化為向量存儲(chǔ)起來,再做向量之間的相似度計(jì)算,并不會(huì)消耗很多的時(shí)間,所以怎么在這個(gè)方向提高效果是研究人員一直都在努力的方向。

2 基于深度神經(jīng)網(wǎng)絡(luò)匹配的方法

隨著深度學(xué)習(xí)在近幾年的蓬勃發(fā)展,很多研究開始致力于將深度神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于自然語言處理任務(wù)中。利用詞向量來進(jìn)行文本匹配計(jì)算,簡(jiǎn)潔且快速,但是其只是利用無標(biāo)注數(shù)據(jù)訓(xùn)練得到,在效果上和主題模型技術(shù)相差不大,本質(zhì)上都是基于共現(xiàn)信息的訓(xùn)練。為了解決短語、句子的語義表示問題,和文本匹配上的非對(duì)稱問題,陸續(xù)出現(xiàn)了很多基于神經(jīng)網(wǎng)絡(luò)的深度文本匹配模型。一般來說,它們主要分為兩種:表示型和交互型,下面將一一探討。

2.1 表示型深度文本匹配模型

表示型匹配模型更側(cè)重于對(duì)文本表示層的構(gòu)建,會(huì)在表示層就將文本轉(zhuǎn)化成一個(gè)唯一的整體表示向量,其思路基于孿生網(wǎng)絡(luò),會(huì)利用多層神經(jīng)網(wǎng)絡(luò)提取文本整體語義之后再進(jìn)行匹配。其中表示層編碼可使用常見的全連接神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)或者基于注意力機(jī)制的模型等,而匹配層交互計(jì)算也有多種方式:使用點(diǎn)積、余弦矩陣、高斯距離、全連接神經(jīng)網(wǎng)絡(luò)或者相似度矩陣等。一般會(huì)根據(jù)不同的任務(wù)類型和數(shù)據(jù)情況,選擇不同的方式。

開創(chuàng)表示型匹配模型先河的是微軟所提出的DSSM[5],它的原理是通過搜索引擎中的問題和標(biāo)題之間的海量點(diǎn)擊曝光日志,用深度神經(jīng)網(wǎng)絡(luò)將兩者表達(dá)為低維的語義向量之后,再利用余弦距離來計(jì)算兩個(gè)語義向量的相似度,最終訓(xùn)練出語義相似度的模型。這個(gè)模型不僅可以用來預(yù)測(cè)兩個(gè)句子的語義相似度,又可以獲得某個(gè)句子的低維語義向量表達(dá)。之后在DSSM的基礎(chǔ)上又出現(xiàn)了一系列的模型,例如CDSSM[6]、MV-LSTM[7]和ARC-I[8]等,這些模型大體上的結(jié)構(gòu)都是圖2所示,只是將表達(dá)層或者匹配層換成了更復(fù)雜、效果更好的模型結(jié)構(gòu)。

圖2 表示型匹配模型

在表示型模型上做研究,主要基于以下兩個(gè)方向:①加強(qiáng)編碼表示層的模型結(jié)構(gòu),獲取到更好的文本表示。②加強(qiáng)匹配層的計(jì)算方式。而基于第一點(diǎn)則出現(xiàn)了各種各樣的模型。表示型模型可以對(duì)文本預(yù)處理后,先構(gòu)建索引,這樣就可以大幅度地降低在推理時(shí)候的計(jì)算耗時(shí),但是其缺點(diǎn)也是顯而易見:因?yàn)樾枰獙?duì)兩個(gè)句子分別進(jìn)行編碼表示,這樣就會(huì)失去語義的焦點(diǎn),從而難以衡量?jī)蓚€(gè)句子之間的上下文重要性。

2.2 交互型深度文本匹配模型

如圖3所示,交互型模型和表達(dá)型模型是不同的思路,其擯棄了先編碼后匹配的思路,在輸入層就對(duì)文本先進(jìn)行匹配,并將匹配了的結(jié)果再進(jìn)行后續(xù)的建模。交互型模型的思想是先捕捉到兩個(gè)文本之間的匹配信息,將字詞之間的匹配信息再作為灰度圖,然后進(jìn)行后續(xù)的建模抽象,獲取到最后它們的相關(guān)性評(píng)價(jià)。其中交互層主要是通過以注意力機(jī)制為代表的結(jié)構(gòu)來對(duì)兩段文本進(jìn)行不同粒度的交互,然后再將各個(gè)粒度的匹配結(jié)果給聚合起來,得到一個(gè)表示這種信息的特征矩陣。而這里可采用的注意力方式也有很多,根據(jù)不同的注意力機(jī)制可得到相應(yīng)的效果。之后的表示層則負(fù)責(zé)對(duì)得到的特征矩陣進(jìn)行抽象表征,也就是對(duì)兩個(gè)語句之間得到的匹配信息再進(jìn)行抽象。

圖3 交互型匹配模型

基于交互型的經(jīng)典匹配模型有:MatchPyramid[9]、DRMM[10]和ESIM[11]等。之后的一些基于注意力機(jī)制的模型,在將模型變得更深同時(shí)交互層變得更復(fù)雜外,其實(shí)很多模型都只是在一兩個(gè)數(shù)據(jù)集上搜索結(jié)構(gòu)將分?jǐn)?shù)提升了上去,導(dǎo)致這些模型在某個(gè)場(chǎng)景效果很好,但是到了另外的場(chǎng)景就效果不佳了。

交互型的文本匹配模型很好地把握了語義焦點(diǎn),隨著更深的結(jié)構(gòu)和更復(fù)雜的交互出現(xiàn),也能捕捉到更深層的語義信息,能對(duì)上下文重要性更好的建模。但也像上文所說,其實(shí)在預(yù)訓(xùn)練模型出現(xiàn)的很多復(fù)雜的交互型匹配模型,雖然結(jié)構(gòu)復(fù)雜,也用到了很多復(fù)雜的注意力機(jī)制,但實(shí)質(zhì)上在很多普遍的場(chǎng)景下,其實(shí)最簡(jiǎn)單的基于卷積神經(jīng)網(wǎng)絡(luò)或者循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)就能得到可靠的結(jié)果。交互型模型的缺點(diǎn)是其忽視了句法、句間對(duì)照等全局性的信息,從而無法由局部信息刻畫出全局的匹配信息。

3 基于預(yù)訓(xùn)練模型匹配的方法

2018年谷歌公司所推出的BERT[12]模型大放異彩,在11項(xiàng)自然語言處理任務(wù)上都達(dá)到了最好的效果,并且遠(yuǎn)遠(yuǎn)地甩掉了之前的模型,從而將自然語言處理的研究帶入了預(yù)訓(xùn)練模型時(shí)代。自注意力機(jī)制提出后,加入了注意力機(jī)制的自然語言處理模型在很多任務(wù)都得到了提升,之后Vaswani等人提出的Transformer模型,用全注意力的結(jié)構(gòu)代替了傳統(tǒng)的LSTM,在翻譯任務(wù)上取到了更好的成績(jī)。而BERT模型就是基于Transformer的,它主要?jiǎng)?chuàng)新點(diǎn)都在預(yù)訓(xùn)練的方法上,即用了Masked LM和Next Sentence Prediction兩種方法去分別捕捉詞語和句子級(jí)別的表達(dá),并且在大規(guī)模的無監(jiān)督語料下進(jìn)行訓(xùn)練,從而得到訓(xùn)練好的模型。之后再利用預(yù)訓(xùn)練好的語言模型,在特定的場(chǎng)景和數(shù)據(jù)下去完成具體的NLP下游任務(wù),由于Next Sentence Prediction這個(gè)訓(xùn)練任務(wù)是句子與句子之間構(gòu)成的問題,所以利用BERT來做文本匹配是有天然的優(yōu)勢(shì)。

如圖4,利用BERT來完成文本匹配任務(wù)的話,首先是需要將在首部加入[CLS],在兩個(gè)句子之間加入[SEP]作為分隔。然后,對(duì)BERT最后一層輸出取[CLS]的向量并通過MLP即可完成多分類任務(wù)。使用預(yù)訓(xùn)練好的BERT模型在很多文本匹配任務(wù)例如MNLI、QQP、MRPC、QNLI等上都達(dá)到了SOTA效果。

圖4 使用BERT進(jìn)行文本匹配

預(yù)訓(xùn)練好的BERT模型也可以直接拿來取最后一層輸出作為句向量,但這樣的效果甚至不如詞向量,直接拿[CLS]特征的效果最差,可見BERT模型暫時(shí)只適合在特定的任務(wù)下微調(diào),之后使用微調(diào)后的BERT模型來預(yù)測(cè),這樣才能得到最佳的效果。后續(xù)出現(xiàn)的Sentence-BERT,利用孿生網(wǎng)絡(luò)的優(yōu)勢(shì),可以利用訓(xùn)練后的BERT取的效果較好的句子特征,但依然沒有直接使用微調(diào)后的BERT效果好。

BERT是最新的自然語言處理SOTA模型,后續(xù)也出現(xiàn)了很多類似于BERT或者在BERT上改進(jìn)的預(yù)訓(xùn)練模型,其拋棄了傳統(tǒng)的RNN結(jié)構(gòu),全面使用Transformer,可以并行訓(xùn)練,加快了訓(xùn)練速度,同時(shí)也能捕捉到更長距離的依賴信息。之前也出現(xiàn)過GPT[13]這樣的預(yù)訓(xùn)練模型,但BERT捕捉到了真正意義上的雙向上下文信息。當(dāng)然BERT也有一些缺陷:例如超多的參數(shù)和超深的網(wǎng)絡(luò),導(dǎo)致BERT在預(yù)測(cè)時(shí)候其實(shí)速度很慢,對(duì)于實(shí)時(shí)性要求較高的文本匹配任務(wù)稍顯吃力,BERT之后研究者們也在這方面做了很多工作。同時(shí)BERT在預(yù)訓(xùn)練中[MASK]標(biāo)記在實(shí)際預(yù)測(cè)中不會(huì)出現(xiàn),所以訓(xùn)練時(shí)用過多的[MASK]其實(shí)會(huì)影響到模型的實(shí)際表現(xiàn)。

4 結(jié)語

研究者探討了深度學(xué)習(xí)時(shí)代以來出現(xiàn)過的可用于文本匹配的算法。基于向量相似度計(jì)算的方法是最為高效的方式,在以毫秒級(jí)嚴(yán)格要求的工業(yè)界,也是最容易被廣泛運(yùn)用的一種方法。但是如何將語句的語義含義、主題意義等更深于字面的信息嵌入到向量表示中,目前看來還是一個(gè)大研究方向。而基于深度神經(jīng)網(wǎng)絡(luò)的匹配方法,不管是基于表示型還是基于匹配型,其簡(jiǎn)單的思想和復(fù)雜的結(jié)構(gòu)也對(duì)應(yīng)了自然語言處理的發(fā)展趨勢(shì),但是目前很多模型其實(shí)都只是在一兩個(gè)數(shù)據(jù)集上表現(xiàn)好,而在普遍的任務(wù)上泛化能力還不強(qiáng),同理復(fù)雜的參數(shù)也是讓想要應(yīng)用這些模型到實(shí)際應(yīng)用中的研究者望而卻步,實(shí)際上工業(yè)界用到最多的還是最先提出的基于DSSM的改進(jìn)模型,因?yàn)槠浜?jiǎn)單、速度快,而且在大規(guī)模數(shù)據(jù)上訓(xùn)練之后效果也還不錯(cuò)。

隨著BERT模型的出現(xiàn),基于預(yù)訓(xùn)練模型的文本匹配算法也開始逐漸走上大舞臺(tái)。這些預(yù)訓(xùn)練模型由于在超大規(guī)模的無監(jiān)督語料上訓(xùn)練,同時(shí)擁有著千萬級(jí)的學(xué)習(xí)參數(shù),所以效果也遠(yuǎn)遠(yuǎn)地超過了之前的一些模型。但同樣的問題是如何將這些大模型運(yùn)用到實(shí)際生活中,也是一項(xiàng)很大的挑戰(zhàn)。所以最近,已經(jīng)有很多研究者開始不再糾結(jié)于去提高預(yù)訓(xùn)練模型的效果,而是研究如何蒸餾模型,讓小模型也能學(xué)到同樣多的知識(shí)。同時(shí),BERT之類的預(yù)訓(xùn)練模型雖然能夠利用已經(jīng)學(xué)到的東西,去判斷兩個(gè)文本間的匹配度,但是對(duì)于一些外部知識(shí)卻無法解決,所以一些研究者也開始嘗試將諸如知識(shí)圖譜之類的外部知識(shí)引入到預(yù)訓(xùn)練模型中。

文本匹配是自然語言處理中的一項(xiàng)重要任務(wù),這三類算法也是研究者們?cè)谔剿鞯拈L河中提出的重要代表而已,相信不久的將來將會(huì)有新的算法來將這項(xiàng)任務(wù)推到更高的高度。

猜你喜歡
語義深度文本
深度理解一元一次方程
語言與語義
在808DA上文本顯示的改善
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 91外围女在线观看| 精品少妇人妻av无码久久| 欧美曰批视频免费播放免费| 精品91自产拍在线| 国产全黄a一级毛片| 欧美亚洲国产精品久久蜜芽| 日韩欧美综合在线制服| 国产精品亚洲五月天高清| 欧美日韩精品一区二区在线线| 亚洲精品自在线拍| 热热久久狠狠偷偷色男同| 人妻精品久久无码区| 无码人妻免费| 91精品伊人久久大香线蕉| 亚洲第一色网站| 欧美成人A视频| 欧美一区二区啪啪| 亚洲无码A视频在线| 无码一区二区三区视频在线播放| 欧美成人综合在线| 亚洲色欲色欲www在线观看| 日韩a级片视频| 影音先锋亚洲无码| 国产精品性| 久久毛片基地| 国产精品粉嫩| 色综合网址| 无码人中文字幕| 拍国产真实乱人偷精品| 黄色网页在线观看| 欧美国产中文| 波多野结衣中文字幕一区二区| 国产白浆在线| 免费无码AV片在线观看中文| 国产精品一老牛影视频| 国产精品无码AV中文| 亚洲成人一区在线| 一级毛片免费播放视频| jizz在线观看| 免费国产不卡午夜福在线观看| 丰满人妻中出白浆| 国产视频大全| 成人在线视频一区| 亚洲精品无码专区在线观看| 国产97视频在线| 免费看的一级毛片| 亚洲综合国产一区二区三区| 91色综合综合热五月激情| 国产精品成人第一区| 91在线视频福利| 免费不卡视频| 欧美成人一级| 亚洲中文字幕23页在线| 日本欧美成人免费| 欧美第九页| 国产最新无码专区在线| 尤物精品国产福利网站| 国语少妇高潮| 成人福利视频网| 欧美日韩综合网| 久久精品亚洲热综合一区二区| 日a本亚洲中文在线观看| 婷婷伊人五月| 欧美激情网址| 国产av无码日韩av无码网站| 永久天堂网Av| 亚洲国产中文精品va在线播放 | 色综合网址| 青青青伊人色综合久久| 免费 国产 无码久久久| 国产一区二区在线视频观看| 国产精品久久久久久影院| 亚洲码一区二区三区| 国产一区二区三区在线观看视频| 国产成人精品免费av| 国产成人综合亚洲网址| 特级精品毛片免费观看| 波多野结衣一区二区三区88| 中文毛片无遮挡播放免费| 天天躁夜夜躁狠狠躁图片| 色135综合网| 91丝袜在线观看|