999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融入文檔詞權重的跨境民族文化文本檢索方法*

2021-05-08 06:10:14龍小龍
通信技術 2021年4期
關鍵詞:語義文本模型

龍小龍

(1.昆明理工大學,云南 昆明 650500;2.云南省人工智能重點實驗室,云南 昆明 650500)

0 引言

信息檢索的傳統模型通常是根據匹配信號的準確程度來評價查詢和文檔之間相關性的。也就是說,相關性分數是由文檔中查詢詞的頻率決定的。由于語義匹配信號被忽略,模型面臨典型的術語不匹配問題[1]。近年來在許多NLP任務中,深度神經網絡取得了非常不錯的效果。同時,深度神經網絡也被應用于信息檢索,稱為神經信息檢索,對檢索模型中的單詞重要性進行建模具有重要意義。在傳統的檢索模型中,逆文檔頻率成為測量文檔詞重要性的重要指標[2]。通常這些模型只在意和查詢詞相同的文檔詞,因此它們一般只測量逆文檔頻率的重要程度。近年來,把查詢和文檔的語義匹配進行建模正在被神經檢索模型應用。因此,與查詢詞有關的詞也被用來衡量相關性。對于跨境民族文化領域來說,文檔詞對文檔檢索具有非常重要的作用,而這些文檔詞的重要性被目前的神經檢索模型忽視,這在相關性判斷中是至關重要的,因此通用的神經檢索模型對跨境民族文化領域的文本檢索效果并不好。下面是具體的案例。

查詢:介紹傣族的傳統節日,比如開門節。

文本A的一個片段:潑水節是傣族、泰語民族以及東南亞地區的傳統節日,潑水節在每年4月12—15日,節日會舉辦3~4天。

文本B的一個片段:流行于整個傣族地區的傣族舞是傣族古老的民間舞,也是傣族人民最喜愛的舞蹈。

當兩段文本A、B都有與查詢詞相同的實體“傣族”的時候,文檔詞對于檢索結果的精度十分重要,考慮到傣族和潑水節在查詢中提供的語義環境,文檔詞“潑水節”的重要性應該大于“傣族舞”,因此在不強調文檔詞重要性的情況下,很容易出現匹配錯誤。當強調文檔詞的重要性時,它將提高檢索的精度。

針對跨境民族文化領域文本所具有的特點,本文從檢索精度出發,在建模查詢和文檔之間的相關性時考慮了文檔詞的重要性,用于對跨境民族文化領域文本檢索。具體來說,CETR模型是以查詢和文檔的原始文本詞嵌入為輸入,通過Bi-LSTM提取其上下文特征,且把查詢與文檔的隱向量構建成一個相似矩陣,再把文檔詞的權重嵌入到相似矩陣中以形成一個新的矩陣。通過CNN提取相似矩陣中的特征,不僅可以捕獲匹配信號,還可以捕獲文檔詞的重要性,然后把CNN提取的特征矩陣應用于Max-pooling層,得到最強的關聯信號,并投影到多層感知器的神經網絡中,得到最終的匹配得分。

本文進行了對比實驗,驗證本文模型的有效性。在跨境民族文化領域數據集中測試了本文的模型。實驗結果表明,和現有的檢索模型相比,CETR模型在檢索精度上具有明顯的提升。

1 相關工作

文本檢索指的是通過用戶輸入的關鍵詞或句子使用檢索算法從海量的文本數據中獲得用戶所需要的文本信息。目前的文本檢索模型主要分為兩大類:傳統文本匹配模型和基于深度學習的語義匹配模型。

傳統文本匹配模型主要包括布爾模型[3]、向量空間模型[4]等模型。傳統的文本匹配模型存在比較大的問題,它們在運用關鍵詞進行檢索時,檢索結果并不準確,只能粗糙地檢索出用戶所需要的部分文本。

早期的研究主要集中在基于語義表示的文本匹配模型上,這些模型通過學習良好的文本語義表示,并且在查詢和文本的語義表示空間中進行匹配。Shen等人[5]提出了CLSM模型,通過詞的n-gram和卷積池化操作來捕獲上下文關系,彌補DSSM上下文特征捕捉不足的問題。Huang等人[6]提出了DSSM模型,其核心思想是把用戶輸入的查詢數據以及待檢索的文檔分別進行詞向量表示,然后把這二者的詞向量分別映射到兩個維度相同的語義空間,再對這兩個語義空間進行Cosine相似度計算,通過相似度值來判斷這兩個文本的相關性,以此來達到信息檢索的目的。覃遵躍等人[7]提出對XML數據采用關鍵字檢索,通過用戶查詢意圖與LCA相關性兩個規則建立節點評分公式,以此提高排名的準確性。馬小霞等人[8]提出了一種基于領域本體的文本信息檢索模型,利用領域本體對主題標引和實體關系標引進行指導,進一步提高了信息檢索系統的性能。Palangi等人[9]提出了LSTMSM模型,使用LSTM神經網絡來對文本進行全局上下文特征進行提取,以此來彌補CLSM無法捕獲較遠距離上下文特征的缺點。章露露等人[10]利用分布式神經語言概率模型訓練低維詞向量,以此來擴展查詢詞,豐富查詢詞的語義信息,提高檢索的準確率。

基于交互的文本匹配模型的思想是首先將文本中的詞語映射為低維表示的詞向量,然后通過對兩個句子之間的單元進行匹配產生相似度向量,最后學習相似度向量中的信息產生相關度得分。如:Pang等人[11]提出MatchPyramid模型,首先構造一個表示詞與詞之間相似性的匹配矩陣,并將其視為圖像,然后用CNN逐層提取特征。Gong等人[12]提出了DIIN模型,同時采用了詞向量、字向量來進行詞語表征,然后對詞、字向量進行交互,并且利用CNN與LSTM來做特征提取。汪琦凡等人[13]提出利用引文上下文語義構建一個引文網絡,然后通過排序算法找出重要文獻,以達到提升檢索效率和效果的目的。Guo等人[14]提出了DRMM模型,首先對查詢和文檔的每個詞項建立局部交互關系,然后把變長的局部交互轉變為定長的匹配直方圖,利用前饋網絡學習層次匹配模式,對查詢中的每個詞項計算匹配分數。趙偉強等人[15]提出一種雙循環遷移排序學習方法,該方法基于生成對抗網絡,直接將源域數據映射到目標域數據中,實驗表明該方法比主流方法有更好的效果。Xiong等人[16]提出一種基于核函數的文檔排序神經網絡模型K-NRM,首先構建查詢與文檔的相似矩陣,然后使用 RBF Kernel 進行 Kernel Pooling,取 log 相加后接一個全鏈接進行二分類,以分類的結果來判斷文本的匹配程度。Tan[17]等人提出MWAN模型,采用了GloVe模型進行詞向量表示,然后利用BiGRU升級網絡提取文本特征。

關于民族文本檢索方法的研究,袁軍[18]利用語義Web與Web服務技術以提高分散、無序的已有民族文化網絡資源在Internet上的檢索效率與共享;隗昊[19]通過構建民族節日領域本體來對利用SVM技術獲取的民族節日相關文本進行檢索;張俊波[20]針對本體模型與數據庫模型之間存在著巨大的差距問題,通過將數據庫與本體庫進行融合,對民族信息資源的語義檢索進行了研究。

通過實驗得知,現有的檢索模型在跨境民族文化文本檢索任務上效果不理想,存在許多匹配錯誤的問題,其中MatchPyramid模型精度最高。通過對跨境民族文化領域的語料進行分析發現,該語料有以下特點,查詢句中的實體在文檔中存在較大的概率重復性。當查詢句的實體在多條文檔中同時出現時,只考慮查詢詞的權重顯然不夠,而現有的檢索模型包括MatchPyramid模型只考慮到了查詢詞的重要性。因此,結合語料特點,本文在MatchPyramid模型上融入文檔詞的權重,即考慮每個文檔詞對檢索的貢獻程度,并在輸入端對查詢詞和文檔詞進行初步的特征提取,以此來提高跨境民族文化領域文本檢索的精度。

2 融入文檔詞權重的跨境民族文本檢索模型

通過以上分析,本文提出了CETR模型來提高跨境民族文本檢索的精度。本文的模型分為4個部分。第一部分使用的是Bi-LSTM網絡對q-term和d-term進行上下文編碼,在每個位置上拼接前向和后向的LSTM的隱層狀態,然后構建q-term與d-term的交互矩陣。為了強調文檔詞的重要性,將文檔詞的權重添加到當前的交互矩陣中,形成一個新的交互矩陣。第二部分是利用CNN對交互矩陣進行特征抽取,然后使用Max-pooling池化層,選擇查詢維度最強的信號作為下一層的輸入。第三部分是用全連接對CNN的結果進行轉換,使用softmax函數得到最終分類概率。其模型框架如圖1所示。

在CETR模型中,查詢詞和文檔通過Word2vec進行詞向量表示,即Q={Q1,Q2,…,QM}和D={D1,D2,…,DM}分別表示查詢和文檔的詞向量,通過Bi-LSTM后,其隱向量分別q={q1,q2,…,qM}為和d={d1,d2,…,dM}。將文本匹配的輸入表示為匹配交互矩陣m,則上述每個元素mij表示基本交互,即qi和dj的相似度,qi表示查詢文本中的第i個字的隱向量,dj表示文檔中的第j個字的隱向量,其中M表示查詢的長度,N表示文檔的長度,模型公式如下所示:

式中,gqi和gdj分別表示查詢詞和文檔詞的權重,wqi和wdj分別為對應神經節點的權值,查詢詞權重是由softmax計算出來的,文檔詞權重是由公式(1)計算出來的,rk為第k個核的大小,dk和分別表示對應池化內核的寬度和長度。CETR模型使用余弦相似度作為交互運算符。然后在交互矩陣上用CNN進行特征提取,第k個核W(1,k)掃描整個交互矩陣并生成特征圖Z(k),然后通過Max-pooling來得到交互矩陣的最強特征。

圖1 融入文檔詞權重的文本檢索模型框架

2.1 交互矩陣

首先查詢和文檔的初始向量是通過Word2vec得到的,通過Bi-LSTM后得到各自的隱向量,再通過IDF計算出文檔詞中每個字的權重,并融入文檔詞隱向量中,最后計算出查詢詞隱向量和融入文檔詞權重的文檔詞隱向量之間的相似度,并且形成交互矩陣。

2.2 卷積層和多層神經網絡

類似于CNN在圖像識別中可以根據提取出的基本視覺模式進行抽象,CETR模型中的層次卷積也可以從詞級匹配中獲取重要的短語級交互,并進行進一步合成。由于不同查詢詞的重要性不同,本文使用權重系數來區分它。權重越大,查詢中的單詞越重要。CETR模型使用加權網絡計算不同查詢詞的權重系數。對于多層神經網絡,CETR模型構建了多層神經網絡。基于神經網絡強大的數據擬合和學習能力,逐一提取特征.隨著網絡的逐漸深入,提取的特征越來越抽象。由于每個查詢的重要性不同,多層神經網絡的輸出結合查詢重要性得到最終的分數,用于文檔排序。

2.3 匹配得分和訓練

本文使用多層感知機(Multi-Layer Perception,MLP)來生成匹配的final分數。s0和s1為對應類的匹配分數,Z為層次卷積的輸出,Wi為第i個MLP層的權值。σ為激活函數。利用softmax函數輸出屬于各類的概率,以交叉熵作為訓練的目標函數,其中y(i)是第i個訓練實例的標簽。公式如下:

3 實 驗

本文與幾個經典模型進行了比較,闡述了實驗過程、結果和分析。本文所用的數據集是跨境民族領域的文檔,由網絡爬蟲從網站上采集,用戶的點擊作為文檔排序的依據,包括8 000個文檔和800個查詢,一個查詢對應10個文檔,其中包含正負文檔。訓練數據與測試數據的比例為15:1,即有7 500條訓練數據和500條測試數據。

3.1 對比實驗

對比基線模型,CETR模型的檢索效果有很大的提升,模型在跨境民族文化數據集中的實驗結果如表1所示。可見,傳統的模型BM25比以表示為中心的模型(包括DSSM、CDSSM、ARC-I)精度更高。在所有以交互為中心的模型中,MatchPyramid模型的檢索效果最好且強于所有以表示為中心的模型。

本文在實驗中使用NDCG、p@n和MAP作為評價模型檢索精度的指標,對照最佳深度學習基線模型的改進。CETR模型NDCG@10提高了約9.7%,P@1提高了約8.9%,MAP提高了約9.8%。由此說明了本文的模型在面向跨境民族文化領域檢索任務上的優越性。

3.2 消融實驗

表2顯示了以表示為中心的模型(DSSM、CDSSM、ARC-I)、以交互為中心的模型(DRMM、ARC-II、MatchPyramid、K-NRM)和本文的模型CETR在通用數據集MQ2007上的實驗效果。

可以看出,CETR模型和性能最好的模型K-NRM在通用數據集MQ2007上檢索精度相當,都優于所試驗的其他模型,但并沒有明顯的提高。和表1對比可以看出,CETR模型在跨境民族文化領域數據集的檢索精度相比于其他模型有很大的提高,因此可以說它是專門為跨境民族文化領域文本檢索而設計的模型。

表1 不同檢索模型在跨境民族領域數據集上的比較

表2 不同檢索模型在數據集MQ2007上的比較

4 結語

本文介紹了用于檢索特定領域文本的CETR模型,由于跨境民族文化領域文本的特殊性,此模型強調了文檔詞在檢索任務中的重要性,并用Bi-LSTM對文本進行初步的特征提取,再通過CNN對其交互矩陣進行進一步的特征提取,利用Maxpooling在消除噪聲的同時提取出最強信號。模型的每個部分都可以并行化,使得產生大規模的商業產品成為可能。由于CETR是字詞級的,未來將考慮在模型中添加短語級和句子級匹配,深入研究對跨境民族文化領域文本檢索有利的因素,并將其引入新模型。

猜你喜歡
語義文本模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 欧美日本不卡| yjizz视频最新网站在线| 国产永久无码观看在线| 毛片在线区| 狠狠色丁香婷婷| 一级做a爰片久久毛片毛片| 为你提供最新久久精品久久综合| 成年A级毛片| 日韩在线成年视频人网站观看| 亚洲精品图区| 爱色欧美亚洲综合图区| 国产美女免费| 99er这里只有精品| 色综合中文字幕| 欧美日韩久久综合| 国产另类视频| 蜜桃臀无码内射一区二区三区| 青草91视频免费观看| 国产青榴视频| 国产黄色视频综合| 国产爽歪歪免费视频在线观看| 亚洲狠狠婷婷综合久久久久| 国产在线无码一区二区三区| 亚洲人成成无码网WWW| 国产福利大秀91| 国产极品美女在线播放 | h网址在线观看| 青青久视频| 久久国产V一级毛多内射| 中文字幕在线永久在线视频2020| 四虎成人在线视频| 久草热视频在线| 亚洲精品无码不卡在线播放| 欧美日韩高清在线| 亚洲综合婷婷激情| 蜜芽国产尤物av尤物在线看| 国产女人爽到高潮的免费视频| 国产成人精品一区二区免费看京| 无码福利视频| 久久美女精品国产精品亚洲| 国产男女免费视频| 午夜啪啪福利| 久久久久无码精品国产免费| 中文字幕免费播放| 日本精品视频一区二区| 囯产av无码片毛片一级| 日韩黄色精品| 中文字幕 日韩 欧美| 欧美日韩成人在线观看| 国产乱子伦手机在线| 一本大道香蕉高清久久| 国产jizzjizz视频| 自拍中文字幕| 国产真实乱子伦精品视手机观看 | 日韩欧美中文字幕在线精品| 8090成人午夜精品| 亚洲va欧美ⅴa国产va影院| 一本色道久久88| 日本黄网在线观看| 午夜性爽视频男人的天堂| AV天堂资源福利在线观看| 无码丝袜人妻| 日韩精品久久无码中文字幕色欲| 色综合天天综合| 中文字幕亚洲乱码熟女1区2区| 99在线视频免费观看| 国产成+人+综合+亚洲欧美| 亚洲女同欧美在线| 国产日韩欧美视频| 国产 日韩 欧美 第二页| 在线视频一区二区三区不卡| 欧美午夜视频在线| 中文字幕天无码久久精品视频免费| 在线国产毛片| 国产真实乱子伦视频播放| 国产一线在线| 狠狠做深爱婷婷综合一区| 制服丝袜国产精品| 日本国产精品一区久久久| 欧美日韩理论| 乱人伦99久久| 一级毛片a女人刺激视频免费 |