999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于漢字形音義多元知識和標簽嵌入的文本語義匹配模型

2024-05-09 02:56:42趙云肖李欣杰蘇雪峰施艷蕊喬雪妮胡志偉閆智超
中文信息學報 2024年3期
關鍵詞:語義文本信息

趙云肖,李 茹,3,李欣杰,蘇雪峰,4,施艷蕊,喬雪妮,胡志偉,閆智超

(1. 山西大學 計算機與信息技術學院,山西 太原 030006;2. 中譯語通科技股份有限公司,北京 100043;3. 山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;4. 山西工程科技職業大學 現代物流學院,山西 晉中 030609)

0 引言

文本語義匹配(Text Semantic Matching,TSM)是自然語言處理的一項基礎技術,廣泛應用于機器閱讀理解、信息檢索、問答等任務中,它要求模型能夠通過比較給定的兩段文本確定它們之間的語義關系[1]。由于人類自然語言真實場景的語義表達靈活多變,研究兩個文本間的語義關系一直以來都至關重要[2]。

近些年來,研究人員一直在推動文本語義匹配技術的發展,如ConvNet模型[3]、ABCNN模型[4]、DRCN模型[5],以及以BERT[6]為代表的預訓練模型等,這些都極大地促進了文本語義匹配技術的進步[6-7]。但隨著大數據時代互聯網文本數據的發展,人們發現基于深度神經網絡的模型雖然在一些匹配數據集上取得了與人類相仿甚至超越人類的效果,但在處理真實應用場景中的文本時仍面臨著能力不足的缺陷(1)https://www.datafountain.cn/competitions/516/datasets。

分析相關前沿語義匹配數據集發現,在真實應用場景下導致模型無法精準預測匹配結果的干擾因素主要來自兩個層面: ①來自文本語義層面; ②來自標簽語義層面。其中,前者的干擾因素主要是因為現有模型常常忽略文本字形與拼音的信息表示;后者的干擾主要是因為現有模型在編碼后直接經過分類層便得到預測結果,忽略了標簽信息也隱含著分類的重要特征。表1給出了現階段模型忽略文本語義層面與標簽語義層面的典型案例。

表1 現有模型忽略重要信息的典型案例

如表1所示,樣例1~樣例6的案例表明現有模型僅從漢字字符的角度不能精準判別文本間的語義一致性。首先,如樣例1案例表明,當漢字字符不能提供額外的分類特征時,拼音維度的特征信息(/jiu/yi/nian/shu/shen/me/?)可能會對模型的精準分類起到作用。其次,樣例2~樣例4的案例表明: ①現有模型對文本間關鍵詞匯的區分僅從漢字字符的角度進行區分遠不夠; ②關鍵詞匯的釋義信息對模型的精準分類至關重要。此外,樣例5~樣例6的案例表明,在真實場景案例表達的語義一致但漢字字符語義不一致的情況下,真實標簽(用1表示)隱含了案例一致的關鍵語義信息。標簽所隱含的語義信息往往有助于模型的精準分類,而現有模型在匹配分類時尚未考慮標簽信息對模型性能的影響。

現階段,文本語義匹配任務面臨的問題是文本層面和標簽層面的語義信息利用不充分,導致模型的泛化性與魯棒性得不到保證。因此,精準融合文本層面的漢字字形、拼音與釋義信息以及標簽層面的標簽信息來提升模型的性能至關重要。

針對以上問題,本文從文本語義與標簽語義兩個層面提出一種基于漢字形音義的多元知識和標簽嵌入的文本語義匹配模型。該模型的主要思想是: 首先獲取文本層面漢字形音義的多元知識并進行融合表示,然后采用標簽嵌入的方法將標簽信息結合起來,進而再進行語義匹配關系的預測。在相關數據集上的實驗表明,本文所提模型的性能得到了有效提升。

本文的主要貢獻有以下幾點:

(1) 從文本語義的層面,利用漢字形音義多元知識融合表示的方法,挖掘模型在編碼時潛在的語義表示。

(2) 從標簽語義的層面,利用標簽嵌入的方法考慮標簽信息對模型的影響來強化最終的預測結果。

(3) 提出一種基于漢字形音義的多元知識和標簽嵌入的文本語義匹配模型,模型在LCQMC和BQ Corpus兩個公開數據集以及CCF-BDCI-2021問題匹配評測數據集上的實驗結果表明,本文所提出的方法有效提升了模型的性能。

1 相關工作

早期的文本匹配方法主要依賴于基于特征的方法,如句法特征的提取、轉換和關系抽取[8-9]。基于特征的方法由于只能在非常具體的任務上進行操作,缺乏普適性,模型的性能受到了一定的限制。與此同時,由于缺乏大規模語料的限制,基于深度學習方法的模型性能得不到顯著提升。直到2015年,Bowman等人發布了第一個大規模人工標注的數據集SNLI[10-11],深度學習的方法才開始在文本語義匹配的任務上嶄露頭角。深度學習在文本匹配任務上應用的初期,Huang等人為了優化文本語義信息的表示,構建了DSSM,將查詢和文檔映射到共同維度的語義空間進行隱含語義模型的學習[12]。Severyn等人通過卷積神經網絡對DSSM進行了改進,并采用TextCNN來提取文本語義特征[3]。

隨著深度學習的發展,人們開始關注嵌入表示學習,以表示學習為中心的語義表示方法主要有兩種: ①基于句子編碼的語義表示; ②基于跨句特征或句間注意力的聯合特征表示。其中,針對基于句子編碼的語義表示,Conneau等人提出一種通用的句向量的表達模型[13];Nie等人通過有監督學習使用這種通用的編碼器模型將兩個輸入句子編碼為兩個向量,隨后使用矢量組合上的分類器來標記兩個句子之間的關系[14]。而后,Wang等人提出了一種雙向的多角度匹配模型BiMPM,從多個角度利用自定義余弦匹配方程來比較兩個向量的相似度[1]。此類方法可將句子編碼到當前查詢的句子表征中,并可遷移到其他自然語言處理的任務中。雖然此類方法對模型性能有一定的提升作用,但卻忽略了兩個句子之間的交互特征。

為了彌補句子編碼表示的交互性不足的問題,人們開始引入聯合特征的表示學習。Parikh等人摒棄傳統上詞在句子中的時序關系,更多地關注兩句話的詞之間的交互關系以使得兩個句子間產生交互影響[15];Cheng等人通過設計特殊結構及引入詞與詞之間相關程度的注意力來改進LSTM輸入的結構化問題[16]。Chen等人考慮局部推斷和推斷組合,基于鏈式LSTMs設計了序列推斷模型ESMI,在LSTM的基礎上引入了句子間的注意力機制,來實現局部的推斷,進而實現全局的推斷[17]。Yin等人考慮了句子之間的相互影響,在CNN的基礎上構建了一種基于注意力的卷積神經網絡(ABCNN),用于對句子對進行建模[4];Gong等人引入了交互式推理網絡,通過從交互空間中分層提取語義特征來實現對句子對的高級理解,以此構建了DIIN[18];Kim等人構建了DRCN,在Attention機制的基礎上借鑒了圖像識別中的DenseNet的密集連接操作,更好地保留了原始特征信息來增強句子語義匹配的表示能力[5]。聯合特征表示的方法考慮了兩個句子間的交互影響,在一定程度上增強了兩個句子間的語義相似性。

基于以上語義表示的方法雖然可有效地提升文本匹配模型的精度,但是卻容易丟失查詢各自詞匯的上下文信息。同時,業界也缺乏大規模的知識表示。直到預訓練范式的出現,基于大規模通用語料的模型正是借助了這種優勢,有效地提升了模型的性能,一度刷新了文本匹配任務的榜單。其中,代表性的模型有BERT[6]、ERNIE[19]等。

基于大規模語料的預訓練有助于文本匹配任務性能的提升,但是這一部分提升也僅僅是利用大規模語料的預訓練緩解了通用領域的知識表示缺乏的問題;利用注意力機制[20]緩解了詞匯上下文信息丟失的問題。然而在面向復雜場景(涉及真實場景引發的特定知識的語義匹配場景)的語義匹配問題,預訓練模型便顯得無能為力。

有研究證明,無論是否融入預訓練技術引入外部知識均可有效地緩解此類問題。Liu等人將CN-DBpedia 構建的知識圖譜作為外部知識庫,為模型引入額外的實體特征進行文本匹配的任務增強[21]。Chen等人在不使用注意力機制與預訓練技術的前提下,引入依存句法信息與WordNet的詞法信息,有效增強文本的匹配性能[22];周等人在使用注意力機制與預訓練技術的前提下,引入WordNet與HowNet的詞匯信息與詞語搭配模塊,有效提升文本匹配的模型性能[23]。

雖然基于深度學習的方法在文本語義匹配的任務上的性能可達到先進的水平(State Of The Art)但尚且存在著兩方面的弱勢: ①從文本語義的層面,未考慮除漢字字符外的潛在語義信息對模型性能的影響; ②從標簽語義的層面,未考慮標簽隱含的語義信息對模型性能的影響。

2 文本語義匹配模型

本節將分別從任務定義、模型架構、模型的訓練及優化等方面進行詳細介紹。

2.1 任務定義

文本語義匹配,又稱自然語言語義匹配(Natural Language Semantic Matching,NLSM),可形式化地描述為: 給定一個三元組(s1,s2,y)[1],s1和s2的定義如式(1)、式(2)所示。

其中,s1表示長度為m的句子,s2表示為長度為n的句子,y∈Y表示s1和s2之間的關系標簽;Y表示0和1的標簽集合;ci(i∈[1,m])表示查詢s1中的第i個字符;cj(j∈[1,n])表示查詢s2中的第j個字符。

文本語義匹配任務可以形式化地表示為基于訓練集去估計條件概率f(y|s1,s2),并通過式(3)預測樣例之間的關系。

y*=arg maxy∈Yf(y|s1,s2)

(3)

2.2 模型架構

本文模型架構圖如圖1所示。該模型主要包含文本輸入層、信息編碼層、信息整合層、標簽嵌入層、標簽預測層五個部分,各個部分主要功能如下所示:

圖1 文本語義匹配模型架構圖

(1) 文本輸入層: 從漢字形音義三個角度分別獲取輸入文本的漢字信息、拼音信息、關鍵詞匯的釋義信息。

(2) 信息編碼層: 對輸入文本的漢字信息、拼音信息、關鍵差異詞的釋義信息的多元知識進行編碼。

(3) 信息整合層: 進一步獲取融合漢字形音義多元知識的聯合表示。

(4) 標簽嵌入層: 基于編碼后的分類標簽,將標簽信息融合至漢字形音義的聯合表示,進而生成監督標簽。

(5) 標簽預測層: 根據信息整合層的聯合表示與標簽嵌入層的信息表示,得到分類標簽與監督標簽,以對文本語義匹配關系進行判別。

2.3 文本輸入層

為了從文本語義層面強化并利用除漢字字符外的潛在語義信息,本文分別從漢字的形、音、義三個維度進行了相關特征知識的準備。

首先,漢字“形”,即文字本身的形體,主要包含偏旁、部首、字形等。在“形”的層面,本文側重于漢字字符層面的信息,主要包含兩方面: ①基于漢字全字的文本信息,②基于漢字偏旁部首的文本信息。其中,針對漢字全字的文本信息采用SnowNLP(2)https://pypi.org/project/snownlp/0.11.1/進行簡體與繁體的統一,針對偏旁部首采用cnradical(3)https://www.cnpython.com/pypi/cnradical進行獲取。

其次,漢字“音”,即形體所要表示的讀音與音節。從“音”的層面,本文考慮字音的特征增強,基于Pinyin API(4)https://pypi.org/project/pypinyin/獲取拼音維度的信息。

最后,漢字“義”,即形體所能表達出來的意義。從“義”的層面,本文收集了百科詞典與百科知識(5)https://dict.baidu.com/的最新釋義從詞級粒度強化文本的語義信息。

2.4 信息編碼層

2.4.1 漢字形與漢字音的編碼

字形、字音、釋義是漢字的重要組成部分,這三個方面在語言理解層面包含有重要的語義信息,而傳統模型在編碼時通常僅對漢字全字進行編碼,忽略了除去漢字以外潛在數據的重要信息。因此,傳統上的模型只能夠從漢字全字表征的角度去計算語義相似度,這樣往往不能夠獲取到豐富的語義差異信息,從而導致模型對文本層面漢字、拼音以及釋義交叉干擾的樣本不敏感。

為了豐富文本的語義信息,在語義表示的層面也有相關的研究對此進行了探索。Sun等人[24]曾在BERT的基礎上,融合中文字體與拼音來增強文本的潛在語義信息表示。本文在此基礎上進一步擴展,從漢字的形、音、義三個維度進行豐富文本的語義信息及捕獲句間詞級粒度的語義差異信息。漢字形音義融合過程如圖2所示,其中釋義編碼具體細節見圖3。

圖2 漢字形音義融合示例圖

圖3 釋義信息捕獲示例圖

本文在得到句子差異成分的語義信息的同時,將s1和s2的漢字文本與拼音文本作為輸入,與采用BERT進行編碼。具體地,漢字文本層面表示主要包含基于漢字全字的文本信息表示和基于漢字偏旁部首的文本信息表示。本文將漢字全字進行簡體與繁體的統一后,采用BERT進行編碼表示,得到全字的文本信息表示;同時將偏旁部首信息用BERT編碼表示,并與全字表示進行融合,從而得到漢字層面的最終表示。由于拼音信息的表示不同于中文字符的編碼,而與英文相似,因此本文采用BERT的英文編碼進行拼音信息的表示。

式(4)與式(5)中{Uform,Upinyin}∈Rl×h中,l=3+m+n表示輸入字符的長度,h為隱藏層維度。

2.4.2 釋義編碼

在自然語言處理領域中,難點并不是漢字信息與拼音信息的獲取,而是如何精準獲取文本間句子的主要差異成分并將其語義化。語義化句子間的主要差異成分,并不是簡單、機械地獲取文本間的字符差異即可,它還要求我們能夠挖掘其深層的意思并進行語義表示。因此,本文首先通過詞級粒度語義信息捕獲操作獲取句子間的主要差異成分,然后結合外部釋義知識挖掘詞級信息背后潛在的語義信息,以此來增強模型在文本層面的語義表示。

其中,詞級粒度語義差異信息捕獲算法如表2所示。給定一個三元組(s1,s2,y),其中,s1和s2分別表示長度為m和長度為n的句子。

表2 詞級粒度語義信息捕獲算法

詞義辨析任務一直以來是自然語言處理中的一大難題,針對本文任務,一詞多義主要會帶來由多義現象引發的釋義信息不匹配的問題。具體來講,釋義信息不匹配的問題主要表現在由詞語釋義選取不恰當造成的當前語境下真實釋義不匹配的問題,如“人家肚中有墨水”的“墨水”表示“文化與知識”,同時“墨水”還有“有顏色的液體、染料”的釋義,模型無法精準獲取語境所需詞語的真實釋義是一大難題。對于這類問題,本文并未針對性地處理一詞多義現象,而是將一詞多義的詞語釋義進行拼接。具體地,本文在釋義拼接前,首先進行了釋義預處理,并分別與原查詢進行相似度計算排序,最終選取TOP3的釋義,從而得到當前詞語的最優釋義信息。

2.5 信息整合層

信息整合層主要是基于信息編碼層編碼得到的漢字形嵌入、漢字音嵌入、漢字義嵌入的多元知識進行融合,如圖4所示。

圖4 多元知識信息整合圖

因此,最終可得到文本間漢字的形音義的綜合語義表示U=[Uform;Upinyin;Usense]。

2.6 標簽嵌入層

考慮到文本層面與標簽層面的因素會交叉干擾樣本的預測,導致模型的預測結果不樂觀。因此,為了解決這個問題,使得標簽信息可以與文本信息進行交互,本文將編碼后的分類信息融合至漢字形音義的聯合表示中。

為了讓模型可以學習到文本層面與標簽層面之間的關聯,本文在標簽嵌入層設計了如表3所示的兩種標簽類型: ①真實標簽(TL),表示原始樣本樣例s1與s2之間的語義是否匹配; ②監督標簽(SL),表示樣例s1與s2之間的語義關系與真實標簽(TL)表達的語義關系是否一致。

表3 標簽嵌入層數據構造示例表

具體地,如表3所示,本文設定原始數據集中的數據樣本為正例,然后針對正例構造了對應的負例。如No.1案例中的正例為原始數據集中的數據,正例s1與s2間的語義關系為不匹配(用0表示),真實標簽為不匹配(用0表示),真實標簽與樣例句間語義均表示不匹配,因此監督標簽為一致(用1表示)。與此同時,本文針對正例構造了負例。如表3的No.1案例中,負例為針對No.1正例構造的負例數據,構造的負例s1與s2間的語義關系為不匹配(用0表示),構造該負例的真實標簽為匹配(用1表示),真實標簽與樣例句間語義不一致,因此構造負例的監督標簽為不一致(用0表示)。

一方面,本文將原始真實標簽作為模型Pipeline正常預測的類別標簽yc;另一方面,將其作為嵌入標簽信息與漢字形音義的語義表示進行整合,以用來生成監督標簽ys。標簽嵌入層的目的主要是將編碼后的分類標簽yc融合至漢字形音義的語義表示U。

本文在對標簽集Y={ypos,yneg}進行編碼時采用BERT進行編碼,同時保證編碼后的向量逆向平行。即,

基于得到的類別標簽嵌入表示C與漢字形音義的語義表示U進行融合操作,如式(17)、式(18)所示。

其中,Sp表示漢字形音義與標簽嵌入的聯合表示,?代表張量的哈達瑪乘積(Hadamard Product)。

2.7 標簽預測層

標簽預測層主要是根據信息整合層的聯合表示與標簽嵌入層的信息表示,得到分類匹配標簽與監督標簽,然后對文本語義匹配關系進行判別。

將基于信息整合層得到的漢字形音義的語義表示U輸入到全連接層,得到隱藏特征之間的關聯表示Up,然后經過線性分類器進行分類以得到分類匹配標簽,如式(19)~式(21)所示。

基于漢字形音義與標簽嵌入的聯合表示Sp,進行分類以得到監督標簽,如式(22)、式(23)所示。

根據分類匹配標簽與監督標簽所對應的概率,來對給定的文本進行語義匹配關系的判別。

y*= arg maxyu∈YuPu⊙arg maxys∈YsPs

(24)

其中,y*表示s1和s2之間最終預測的語義一致性標簽;Yu表示初步分類匹配的語義一致性標簽,且Yu∈{0,1};Ys表示分類匹配標簽的監督信號;⊙表示同或運算。

2.8 模型的訓練及優化

本文實驗的環境為32GB顯存的Tesla V100。模型采用Adam優化器[25]對模型進行優化,并使用mini-batch進行梯度下降,初始學習率設置為2e-5,權重衰減為0.05。訓練階段Batch size設置為48,評估階段Batch size設置為64,Epoch設置為3,預訓練模型輸入的最大序列長度為256。與此同時,采用交叉熵與交叉熵的變體Focal損失[26]構造損失函數。

本文采用交叉熵損失函數Lce作為基礎損失,如式(25)、式(26)所示。

為了解決正負樣本數量與樣本難度不均衡的問題,本文引入了Focal損失來平衡樣本數據。Focal損失公式如式(27)所示。

Lfl=-α(1-P(y))γlog(P(y))

(27)

其中,α為正負樣本比例權重平衡因子,初始值設置為1.0;γ為樣本難度權重平衡因子,初始值設置為2.0。

本文的損失函數主要由分類損失函數LC與信號監督損失函數LS兩部分組成,如式(28)~式(30)所示。

其中,Lce表示交叉熵損失;Lfl表示Focal損失;η表示Focal損失的調節參數,初始值設置為0.1。

3 實驗

為了驗證模型的有效性,本文在多個數據集上進行了實驗。本節首先簡要介紹本文實驗的數據集,然后給出實驗所使用的評價指標,給出本文的主要實驗結果、消融實驗結果以及泛化能力實驗結果來驗證實驗方法的有效性,最后結合實驗結果給出相應的分析。

3.1 數據集

3.1.1 數據集介紹

本文針對來自文本層面與標簽層面的預測干擾展開研究,因此選取了與Sun等人[24]匹配任務一致的公開數據集LCQMC[27]、BQ[28]以及CCF-BDCI-2021問題匹配任務(6)https://www.datafountain.cn/competitions/516/datasets的數據集進行實驗。

(1)LCQMC數據集哈工大公開發布的語義匹配數據集。該數據集來自各個領域搜索引擎的實際搜索場景;該數據集復雜多樣,數據的文本層面具有交叉性干擾和多樣性匹配的特點,其中,交叉性干擾存在對文本層面的拼音、釋義和標簽信息交叉干擾的考察,多樣性匹配包含對意圖、濃縮、短語、同義及重排等多種類型的考察。

(2)BQ數據集哈工大公開發布的語義匹配數據集。該數據集來源于銀行真實場景下的客戶信貸服務日志,數據集內存在字形、拼音及標簽信息多種特征交叉干擾預測的現象。

(3)CCF-BDCI-2021評測數據集中國計算機學會與百度聯合推出的評測數據集,由多個數據集構成,覆蓋了許多真實場景中的問題,標簽信息更側重于真實場景下語義的表達。數據集中存在大量的文本層面與標簽層面的干擾問題。

3.1.2 數據集劃分

LCQMC與BQ兩個數據集分別包含260 068個口語化文本樣例與120 000個信貸問題樣例。CCF-BDCI-2021問題匹配評測主辦方公開的數據,共計534 742個文本樣例。三個數據集具體的數據劃分如表4所示。

表4 數據集劃分比例

3.2 評價指標

本文實驗的評價指標采用準確率(Accuracy,Acc)來衡量模型整體性能,如式(31)所示。

(31)

其中,TP表示被模型判別為正例的正例樣本數,TN表示被模型判別為負例的負例樣本數;FP表示被模型判別為正例的負例樣本數;FN表示被模型判別為負例的正例樣本數。

3.3 實驗方法對比

為了驗證本文提出方法的性能,在語義匹配數據集上將本文的方法與以下七種方法進行了對比。這些模型具體如下:

CONVNET[3]: 傳統上主流的文本語義匹配模型,是單語義模型的一種改進。

ABCNN[4]: 傳統上主流的文本語義匹配模型,在CNN的基礎上構建了一種基于注意力的卷積神經網絡。

BERT[6]: 谷歌公開的預訓練模型。

BERT-WWM[29]: 哈工大基于中文BERT進行全詞掩碼的中文預訓練模型。

ERNIE[19]: 百度公開的預訓練模型。

ERNIE-Gram[30]: 百度公開的預訓練模型,在ERNIE的基礎上進行改進,引入了n-gram掩碼機制。

ChineseBERT[24]: 香儂科技公開的預訓練模型,在BERT的基礎上從文本層面將漢字字體與字音的表示整合到語言模型的預訓練中進行了改進。

3.4 實驗結果

本文將ERNIE作為預訓練模型進行實驗,與3.3節設計的七種方法進行對比實驗,具體的實驗結果如表5所示。

表5 不同方法的實驗結果 (單位: %)

從表5中的數據可以看出:

(1) 本文提出的模型在驗證集與測試集上表現均優于其他七種模型,說明本文融合漢字形音義與標簽嵌入的方法針對文本層面與標簽層面上語義交叉干擾的語義判別是有效的。

(2) 本文的模型不僅優于ERNIE,而且優于ChineseBERT模型,是因為一方面相比于ERNIE,本文的模型將文本語義層面的漢字字形、拼音與釋義信息整合到模型中,增強了除漢字字符信息外的文本語義表示;另一方面,相比于ChineseBERT,本文的模型還從標簽語義的層面融入了標簽信息到模型中,捕獲了標簽層面隱含的文本語義信息。

綜上,這充分說明了從文本層面與標簽層面融合漢字形音義多元知識的表示與標簽信息的表示有助于提升模型的性能。

3.5 消融實驗

為了驗證不同模塊的有效性,本文分別對信息整合層(Information Integration Layer,IIL)、標簽嵌入層(Label Embedding Layer,LEL)進行消融去掉,來觀測模型性能的變化,具體結果如表6所示。

表6 消融實驗的結果 (單位: %)

表6中的數據可以看出:

(1) 信息整合層(IIL)與標簽嵌入層(LEL)均會影響模型的性能。其中,消融去掉標簽嵌入層(LEL)后,模型的性能下降較大,說明標簽嵌入層(LEL)貢獻較大。這表明在現階段模型缺失的語義信息中,標簽信息所占的比例更大。

(2) 相比于模型-ALL,模型-LEL的性能也取得了一定的提升,這說明信息整合層(IIL)的融合漢字形音義多元知識的表示有助于增強文本原先的語義表示,進而提升模型匹配判別的性能。

3.6 模型泛化能力實驗

為了驗證本文方法的泛化性與魯棒性,本文選取了CCF-BDCI-2021來自真實應用場景問題匹配的評測數據集進行實驗。由于CCF-BDCI-2021問題匹配評測任務主辦方未公開測試集,本文只能在訓練集與驗證集上進行測試。本文將原始驗證集按照1:1的比例進行隨機等比例切分,形成新的驗證集與測試集,數據劃分比例如表4所示。

與此同時,本文選取了傳統模型與現階段主流的預訓練模型進行對比實驗,實驗結果如表7所示。

表7 模型泛化能力實驗結果 (單位: %)

由表7的實驗結果可以看出:

相比于傳統模型與現階段主流的預訓練語言模型,本文的模型融合漢字形音義的文本語義表示與標簽嵌入的標簽語義表示得到了明顯的性能提升,這充分說明了本文提出的模型有較好的泛化能力。

3.7 案例分析

為了驗證本文方法在不同數據類型上的性能,本文進一步對模型的預測數據進行了分析。

3.7.1 案例對比分析

經過對比分析,我們發現,本文的模型在文本層面的拼音及釋義產生的問題上表現較好,具體細節如圖5所示。

圖5 漢字形音義角度案例分析對比圖

其中,query1和query2分別表示待匹配的兩個文本;label表示真實匹配標簽;左半部分的pred_label與y_probs分別表示ERNIE最終預測結果與對應的概率;右半部分的final_pred_label表示本文模型最終預測結果;pred_class_label和pred_superviser_label分別表示中間過程分類標簽的預測結果及生成的監督標簽結果。

如E1所示,大規模預訓練模型ERNIE從漢字字符的角度可區分開來E1中的“螨蟲”和“滿蟲”的差異,并認為二者的語義不一致。然而E1真實語境下的標簽為一致,ERNIE基于漢字字符并未學習到二者的一致性。然而本文的方法,融合字形、拼音與釋義的信息后,可從拼音的角度強化其語義信息,最終預測正確。如E2所示,針對單義現象,在不經過釋義信息融合的情況下,ERNIE并不能得到正確的預測結果,而本文經過融合釋義信息對文本語義增強,模型可對“獼猴桃”與“奇異果”的案例預測正確。如E3所示,針對多義現象,本文將一詞多義的詞語釋義進行拼接,最大程度地為模型釋義維度提供了最優釋義信息,使得由缺失釋義信息導致錯誤的樣本“賣”與“買”的案例可預測正確。

與此同時,我們發現,本文的模型融合標簽嵌入的表示在一定程度上可彌補預訓練模型的部分缺陷。例如,預訓練模型會傾向于將字符重疊度較高的文本視為語義一致。如圖6所示,ERNIE會認為“這個季節吃什么水果好”與“各個季節吃什么水果好”的語義一致。同樣,本文的模型基于漢字形音義信息也未捕獲到二者的區別,但本文模型融合標簽特征信息后,對分類匹配標簽進行監督再判別,最終預測正確。

圖6 標簽嵌入角度案例分析對比圖

3.7.2 錯誤案例分析

通過對本文模型預測的數據進行分析,我們篩選出了模型預測錯誤的案例,如圖7所示。

圖7 錯誤案例示例圖

經過分析,我們發現:

首先,本文的模型覆蓋的釋義尚且不全面。如圖7中E5所示,模型并未精準識別“一米五以上小孩”是“未成年小孩”。因此該樣本預測錯誤,且預訓練模型ERNIE也未正確預測。

其次,本文的模型對涉及到的句法結構變換語義的樣本數據并不敏感。如圖7中E6和E7所示,“過期的茶葉”與“茶葉快過期”、“為什么……公交卡……”與“公交卡為啥……”,標簽嵌入方法并未對此類樣本語義的計算產生積極的影響。

再次,本文的模型尚且無法區分程度等修飾語的語義成分。如圖7中E8和E9所示,“最好看”與“好看”、“挺難受”與“很難過”的程度修飾語義未能被捕捉,導致模型預測錯誤。

最后,本文的模型并未徹底解決由一詞多義導致的真實釋義選取不準確的問題,目標僅是最大程度地覆蓋模型所需的釋義。

4 結論

本文圍繞文本語義匹配任務中文本層面和標簽層面的語義問題進行研究,提出一種基于漢字形音義與標簽嵌入的文本語義匹配模型。

該模型采用知識融合與標簽嵌入的方法引入文本層面與標簽層面隱含語義知識,提升了文本語義匹配的性能。該模型從文本語義層面進行了漢字字形、拼音及釋義的多元知識整合,解決了文本層面涉及形、音、義多維度的語義交叉干擾的問題;從標簽語義層面進行了標簽信息的嵌入表示,并進一步引入標簽監督信息,豐富了文本潛在的語義信息。經過實驗對比,驗證了本文模型的有效性。進一步對案例分析發現,在提升模型性能的同時,本文的方法在釋義覆蓋、句法結構、程度修飾以及一詞多義的釋義信息等細節問題上尚且存在一定的缺陷,后續的研究中將從句法結構、語法信息等角度圍繞這些問題展開研究。

猜你喜歡
語義文本信息
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 亚洲码在线中文在线观看| 欧美a在线看| 黄色网址手机国内免费在线观看| 国产精品hd在线播放| 欧美日韩另类国产| 女人一级毛片| 久久性妇女精品免费| 国产一级α片| 国产美女自慰在线观看| 91精品视频播放| 四虎永久免费地址在线网站| 真实国产乱子伦视频 | 国产女人爽到高潮的免费视频 | 亚洲人成网址| 亚洲欧美日韩视频一区| 婷婷六月综合网| 一级毛片中文字幕| 国产美女免费网站| 一级毛片免费观看久| 中文字幕免费在线视频| 91久久精品国产| 日本人又色又爽的视频| 日本午夜视频在线观看| 国产精品专区第一页在线观看| 国产成人综合亚洲网址| 国产精品中文免费福利| 97超碰精品成人国产| 婷婷综合亚洲| 99re经典视频在线| V一区无码内射国产| 日本免费福利视频| 日韩小视频在线观看| 一级毛片高清| 高清久久精品亚洲日韩Av| 亚洲人网站| 熟妇丰满人妻| a色毛片免费视频| 熟女成人国产精品视频| 99国产精品国产高清一区二区| 国产精鲁鲁网在线视频| 中文字幕免费播放| 日韩成人高清无码| 国产一区二区人大臿蕉香蕉| 99视频在线观看免费| 91在线激情在线观看| 一本色道久久88亚洲综合| 亚洲伊人电影| 激情在线网| 亚洲成a人片77777在线播放| 女人18一级毛片免费观看| 国产97公开成人免费视频| 亚洲国产精品无码AV| 欧美国产日韩在线| 欧美不卡视频在线| 久久熟女AV| 国产亚洲精品va在线| 一区二区影院| 91在线精品免费免费播放| 欧美97色| 欧美日韩另类在线| 在线观看精品自拍视频| 国产啪在线91| 91成人在线观看| 青青草一区| 免费Aⅴ片在线观看蜜芽Tⅴ| 久久精品一品道久久精品| 男人天堂亚洲天堂| 影音先锋亚洲无码| 国产成人久久综合一区| 在线看片免费人成视久网下载| 亚洲最黄视频| 污视频日本| 久久黄色视频影| 日韩精品一区二区三区中文无码| 亚洲国产成人精品青青草原| 日韩在线观看网站| 婷婷综合缴情亚洲五月伊| 99伊人精品| 色视频国产| swag国产精品| 欧美一级高清片久久99| 日本三区视频|