














摘 要:基于背景對話的關鍵問題之一是知識抽取,但由于有些會話的信息量不足,特別是在一些對話信息較少的情況下,選擇恰當的知識變得尤為困難,且目前的生成方式缺乏動態選取背景知識的能力。針對這些問題,提出了KIF模型,引入知識增強庫和知識向量并提出知識追蹤模塊和知識情感反饋模塊去解決上述問題。該模型通過雙重匹配矩陣的方式獲得外部知識與背景知識的權重向量并進行知識選擇,在每個解碼步長內會根據歷史會話和外部知識進行會話生成。最后,在Holl-E和WoW數據集上進行實驗,實驗結果表明KIF模型相比于之前的模型有明顯的性能提升。
關鍵詞:背景知識;對話系統;自然語言處理
中圖分類號:TP183 文獻標志碼:A 文章編號:1001-3695(2024)10-016-2993-07
doi:10.19734/j.issn.1001-3695.2024.03.0048
Integration of background knowledge and common sense perception for dialogue generation
Wang Hongsong,Ye Haoxian,Li Jiazhan
(School of Software,South China Normal University,Foshan Guangdong 528225,China)
Abstract:One of the key issues in background-based conversation is knowledge extraction.However,due to the insufficient information in some conversations,especially when there is less information in certain dialogues,choosing the appropriate knowledge becomes particularly challenging.Furthermore,the current generation methods lack the capability to dynamically select background knowledge.To address these issues,this paper proposed the KIF model,which incorporated a knowledge enhancement library and knowledge vectors and introduced a knowledge tracking module and a knowledge sentiment feedback module to solve the aforementioned problems.The model obtained weight vectors of external knowledge and background know-ledge through a dual matching matrix method and performs knowledge selection.For each decoding step,the model generated conversation based on historical dialogues and external knowledge.Finally,experiments on the Holl-E and WoW datasets show that the KIF model significantly outperforms previous models.
Key words:background based;dialogue systems;natural language processing
0 引言
對話系統是目前NLP研究的熱門之一。研究[1]表明,在2021年底已有80%的企業配備聊天機器人(對話系統),并且市場規模將在2024年發展到94億美元。文本生成任務的一個基本定義是根據給定的序列生成一個預期的輸出序列,稱為序列到序列的任務。得益于深度學習的發展,人們提出了各種可用于對話系統的深度學習網絡如遞歸神經網絡(RNN)、卷積神經網絡(CNN)和Transformer等。雖然已經有許多模型都已經有不錯的性能,但由于傳統的序列到序列模型中輸入文本本身包含的知識量較少,所以傳統的模型不能很好地理解話語,生成的響應也趨向于一般性的回復,例如新提出的序列到序列模型[2]能夠動態地捕捉局部上下文的范圍,可以更好地提取語義信息,但由于缺乏外部知識,只能生成“我不知道”等無意義的回復。為了解決這種問題,一些引入外部知識的模型就應運而生,同時也有研究證明了引入外部知識能夠增強性能。
基于背景知識的對話研究任務是:根據給定一些背景知識(非結構化的知識)和一段對話,生成合理且含有信息性的響應。因此,知識選擇是基于背景知識的對話中最關鍵的一個模塊,它需要根據會話從背景知識中找出合適的知識,這直接影響著生成響應的質量。根據現有的研究,基于背景對話按照生成方式大致可分為基于提取的方式和基于生成的方式兩種?;谔崛〉姆椒ㄗ钤缭跈C器閱讀理解研究中提出,它通過預測開始和結束兩個指針,然后根據位置提取背景知識并作為回復。這種方法能夠很好地利用背景知識,例如BiDAF[3]、R-Net[4]等,但是卻不適用于會話之中,因為區別于閱讀理解,會話是沒有正確答案的,通過這種方式生成的回復是不自然的。基于生成的方式是根據上一步的解碼狀態來生成當前的令牌,即回復的生成有先后順序,是一個接一個令牌的生成。這種生成方式的優點是能夠生成自然流暢的響應,但由于其生成只與上一個解碼狀態有關,缺乏知識選擇的能力,所以不能及時地找到合適的知識背景。以GTTP[5]為例,如圖1中橫坐標表示詞序列的位置,(a)的縱坐標表示正確的知識選擇概率,(b)的縱坐標表示解碼時間步長。圖1中(a)表示正確的知識在背景中的位置,(b)表示GTTP選擇背景知識的概率,其中藍色的點表示在解碼過程中使用到的背景知識,紅框表示選擇知識的范圍。從圖1中可以看出,傳統的生成模型無法選擇合適的知識背景進行回答。因此目前需要提出一種新的機制將高效的知識選擇與生成方式結合在一起。
基于背景對話研究是一種外部知識增強研究,與傳統非知識增強方法相比,基于背景對話的優勢就是采用了非結構化的外部知識。最近的研究表明,單一知識來源的覆蓋度是不夠的,多個研究結果表明,使用更多的知識來源能夠提高知識增強對話模型的性能[6]。人類對話中的一個重要特征就是語言帶有情感,這種情感也可以認為是外部知識的一種,使用適當的外部知識增強能夠使模型生成的回應隱含情感,就能夠生成更加合適流暢的回應。對此,根據先前的研究,本文根據當前對話中包含的實體,從外部知識庫中找到相關的知識和概念,通過引入帶有情感的外部知識,不僅能夠豐富對話的信息量,提升模型性能,還能使回復更加符合實際。
綜上所述,本文提出一個知識融合及反饋的對話模型(knowledge integration and feedback,KIF)來解決上述問題。該模型通過引入常識知識庫ConceptNet[7]和情緒情感詞典NRC_VAD[8]結合最新一輪對話,使得語句中蘊涵情感知識。為了充分地利用到所有的信息(會話歷史、背景知識、外部知識),本文提出了雙重匹配的方式將信息融合在一起進行知識選擇,搭配知識追蹤模塊提升知識選擇的性能。在進行知識選擇的時候,該模型會分別對會話歷史和背景知識進行編碼,然后使用雙重匹配得到會話歷史、背景知識、情感之間的相關性權重,并經過知識選擇后得到知識主題轉換向量,在生成回復的時候應用到知識情感反饋模塊生成富有信息性、流暢的回復。
本文模型在Holl-E[9]和WoW[10]數據集上進行了實驗分析。實驗結果表明,KIF在機器評估方面優于基線模型,知識選擇的性能更強,能夠生成更加合適的響應。此外本文還抽樣進行案例分析,表明KIF能夠生成自然流暢的響應。
本文的貢獻總結如下:a)提出一個知識融合及反饋的對話模型(KIF),引入非結構化的背景知識,結合ConceptNet和NRC_VAD引入外部結構化知識,通過雙重匹配矩陣對兩種不同結構的知識進行知識融合;提出了知識追蹤模塊,通過KL散度拉近回復-背景與會話-背景之間的分布,明確了回復與知識之間的關系,提高知識選擇的性能。b)在生成框架上提出了知識情感反饋模塊,能在每一個解碼時間步中動態調節知識選擇,優化了響應的生成。
1 相關研究
1.1 開放域對話
在開放域對話中,基于序列到序列的模型廣泛應用于各個研究領域。隨著深度學習的發展,有許多學者將深度學習與對話系統聯系起來[11]。例如Huang等人[12]提出了增強型多域狀態發生器去改進對話狀態跟蹤模塊,提升了模型在小數據集中的性能;Ma等人[13]將RNN作為對話表示模型的一部分,提出了PR嵌入,捕獲兩個詞之間的關系。在Transformer出現之前,大多數的研究都是將循環神經網絡與注意力的機制結合在一起,使用循環神經網絡的優勢在于它的序列長度是靈活的,但缺點是不能夠并行訓練。直到2017年提出了Transformer,學者開始利用自注意力機制對全局進行編碼,還有研究[14]利用這種特性提高對話系統的性能,例如使用堆疊的Transoformer用于各種類型的對話系統,并引入了潛變量改進生成模塊。Li等人[15]提出了使用動態對話流的機制提高性能。
雖然上述模型都取得了不錯的成果,但由于缺乏外部信息,導致可能生成通用無意義的響應,所以,很多學者都引入外部知識來解決這一問題。
1.2 引入外部知識的對話系統
有研究表明,引入知識庫及知識圖譜能夠提升聊天的深度和廣度,在回復用戶的時候外部知識是一個重要的知識來源[16]。引入文本外部知識有很多種方法,大致可以分為引入知識圖譜和引入非結構化的知識。Lin等人[17]結合復制與檢索的方法進行回復生成,其中檢索則是基于知識圖譜的相關知識檢索,最后綜合計算生成流暢回復。Ren等人[18]針對一些基于背景的對話模型存在缺乏全局視角的問題,為了提高知識選擇的正確率,提出了全局視角進行知識選擇(GLKS)。通過給定一個對話上下文和背景知識,GLKS會學習到將背景的主題用于每個編碼時間段去指引本地的知識選擇。這種方法雖然能夠對不同主題和背景知識進行識別,但是它缺乏跟蹤機制,因此Chen等人[19]提出了響應感知反饋機制(RFM),他提出的響應感知反饋權向量通過修正背景知識生成更自然和適當的響應。雖然RFM在響應生成過程中對所選的背景知識進行修正,但這也可能同時產生一些不相一致的響應?;谥R庫的基礎對話確保了知識的豐富性和有效性,Zhan等人[20]發現以前的基于知識的研究缺乏對知識選擇和對話的細粒度控制,最終導致生成與知識無關的問題。Prabhumoye等人[21]提出基于文檔的生成任務是使用文檔中提供的信息來改進文本生成,研究的重點是在預訓練模型的基礎上構建文檔的上下文驅動表示,并使人們對文檔中的信息有特定的關注。Lin等人[22]提出了一種基于生成對話網絡(GCN)的元學習方法,以生成基于非結構化文本知識的會話數據,這種方式能夠只使用少量的數據集就可以生成高質量的數據,并應用于知識選擇的實驗。
提升知識選擇的性能目前仍是熱點之一。Yang等人[23]設計了主題轉移感知知識選擇器,在檢測到對話知識主題變化后,會選擇自動合適的知識片段。Ma等人[24]提出了全局和局部的交互匹配模型,利用詞-句的方式進行知識匹配。Sun等人[25]表明了端到端的方式能夠明確知識片段之間的交互,提出了能夠通過上下文生成知識的模型。Qian等人[26]考慮到了情感知識,設計了一個模仿人類的兩階段對話模型,有效利用了情感知識并減少了模型對情感語料庫的需求。同時有學者也針對知識選擇訓練的方式進行改進。Zheng等人[27]提出了知識項權重模型,可以看作是知識選擇后的一項優化工作,在訓練時側重于相關的術語。Zhao等人[28]發現了現有的生成范式會限制知識選擇以及生成的多樣性,并提出了使用對抗性網絡進行訓練。Xu等人[29]也設計了序列后驗證的推理模型,能夠通過后驗分布抽樣選擇知識和生成對話。Wilie等人[30]提出了一個生成評分框架,可以直接使用在各種模型上而不需要對數據重新處理或對模型調優。使用GPT類作為生成模型也是一種方式[31],Deng等人[32]對部分語言模型進行了總結。
從目前引入外部知識對話系統的研究現狀來看,在引入外部知識的角度來說,一般只會單獨引入結構化或非結構化的知識,在進行知識選擇的過程中也忽略了回復與所選知識的關系。在生成的過程中分為基于抽取式和基于生成式兩種方式,這兩種方式各有優劣,基于抽取式的方式能夠更好地從背景中提取知識,基于生成式的方式能夠生成自然流暢的語句。同時,大部分的模型缺乏在生成過程中動態調整所選知識的能力。因此,本文提出了雙重匹配矩陣進行知識融合,使用知識追蹤模塊學習回復與所選知識之間的關系,同時結合抽取式和生成式的方式進行回復生成,在生成過程中通過知識情感反饋矩陣動態調整知識選擇。
2 模型方法
本文模型在基于背景知識的前提下,結合外部知識去提高知識選擇的合理性,并生成符合邏輯的回應。形式上本文先給出符號定義。給定一個會話C={c1,c2,c3,c4,…,c|C|},其中cn代表第n個單詞,類似地,對于非結構化的背景知識有K={k1,k2,k3,k4,…,k|K|},其中kn代表了第n個單詞。本模型會根據會話和背景知識生成回應R={r1,r2,r3,r4,…,r|R|},rn代表了第n個單詞。本章將介紹本文模型整體的模型框架,如圖2所示。它主要包括四個大模塊。
a)背景上下文編碼器。使用兩個獨立的編碼器,對給定的歷史會話和背景知識進行編碼,然后進行聚合操作得到歷史會話和背景知識的潛在表示HC和HK。
b)情感背景圖和圖編碼器。使用ConceptNet和NRC_VAD這兩個情感增強庫與會話歷史C構成情感背景圖G,然后放入到圖編碼器中得到圖特征表示HG。
c)知識選擇模塊。使用雙重匹配矩陣對歷史會話HC、圖特征表示HG與背景知識的潛在表示HK進行匹配操作,然后進行知識選擇得到知識主題轉換向量HsGC→k。
d)響應解碼器。將知識主題轉換向量HsGC→k和圖特征表示HG拼接在一起得到情感主題指導向量HgGCK,該模塊會根據此向量進行詞匯生成。
總流程可以概括為,將歷史會話C和背景知識K放入背景上下文編碼器中,將會話歷史結合知識庫經過圖編碼層得到特征表示,然后經過知識選擇模塊選擇出合適的知識,用于指引響應解碼器生成最終的回復。
2.1 背景上下文編碼器
本模型使用兩個獨立的雙向GRU分別對會話歷史C和背景知識K進行編碼得到hC={hc1,hc2,hc3,hc4,…,hc|C|}和hK={hk1,hk2,hk3,hk4,…,hk|K|}。其中hct如式(1)所示。
hct=BIGRUc(e(ct),hct-1)(1)
式(1)中兩個GRU的參數是不共享的;t代表第t個令牌,且hK也是用相似的方式得到。
接下來分別對這兩個向量進行高速轉換,并與雙向GRU的每一層輸出進行聚合操作,得到歷史會話和背景知識的潛在表示HC和HK用于接下來的匹配操作。其中Hkt如式(2)所示。
Hkt=gk(Wl[hkt,hx|x|]+b)+(1-gk)tanh(Wnl[hkt,hx|x|]+b)(2)
其中:gk=σ(Wl[hkt,hx|x|]+b);Wl、Wnl、Wg都是可學習的參數;σ是激活函數。
2.2 情感背景圖和圖編碼器
該模塊使用ConceptNet和NRC_VAD結合對話C去構造情感圖G。受Li等人[33]啟發,結合對話C的每個非停用詞和ConceptNet里面的關鍵詞構造出一系列的候選元組Ti={tki=(ci,rki,xki,ski)}k=1,2,3,…,K,然后根據以下規則篩選候選元組:a)只保留置信度得分大于0.1的元組(ski>0.1);b)使用NRC_VAD計算情感強度值(μ(xki)),并選出最高分的k個元組。根據候選元組和對話進行構圖,有以下規則:a)相鄰的兩個單詞會按順序指向下一個單詞;b)選出來的候選情感詞會指向它的關鍵詞(ci)。對于圖編碼器,首先需要將情感圖G的每個頂點像Transformer模型一樣使用位置嵌入層和詞嵌入層去進行轉換,另外還需要使用頂點狀態嵌入,因此整個頂點的向量表示由三個嵌入組成,如式(3)所示。
vi=Ew(vi)+Ep(vi)+Ev(vi)(3)
接著進入到多頭圖注意力機制得到每個頂點的深層表示,如式(4)(5)所示。
i=vi+‖Hn=1∑j∈AianijWnvvj(4)
anij=an(vi,vj)(5)
其中:H代表了多頭的數目;Ai是G的鄰接矩陣;an就是每個頭的自注意力模塊。為了獲得全局的上下文表示,在經過了多頭的圖注意力層后,本模型使用Transformer的編碼層進行全局建模,得到情感上下文圖表示hg={vi},計算公式為
hlg=LayerNorm(l-1i+MHA(l-1i))(6)
li=LayerNorm(hlg+FNN(hlg))(7)
其中:l代表了編碼層數的第l層;MHA代表了多頭注意力模塊;FNN表示以ReLU作為激活函數的兩層前饋網絡。
2.3 知識選擇模塊
這個模塊使用到雙重匹配矩陣,第一個匹配矩陣Mkc的構造需要用到2.1節得出的歷史會話和背景知識的潛在表示HC和HK,如式(8)所示。
Mkc[i,j]=VMtanh(Wm1Hki+Wm2Hcj)(8)
其中:VM是可學習的向量;Wm1和Wm2是可學習的參數。為了能讓情感圖特征與背景特征作匹配,本模塊首先使用一個多層感知機(MLP)對3.2節中的情感上下文圖表示hg進行變換,得到HG,如式(9)所示。
HG=MLP(hg)(9)
使用類似的方法可以得到第二個匹配矩陣Mkg,計算為
Mkg[i,j]=VMgtanh(Wmg1Hki+Wmg2Hgj)(10)
接著沿X軸方向對上述兩個矩陣使用最大池化層獲得兩個感知背景權重的特征表示,特征里的每個元素代表了與背景相關性的權重,權重越大代表了相關性越大,如下:
WC→K=maxX(Mkc)(11)
WG→K=maxX(Mkg)(12)
最后將這兩個感知背景權重特征表示合在一起得到情感上下文背景感知權重向量WCG→K。雖然這個向量能夠捕捉到上下文、情感圖和背景之間的關系,但是它只考慮了單詞方向上的關系分布,缺少全局視角,不能正確地得出知識選擇的概率分布。因此,該模塊采用滑動窗口的思想進行全局知識選擇。本文使用以大小為m的窗口對權重向量進行展開求和計算,以大小為m的窗口對向量進行展開做注意力的操作。前者是為了獲取全局的語義信息,后者是為了得到全局的注意力權重。
接著對WCG→K以大小為m的窗口對向量進行展開求和計算,得到滑動語義表示W′CG→K,如式(13)所示。
W′CG→K=([W′CG→K]0:m,…,[W′CG→K]N:N+m,…)(13)
其中的每個窗口都使用求和的操作,即如式(14)所示。
[W′CG→K]N:N+m=∑N+mi=NWCG→K[i](14)
對于第二個操作也采取同樣的思想,對最后一層的背景知識表征hk使用窗口注意力操作得到全局的注意力H′K,計算為
H′K=([h′K]0:m,…,[h′K]N:N+m,…)(15)
[h′K]N:N+m=∑N+mi=Naihki(16)
ai=att(hc|C|,[hkm…hkN+m])(17)
其中:ai代表了會話與背景知識的注意力權重。使用這兩個操作可以得到全局信息,再結合背景知識K生成知識主題轉換向量HsGC→k,如式(18)和(19)所示。
HsGC→k=∑NP(KN:KN+m|C)[h′K]N:N+m(18)
P(KN:KN+m|C)∝softmax([W′CG→K]N:N+m)(19)
2.4 知識追蹤模塊
在以往的研究中,模型的訓練方式都會選擇最大似然估計損失去優化知識選擇,這種方式就會導致模型只從生成的角度上訓練,缺乏生成的多樣性,同時也沒有明確跟蹤回復中使用了什么知識。為了讓知識選擇模塊能夠捕捉到回復與背景知識之間的內在關系,本文提出了知識追蹤模塊。該模塊主要由先驗知識追蹤和后驗知識驗證組成,先驗知識是指根據當前會話和背景知識所選擇的知識概率分布,后驗知識是指在原來的基礎上在加入正確的回復所得到的知識概率分布。首先將當前會話和背景知識輸入先驗網絡中得到先驗知識概率分布:
Ppri(Kt-1)=softmax(QpriKTpri)(20)
Qpri=mlp(Hct-1)(21)
Kpri=mlp(Hkt-1)(22)
其中:Ppri(Kt-1)代表先驗知識概率分布;mlp(X)=WX+b表示多層感知機。接著將加入回復與會話連接在一起,根據2.3節的步驟輸入到知識選擇模塊上獲取到知識向量WrCG→K。將獲得的知識選擇向量輸入到后驗網絡中獲得后驗知識分布:
Ppos(Kt-1)=softmax(QposKTpos)(23)
其中:Ppos(Kt-1)代表后驗知識概率分布。最后使用KL散度的方式縮小先驗知識和后驗知識的分布差距:
Lkl(θ)=1|M|∑|M|m=1Dkl(Ppri|Ppos)(24)
2.5 響應解碼器
響應解碼器模塊結合了生成機制和復制機制。在每一個解碼時間軸t中,先根據式(18)中知識主題轉換向量HsGC→k與式(9)中的HG進行拼接,得到情感主題指導向量HgGCK。再根據該情感主題指導向量,得到從詞匯表里生成的概率和直接從背景中截取的概率,并通過一種門機制最終決定如何生成。響應解碼器如圖3所示。具體過程如下:
首先將上一個時間步生成的解碼狀態碼與HsGC→k、HG連接起來,如式(25)所示。
HgGCKt=[HsGC→k,HG,e(rt-1)](25)
其中:e(rt-1)代表了上一個時間步生成出來的向量。
然后使用注意力模塊將知識情感主題向量與背景知識K做一個注意力操作,會得到背景指導向量Kt。類似地使用注意力模塊與會話歷史C做一個注意力操作,得到會話指導向量Ct,如式(26)(27)所示。
Kt=∑|K|i=1aKihKi(26)
aKi=attention(HgGCKt,hK)(27)
接著對得到的兩個指導向量與知識情感主題向量連接起來并使用一個readout層得到一個整體的特征向量rt。
rt=readout(HgGCKt,Kt,Ct)(28)
將特征向量rt放入線性層中再經過一個softmax層得到從詞匯表中生成單詞的概率Pv(rt),如式(29)所示。
Pv(rt)=softmax(Wvrt)(29)
對于直接從背景知識中截取復制的概率Pk(rt),該模塊對背景知識使用一個注意力模塊學習截取的開始位置指針和結束位置指針,如式(30)所示。
Pk(rt)=attention(HgGCKt,hK)(30)
最終結合兩個概率Pv(rt)和Pk(rt),通過以下結合方式得到最終的生成概率P(rt),如式(31)所示。
P(rt)=gPv(rt)+(1-g)Pk(rt)(31)
2.6 知識情感反饋模塊
為了能更準確地進行知識選擇,知識情感反饋模塊在每一個解碼時間步長中會根據之前生成的令牌與背景知識向量和情感知識向量相結合,后續會根據反饋模塊得出來的權重向量進行生成。
首先使用GRU對回復進行編碼,得到前一個時間步長的特征性向量hrt:
hrt=BIGRUc(e(ct),hrt-1)(32)
其中:hr0由一個線性層初始化。
接著將hrt與情感上下文背景感知權重向量WCG→K相乘得到反饋知識權重矩陣Mrk:
Mrk=WTCG→Khrt-1(33)
這個特征矩陣可以評估背景知識和生成回復之間的相關程度。為了能夠利用到會話中暗藏的情感知識,將反饋知識權重矩陣與會話情感向量vi相乘得到富有額外信息的反饋知識權重向量:
Frk=MrkVTi(34)
最后在解碼過程中會根據反饋知識權重向量與整體的特征向量rt相結合,得到反饋修正后向量進行回復生成。
2.7 訓練方法
基于背景知識的對話任務就是根據指定的背景知識生成內容更豐富的回復,因此本文的訓練目標就是最大化生成響應R的概率,本文使用到三種目標函數:最大似然估計損失(Lmle(θ))、遠程監督損失(Lds(θ))、最大因果熵損失(Lα(θ)),最終的目標函數是這三個損失函數的線性組合,如式(35)所示。
L(θ)=Lmle(θ)+Lds(θ)+Lα(θ)(35)
其中:θ是本文模型KIF所有參數的組成,所有的參數都能夠通過反向傳播進行學習。最大似然估計損失是用來最大化最終生成概率的一個損失,定義如式(36)所示。
Lmle(θ)=-1|M|∑|M|m=1∑|R|t=1log P(rt|HgGCK)(36)
其中:M為訓練樣本的個數;R是生成回應的長度。從上述公式可以發現,最大似然估計是從詞級的角度進行訓練,它缺乏全局視角。因此,需要對知識選擇模塊中的全局操作設立遠程監督損失函數,利用2.3節得出的滑動語義表示W′CG→K和H′K,得到P(H′K)的概率分布如式(37)所示。
P(H′K)=softmax(W′CG→K)(37)
同時通過數據集中正確的知識選擇標簽T來最大化與背景知識的表征hK之間的關系,定義Q(H′K)表示真實標簽T與hK的相似性,如式(38)所示。
Q(H′K)=softmax((Jaccard(hK,T))(38)
其中:Jaccard代表了雅卡爾相似度。本文使用KL散度的方式縮小兩個概率分布的距離,得到遠程監督損失Lds(θ)。
Lds(θ)=1|M|∑|M|m=1Dkl(P(H′K)|Q(H′K))(39)
由于在計算Q(H′K)的時候使用到雅卡爾相似度,這是一種基于距離的計算方式,所以最后需要引入最大因果熵損失(Lα(θ))去減少噪聲,如式(40)所示。
Lα(θ)=1|M|∑|M|m=1∑|R|t=0∑w∫VP(rt=w)log P(rt=w)(40)
其中:V表示詞匯表中單詞的集合。
3 實驗分析
3.1 數據集
為了能夠更好地體現模型的性能,本文選擇Holl-E和維基百科向導(WoW)這兩個數據集進行比較實驗。數據集的樣本數目如表1所示。
Holl-E是一個帶有正確標簽的數據集,它含有背景知識和正確的知識選擇標簽。該數據集重點關注電影部分,里面是兩個人在對電影情節進行對話,每個回應都會是更改或者復制背景知識進行回復。背景知識由四個部分組成:電影情節、評論、專業點評和與電影相關的一些事實表。本文的實驗采用Holl-E的oracle background(背景長度256),根據它原始的分割方法對數據集分割成三份,訓練集含有34 486個樣本,驗證集含有4 388個樣本,測試集含有4 318個樣本。
維基百科向導(WoW)數據集中對話的二人分別扮演老師和學生,學生根據給定的主題向老師提問,老師的回答是從維基百科上選擇一些含有知識的句子或生成進行回復,其中學生是不能夠獲取知識的,因此,每個輪次中都會用到背景知識。WoW數據集中,訓練集包含了18 340輪對話,驗證集包含1 948輪對話,測試集(看不見)包含930輪對話,測試集(看不見)包含913輪對話。測試集(看不見)是從未出現在訓練集或者驗證集中的對話輪次。
3.2 基線模型
a)使用GPT生成系列模型:KnowledGPT[34]、KnowExpert[35]、MSDP[36]、MixCL[37]、MIKe[38]。
b)使用正確的背景知識進行生成的模型:GTTP[5]、BiDAF[3]、Cake[39]、RefNet[40]、GLKS[18]、CET2[41]、RFM[19]、KWD[42]和KCTS[42]。
3.3 評估方法
在機器評估指標上,本文使用F1、ROUGE-L、BLEU2、BLEU4、MT評估指標作為對比,其中F1是計算生成的文本和真實文本之間的單值F1;MT(meteor)擴展了BLEU有關“共現”的概念。由于生成響應具有多樣性,本文最后根據案例分析對此進行說明。
3.4 實驗設置
為了讓本節模型能與基線的模型進行公平的比較,采用與它們相同的超參數進行實驗。單詞嵌入大小設為300,隱藏層大小設為256,詞匯的數量限制在26 000左右,會話歷史的長度限制在65以內,背景知識的長度限制在256。優化器使用的是Adam,批處理大小設為32。整個模型訓練的輪次為20次,在評估階段采取最高分數進行比較。
3.5 實驗結果
實驗結果如表2、3所示。
在表2中,KIF在Holl-E上的各項指標都優于基線模型,R1、R2、RL比之前最好的模型分別提高了1.7%、1.3%和2.1%。與BiDAF(基于提取式生成方法)相比,得益于結合抽取式和生成式的方法,KIF生成的響應更加合理和自然,同時能夠很好地利用背景知識。RefNet使用到了跨度注釋,而KIF不需要用到額外的標注信息并且能更好地定位到正確的背景知識位置,這是因為本文在生成的過程中使用了指導向量并學習兩個指針去定位背景知識。同時KIF要優于所有基線模型,這說明KIF融合結構化知識的方式更加合理化,使用雙重匹配矩陣融合結構化知識和非結構化知識提升知識信息量,能夠顯著地增加知識選擇的性能,也不會生成空洞的回復。
在表3中,KIF在所有評估指標上都優于基線模型,特別是在F1和MT指標上,在看不見的測試集中達到33.2和31.7,比第二好的分數提升了約8%和9.7%。與利用GPT進行生成的模型相比,KIF都有顯著的提升,這得益于引入了段落背景知識和常識知識增加了會話的知識量,同時使用了知識追蹤模塊讓模型能夠識別到回復與背景知識的關系,提升了模型知識選擇的性能。相較于使用預訓練語言模型生成的方式,引入外部知識且使用知識情感反饋模塊能夠解決回復空洞問題。與MIKe的混合知識選擇相比,KIF的知識情感反饋模塊能夠更靈活地及時調整背景知識的選擇。與加入短文檔作為背景知識的模型相比,KIF在所有指標上都優于基線模型,這證明了KIF能夠提升知識選擇的性能,并生成更加合適的反應。與RFM相比,本文模型增加了會話中額外的情感知識,并且因為知識追蹤模塊在知識選擇方面有更好的性能。同時KIF在看不到的數據集中表現也是相當優異,能夠與在看得見的數據集上表現相差無幾,這也證明了KIF促進了知識選擇的性能,從而使模型擁有更好的普適性。
3.6 消融實驗
消融實驗部分將在WoW數據集上進行實驗。本節將從以下三個方面進行分析:沒有知識情感反饋和知識追蹤模塊(w/o KEF and KT)、沒有知識情感反饋(w/o KEF)、沒有知識追蹤(w/o KT)。實驗結果如表4所示,知識情感反饋和知識追蹤模塊都對最終的分數有一定程度的影響,刪除任何一個都會降低性能。其次單獨去除知識追蹤(w/o KT)直接進行知識選擇的話,性能的下降最為明顯,這證明了知識追蹤模塊能夠捕捉到回應與背景知識之間的聯系,因此相關性更高,蘊涵準確的知識量也更多,提升了模型性能。其次為了驗證知識情感反饋模塊的有效性,在生成過程中去掉知識情感反饋模塊(w/o KEF),結果證明,加入知識情感反饋能夠提升生成模塊的性能,在每個解碼時間步長中充分利用到外部知識,在生成回應的時候提升知識的利用率,也使回復更加合理正當。
3.7 案例分析
本節的案例是從WoW上隨機抽取一個樣例進行分析。為了驗證KIF能夠生成更加流暢合理的結果,本節將與RFM以及數據集中的正確回答進行對比分析。圖4中雙下畫線的部分是從背景知識中提取出的正確答案,斜體是模型生成的部分。以圖4為例,與RFM相比,KIF的雙下畫線部分會更加完整,表示能夠從背景中獲得更多更正確的背景知識;與正確回答相比,KIF的斜體部分會更加自然,并且會進行符合邏輯的擴充。案例分析說明了KIF的知識選擇能力相較于RFM有很大的提升,而且得益于知識結合的方式和知識情感反饋模塊,KIF能夠生成更自然合理的結果。
4 結束語
本文使用了常識知識庫和情緒詞典讓對話具有額外的知識,提出了雙重匹配矩陣將背景知識與情感向量結合起來,設計知識追蹤模塊,增加知識選擇的性能。在生成方面設計了知識情感感知模塊,提升了知識的利用率以及響應生成的自然性。KIF在Holl-E和WoW數據集上都優于基線模型,證明了模型的有效性,同時通過案例分析能得出,生成的響應是自然且符合邏輯。本文使用的模型以及詞向量維度相對大模型來說都是較小的。目前是大模型的時代,下一步的重點工作是融合大模型,提升模型性能。
參考文獻:
[1]Abro W A,Aicher A,Rach N,et al.Natural language understanding for argumentative dialogue systems in the opinion building domain[J].Knowledge-Based Systems,2022,242:108318.
[2]Xu Mayi,Zeng Biqing,Yang Heng,et al.Combining dynamic local context focus and dependency cluster attention for aspect-level sentiment classification[J].Neurocomputing,2022,478:49-69.
[3]Seo M,Kembhavi A,Farhadi A,et al.Bidirectional attention flow for machine comprehension[C]//Proc of International Conference on Learning Representations.2016.
[4]Wang Wenhui,Yang Nan,Wei Furu,et al.Gated self-matching networks for reading comprehension and question answering[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2017:189-198.
[5]See A,Liu P J,Manning C D.Get to the point:summarization with pointer-generator networks[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2017:1073-1083.
[6]趙夢媛,黃曉雯,?;w,等.對話推薦算法研究綜述[J].軟件學報,2022,33(12):4616-4643.(Zhao Mengyuan,Huang Xiaowen,Sang Jitao,et al.A survey of conversational recommendation algorithms[J].Journal of Software,2022,33(12):4616-4643.)
[7]Speer R,Chin J,Havasi C C.5.5:an open multilingual graph of general knowledge[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.2016:4444-4451.
[8]Mohammad S.Obtaining reliable human ratings of valence,arousal,and dominance for 20 000 English words[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2018:174-184.
[9]Moghe N,Arora S,Banerjee S,et al.Towards exploiting background knowledge for building conversation systems[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2018:2322-2332.
[10]Dinan E,Roller S,Shuster K,et al.Wizard of Wikipedia:knowledge-powered conversational agents[C]//Proc of International Conference on Learning Representations.2018.
[11]曹亞如,張麗萍,趙樂樂.多輪任務型對話系統研究進展[J].計算機應用研究,2022,39(2):331-341.(Cao Yaru,Zhang Liping,Zhao Lele.Research progress on multi-turn task-oriented dialogue systems[J].Application Research of Computers,2022,39(2):331-341.)
[12]Huang Yi,Feng Junlan,Hu Min,et al.Meta-reinforced multi-domain state generator for dialogue systems[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.2020:7109-7118.
[13]Ma Wentao,Cui Yiming,Liu Ting,et al.Conversational word embedding for retrieval-based dialog system[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.2020:1375-1380.
[14]Xu Fuyong,Xu Guangtao,Wang Yuanying,et al.Diverse dialogue generation by fusing mutual persona-aware and self-transferrer[J].Applied Intelligence,2022,52(5):4744-4757.
[15]Li Zekang,Zhang Jinchao,Fei Zhengcong,et al.Conversations are not flat:modeling the dynamic information flow across dialogue utterances[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing(Volume 1:Long Papers).2021:128-138.
[16]許璧麒,馬志強,周鈺童,等.知識驅動的對話生成模型研究綜述[J].計算機科學與探索,2024,18(1):58-74.(Xu Biqi,Ma Zhiqiang,Zhou Yutong,et al.A survey of knowledge-driven dialogue generation models[J].Journal of Computer Science and Exploration,2024,18(1):58-74.)
[17]Lin S C,Yang J H,Nogueira R,et al.Multi-stage conversational passage retrieval:an approach to fusing term importance estimation and neural query rewriting[J].ACM Trans on Information Systems,2021,39(4):1-29.
[18]Ren Pengjie,Chen Zhumin,Monz C,et al.Thinking globally,acting locally:distantly supervised global-to-local knowledge selection for background based conversation[C]//Proc of AAAI Conference on Artificial Intelligence.2020:8697-8704.
[19]Chen Jiatao,Zeng Biqing,Du Zhibin,et al.RFM:response-aware feedback mechanism for background based conversation[J].Applied Intelligence,2023,53(9):10858-10878.
[20]Zhan Haolan,Zhang Hainan,Chen Hongshen,et al.Augmenting knowledge-grounded conversations with sequential knowledge transition[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2021:5621-5630.
[21]Prabhumoye S,Hashimoto K,Zhou Yingbo,et al.Focused attention improves document-grounded generation[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2021:4274-4287.
[22]Lin Y T,Papangelis A,Kim S,et al.Knowledge-grounded conversational data augmentation with generative conversational networks[C]//Proc of the 23rd Annual Meeting of the Special Interest Group on Discourse and Dialogue.2022:26-38.
[23]Yang Chenxu,Lin Zheng,Li Jiangnan,et al.TAKE:topic-shift aware knowledge selection for dialogue generation[C]//Proc of the 29th International Conference on Computational Linguistics.2022:253-265.
[24]Ma Hui,Wang Jian,Lin Hongfei,et al.Global and local interaction matching model for knowledge-grounded response selection in retrieval-based chatbots[J].Neurocomputing,2022,497:39-49.
[25]Sun Weiwei,Ren Pengjie,Ren Zhaochun.Generative knowledge selection for knowledge-grounded dialogues[C]//Findings of the Association for Computational Linguistics.2023:2077-2088.
[26]Qian Yushan,Wang Bo,Ma Shangzhao,et al.Think twice:a human-like two-stage conversational agent for emotional response generation[C]//Proc of International Conference on Autonomous Agents and Multiagent Systems.2023:727-736.
[27]Zheng Wen,Milic'-Frayling N,Zhou Ke.Knowledge-grounded dialogue generation with term-level de-noising[C]//Findings of the Association for Computational Linguistics.2021:2972-2983.
[28]Zhao Xueliang,Fu Tingchen,Tao Chongyang,et al.There is no stan-dard answer:knowledge-grounded dialogue generation with adversarial activated multi-reference learning[C]//Proc of Conference on Empi-rical Methods in Natural Language Processing.2022:1878-1891.
[29]Xu Yan,Kong Deqian,Xu Dehong,et al.Diverse and faithful know-ledge-grounded dialogue generation via sequential posterior inference[C]//Proc of the 40th International Conference on Machine Lear-ning.2023:38518-38534.
[30]Wilie B,Xu Yan,Chung W,et al.PICK:polished & informed candidate scoring for knowledge-grounded dialogue systems[C]//Proc of the 13th International Joint Conference on Natural Language Proces-sing and the 3rd Conference of the Asia-Pacific Chapter of the Associa-tion for Computational Linguistics(Volume 1:Long Papers).2023:980-995.
[31]林晟.ChatGPT:新一代信息技術變革下的開放教育——機遇與挑戰[J].福建開放大學學報,2024(1):29-32.(Lin Sheng.ChatGPT:open education under the revolution of new information technology—opportunities and challenges[J].Journal of Fujian Open University,2024(1):29-32.)
[32]Deng Yang,Lei Wenqiang,Lam W,et al.A survey on proactive dialogue systems:problems,methods,and prospects[C]//Proc of the 32nd International Joint Conference on Artificial Intelligence.2023:6583-6591.
[33]Li Qintong,Li Piji,Ren Zhaochun,et al.Knowledge bridging for empathetic dialogue generation[C]//Proc of AAAI Conference on Artificial Intelligence.2022:10993-11001.
[34]Zhao Xueliang,Wu Wei,Xu Can,et al.Knowledge-grounded dialogue generation with pre-trained language models[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2020:3377-3390.
[35]Xu Yan,Ishii E,Cahyawijaya S,et al.Retrieval-free knowledge-grounded dialogue response generation with adapters[C]//Proc of the 2nd DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering,2022:93-107.
[36]Liu Zihan,Patwary M,Prenger R,et al.Multi-stage prompting for knowledgeable dialogue generation[C]//Findings of the Association for Computational Linguistics.2022:1317-1337.
[37]Sun Weiwei,Shi Zhengliang,Gao Shen,et al.Contrastive learning reduces hallucination in conversations[C]//Proc of the 37th AAAI Conference on Artificial Intelligence and the 35th Conference on Innovative Applications of Artificial Intelligence and the 13th Symposium on Educational Advances in Artificial Intelligence.2023:13618-13626.
[38]Meng Chuan,Ren Pengjie,Chen Zhumin,et al.Initiative-aware self-supervised learning for knowledge-grounded conversations[C]//Proc of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval.2021:522-532.
[39]Zhang Yangjun,Ren Pengjie,De Rijke M.Improving background based conversation with context-aware knowledge pre-selection[C]//Proc of IJCAI Workshop SCAI:the 4th International Workshop on Search-Oriented Conversational AI.2019.
[40]Meng Chuan,Ren Pengjie,Chen Zhumin,et al.Refnet:a reference-aware network for background based conversation[C]//Proc of AAAI Conference on Artificial Intelligence.2020:8496-8503.
[41]Xu Lin,Zhou Qixian,Fu Jinlan,et al.CET2:modelling topic transitions for coherent and engaging knowledge-grounded conversations[J].IEEE/ACM Trans on Audio,Speech,and Language Processing,2023.
[42]Choi S,Fang Tianqing,Wang Zhaowei,et al.KCTS:knowledge-constrained tree search decoding with token-level hallucination detection[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2023:14035-14053.