999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合角色、結(jié)構(gòu)和語義的口語對話預(yù)訓(xùn)練語言模型

2022-12-31 00:00:00黃健李鋒
計算機應(yīng)用研究 2022年8期

摘要:口語語言理解是任務(wù)式對話系統(tǒng)的重要組件,預(yù)訓(xùn)練語言模型在口語語言理解中取得了重要突破,然而這些預(yù)訓(xùn)練語言模型大多是基于大規(guī)模書面文本語料。考慮到口語與書面語在結(jié)構(gòu)、使用條件和表達方式上的明顯差異,構(gòu)建了大規(guī)模、雙角色、多輪次、口語對話語料,并提出融合角色、結(jié)構(gòu)和語義的四個自監(jiān)督預(yù)訓(xùn)練任務(wù):全詞掩碼、角色預(yù)測、話語內(nèi)部反轉(zhuǎn)預(yù)測和輪次間互換預(yù)測,通過多任務(wù)聯(lián)合訓(xùn)練面向口語的預(yù)訓(xùn)練語言模型SPD-BERT(spoken dialog-BERT)。在金融領(lǐng)域智能客服場景的三個人工標(biāo)注數(shù)據(jù)集——意圖識別、實體識別和拼音糾錯上進行詳細(xì)的實驗測試,實驗結(jié)果驗證了該語言模型的有效性。

關(guān)鍵詞:對話系統(tǒng); 口語語言理解; 預(yù)訓(xùn)練語言模型; 意圖識別; 實體識別

中圖分類號:TP183文獻標(biāo)志碼:A

文章編號:1001-3695(2022)08-026-2397-06

doi:10.19734/j.issn.1001-3695.2022.01.0029

SPD-BERT: a role, structure and semantic based pre-trained spoken dialog language model

Huang Jian, Li Feng

(Innovation Lab, Shanghai Pudong Development Bank Co. Ltd., Shanghai 200001, China)

Abstract:Spoken language understanding (SLU) is an important component of dialog system. Recently, pre-trained language model has made breakthrough in various tasks of spoken language understanding. However, these language models are trained with large-scale written language, which are quite different from spoken language in structure, condition and expression pattern. This paper constructed large-scale multi-turn bi-role spoken dialog corpus. Then it proposed four self-supervised pre-trained tasks: masked language model, role prediction, intra-query reverse prediction and inter-query exchange prediction. A BERT-based spoken dialog language model (SPD-BERT) was pre-trained through multi-task learning. Finally, the model was tested with three typical tasks of intelligent customer service in finance domain. The experiment results demonstrate the effectiveness of proposed model.

Key words:dialog systems; spoken language understanding; pre-trained language model; intent detection; named entity recognition

0引言

對話系統(tǒng)在自然語言處理應(yīng)用中扮演著重要的作用,取得了許多成功案例,如智能客服、智能外呼、智能助手等,并廣泛應(yīng)用于金融、通信、電子商務(wù)等領(lǐng)域。通常來說,對話系統(tǒng)包括自然語言理解(natural language understanding,NLU)、對話狀態(tài)追蹤(dialog state tracking,DST)、對話管理(dialog management,DM)和自然語言生成(natural language generation,NLG)四大模塊。其中,口語語言理解是任務(wù)式對話系統(tǒng)[1~3]的重要組件,目的是從用戶詢問語句中獲取關(guān)鍵的語義信息,包括眾多細(xì)分任務(wù),如意圖識別、實體識別[4]、情緒識別、態(tài)度識別等。與此同時,隨著預(yù)訓(xùn)練語言模型(pre-trained language model,PTM)[5]的發(fā)展,基于PTM的識別模型在口語語言理解的任務(wù)上取得了顯著的效果,極大地提高了對話系統(tǒng)的客戶滿意程度。

傳統(tǒng)的對話系統(tǒng)僅允許客戶通過文本方式表達需求,極大地限制了使用效率。為了提升客戶體驗,這些對話系統(tǒng)逐漸支持客戶通過語音方式輸入詢問語句,并且隨著語音識別(audio speech recognition,ASR)技術(shù)的發(fā)展和成熟,越來越多的客戶傾向于使用語音作為主要輸入方式。客戶的語音經(jīng)過ASR轉(zhuǎn)譯為文本,并傳遞給對話系統(tǒng)。通過語音輸入的文本通常是口語化文本。

根據(jù)語言學(xué)的研究,口語與書面語存在差異,口語是聽和說的語言,所以要求快,講求效率,用詞范圍相對較窄,句子比較短、結(jié)構(gòu)比較簡單,有重復(fù)、脫節(jié)、顛倒、停頓等現(xiàn)象,還會出現(xiàn)語氣詞(如“嗯”“呃”等)。書面語是寫和看的語言,這可以給人足夠的時間進行推敲和琢磨。因此,口語化的文本語料和書面語文本語料存在顯著差異,圖1展示了典型的人與人口語對話案例。其中,左側(cè)為原始對話,右側(cè)為SPD-BERT模型的輸入和輸出。

目前預(yù)訓(xùn)練語言模型大多是基于書面語文本語料(如Wiki、新聞等)訓(xùn)練得到,而取得明顯效果的口語語言理解模型大多是直接基于這些預(yù)訓(xùn)練語言模型;再者,使用不同范式的語料訓(xùn)練獲得語言模型,將學(xué)習(xí)到不同的知識,如果基于大規(guī)模口語化文本語料訓(xùn)練語言模型,將進一步提高口語語言理解任務(wù)的效果;并且書面語語料大多是基于長文本,不涉及角色轉(zhuǎn)換。而對于對話系統(tǒng),往往是短文本,并且至少涉及兩個角色的轉(zhuǎn)換,從而導(dǎo)致在表達內(nèi)容上呈現(xiàn)跳躍性。

因此,本文以BERT為核心骨架,訓(xùn)練面向口語對話的語言模型SPD-BERT。本文的貢獻總結(jié)如下:a)構(gòu)建大規(guī)模、雙角色、多輪次、口語化對話語料,收集大規(guī)模領(lǐng)域?qū)υ捳Z料,對ASR轉(zhuǎn)譯后的口語化文本進行清洗、合并、拼音糾錯等處理,構(gòu)建首個面向金融領(lǐng)域的千萬級口語對話語料庫;b)創(chuàng)新性地提出角色、結(jié)構(gòu)和語義融合的預(yù)訓(xùn)練任務(wù),包括四個預(yù)訓(xùn)練任務(wù):全詞掩碼(whole word masking,WWM)、角色預(yù)測(role prediction,RP)、話語內(nèi)部反轉(zhuǎn)預(yù)測(intra-query reverse prediction,IQRP)、輪次間互換預(yù)測(inter-query exchange prediction,IQEP),突破BERT的兩個預(yù)訓(xùn)練任務(wù)(掩碼和預(yù)測下一個句子(next sentence prediction,NSP))的限制,提高角色、結(jié)構(gòu)和語義的交互能力;c)訓(xùn)練口語對話語言模型,基于大規(guī)模口語對話語料將四個預(yù)訓(xùn)練任務(wù)聯(lián)合學(xué)習(xí),獲得預(yù)訓(xùn)練口語對話語言模型SPD-BERT,是業(yè)界首個面向金融領(lǐng)域多輪對話理解的預(yù)訓(xùn)練語言模型。基于預(yù)訓(xùn)練語言模型,在三個下游任務(wù)上進行實驗對比分析,結(jié)果顯示了SPD-BERT模型在口語語言理解任務(wù)上取得了顯著效果,在拼音糾錯任務(wù)上,句子級別的F1提升了1.8%,與書面語模型相比,顯示出明顯優(yōu)勢。

1相關(guān)工作

口語語言理解是對話系統(tǒng)的子任務(wù),在任務(wù)式對話系統(tǒng)應(yīng)用中起著非常重要的作用。近年來,隨著預(yù)訓(xùn)練語言模型的不斷發(fā)展,基于預(yù)訓(xùn)練語言模型的口語語言理解模型效果得到持續(xù)的突破和提升。

1.1口語語言理解

口語語言理解通常包括意圖識別、槽位填充、拼音糾錯、實體識別等子任務(wù)。通過意圖識別理解客戶的意圖,進入多輪對話流程;通過槽位填充獲取任務(wù)的關(guān)鍵、必要信息;通過情感識別了解客戶此時的滿意程度;同時,為了減少因ASR轉(zhuǎn)譯錯誤導(dǎo)致的識別錯誤,通過拼音糾錯提升客戶輸入文本的質(zhì)量。

傳統(tǒng)情況下,將意圖識別和槽位填充作為獨立的兩個任務(wù)來訓(xùn)練。文獻[6]提出基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN、LSTM等)實現(xiàn)意圖識別,結(jié)果表明,序列特征能夠顯著提升意圖識別效果。文獻[7]提出基于RNN的編碼器,使用句子級別的信息提升槽位填充任務(wù)的效果。考慮到意圖識別與槽位填充任務(wù)之間的內(nèi)在關(guān)系,使用兩個任務(wù)共享知識可以顯著提升兩個任務(wù)的效果,聯(lián)合訓(xùn)練模型逐步得到發(fā)展。文獻[8]提出槽位填充—意圖識別雙向交互網(wǎng)絡(luò)模型來建立兩個任務(wù)之間的直接關(guān)系,考慮到意圖識別對槽位填充的影響以及槽位填充對意圖識別的影響,從而互相提高效果。文獻[9]通過構(gòu)建意圖識別和槽位填充任務(wù)的雙向聯(lián)系,提出聯(lián)合交互模塊來實現(xiàn)兩者的互相影響,該方法基于Transformer特征提取器并設(shè)計了精巧的交互注意力層,取得了顯著的效果。隨著預(yù)訓(xùn)練語言模型在各種自然語言處理任務(wù)上的突破,口語語言理解的研究也逐步在探索基于BERT[5]的語義理解模型,文獻[10]提出基于BERT的意圖識別和槽位填充聯(lián)合訓(xùn)練模型;文獻[11]提出基于BERT的多語言文本分類和序列標(biāo)注聯(lián)合框架。基于BERT的意圖識別和槽位填充模型取得了較為顯著的效果提升。文獻[12]對口語語言理解進行了詳實的綜述,這里不再贅述。

口語語言理解處理的文本大多是經(jīng)過ASR轉(zhuǎn)譯后的口語化文本,而中文存在大量同音字,因此拼音糾錯對口語語言理解的整體效果起著非常重要的作用。早期的研究主要采取流水線方式,即錯誤識別、候選生成和結(jié)果選擇。文獻[13]使用基于字符的n元語言模型來檢測潛在錯誤拼寫字符集,并基于拼寫和拼音相似度生成候選集,最后根據(jù)語言模型概率選擇最佳候選;文獻[14]使用掩碼語言模型作為去噪自編碼器來生成候選集,并提出置信度相似性解碼器來過濾候選集;文獻[15]提出基于圖卷積網(wǎng)絡(luò)的拼寫糾錯模型,基于同音字圖網(wǎng)絡(luò)和同形字網(wǎng)絡(luò)學(xué)習(xí)到每個字的語義表示,并作為BERT的輸入向量,從而學(xué)習(xí)到更豐富的句子語義表示;文獻[16]從字符、位置、拼音、筆畫四個維度來表示每一個字符,并通過困惑集來生成掩碼訓(xùn)練數(shù)據(jù),從而得到包含拼寫錯誤知識的預(yù)訓(xùn)練語言模型。

1.2對話預(yù)訓(xùn)練語言模型

自然語言表示學(xué)習(xí)從早期的基于統(tǒng)計的n元模型到分布式表示[17,18],這些屬于靜態(tài)詞向量,即用一個固定的向量來表示某個詞。然而由于語言的靈活性和高效性,自然語言中存在大量的同義詞。為了解決一詞多義的問題,文獻[19]提出基于雙向訓(xùn)練神經(jīng)網(wǎng)絡(luò)的考慮上下文信息的詞向量表示方法,緩解了多義詞的表示問題。隨著更強大的特征提取器Transfor-mer[19]的提出,自回歸語言模型GPT[20]和自編碼語言模型BERT[5]不斷刷新各種自然語言任務(wù)的最優(yōu)效果。

值得注意的是,這些預(yù)訓(xùn)練語言模型的訓(xùn)練數(shù)據(jù)大多是大規(guī)模書籍語料和維基百科等文檔型書面文本,而非口語化文本。近期,針對對話系統(tǒng)中口語化文本的特點,許多研究者提出面向?qū)υ捒谡Z化的預(yù)訓(xùn)練語言模型。文獻[21]認(rèn)為任務(wù)式對話系統(tǒng)的語言模式與通用文本存在顯著差異,整合大規(guī)模人人、多輪、任務(wù)型對話數(shù)據(jù)集,將用戶和系統(tǒng)標(biāo)志融入到掩碼語言模型中,與BERT對比發(fā)現(xiàn),在四個下游任務(wù)中取得顯著效果。文獻[22]引入語音和文本,提出跨模態(tài)掩碼語言建模任務(wù)和跨模態(tài)條件語言建模任務(wù)來支持端到端口語語言理解;文獻[23]提出多角色對話理解預(yù)訓(xùn)練語言模型,通過設(shè)計若干自監(jiān)督任務(wù),嘗試從對話中學(xué)習(xí)“誰對誰說了什么”,從而提高對話理解過程;文獻[24]基于層次化循環(huán)編碼器—解碼器來編碼上下文信息,從而能夠生成語義更加流暢的回答。本文與上述研究成果的區(qū)別在于預(yù)訓(xùn)練任務(wù)的類型。

2SPD-BERT模型

本文提出的面向口語對話預(yù)訓(xùn)練語言模型SPD-BERT需要理解每一輪次的角色以及該角色的話語語義,其輸入可以表示為dk={(si, ui)}mi=1。其中,dk表示某次完整對話;m表示對話的總輪次;i∈[1,m]表示第i輪次;si表示第i輪次的角色;ui表示第i輪次的角色所說的話語。ui可以進一步表示為{uij}nij=1,ni是第i輪的話語長度,uij表示第i輪話語中的第j個字符,j∈[1,ni]。本模型的目的是,給定任意一通對話,為每一角色說的話語,結(jié)合上下文生成其嵌入向量。值得注意的是,該嵌入向量不僅包含話語的上下文語義和結(jié)構(gòu)信息,還包括對應(yīng)角色的信息,因此該嵌入向量能夠通過微調(diào)有效地應(yīng)用到不同的下游任務(wù)。

2.1模型概覽

模型的輸入表示和模型的整體結(jié)構(gòu)如圖2所示。輸入表示包括token編碼、片段編碼和位置編碼。token編碼和位置編碼采取BERT[5]模型中的編碼方式。與傳統(tǒng)片段編碼不同的是,本文模型是面向多輪次、雙角色對話場景的,因此,這里的片段數(shù)量與總的對話輪次成正相關(guān)。

將token編碼與片段編碼、位置編碼相加作為Transformer的輸入表示。其中,token編碼為etij∈Euclid ExtraaBpd,對應(yīng)的字符嵌入表為Et∈Euclid ExtraaBpV×d,V表示詞表大小;片段編碼為esij∈Euclid ExtraaBpd,對應(yīng)的片段嵌入表為Es∈Euclid ExtraaBpS×d,S表示最大片段數(shù)量(即最大對話輪次數(shù)量);位置編碼為epij∈Euclid ExtraaBpd,對應(yīng)的位置嵌入表為Ep∈Euclid ExtraaBpN×d,N表示整個對話的序列長度,即N=∑mi=1ni。這里,d設(shè)置為768。因此,Transformer的輸入表示為

eij=etij+esij+epij(1)

其中:eij∈Euclid ExtraaBpd。經(jīng)過Transformer的強大特征提取能力,輸出每個位置對應(yīng)的嵌入向量為

Eij=transformer(eij)(2)

其中:Eij∈Euclid ExtraaBpd表示序列每個字符的輸出向量。利用每個片段第一個嵌入向量(即ECLSi=Ei1),經(jīng)過非線性分類器可以識別該片段的角色、輪次、是否存在內(nèi)部反轉(zhuǎn)等。利用每個片段的其他位置的嵌入向量可以判斷是否存在掩碼,以及掩碼對應(yīng)的實際文本。

2.2預(yù)訓(xùn)練任務(wù)

為了充分挖掘大規(guī)模多輪、雙角色對話中蘊涵的知識,基于傳統(tǒng)預(yù)訓(xùn)練任務(wù)的兩大核心——掩碼和順序,本文提出了角色和語義融合的四項預(yù)訓(xùn)練任務(wù)。將這四項自監(jiān)督預(yù)訓(xùn)練任務(wù)聯(lián)合訓(xùn)練,在進行語義建模的同時,充分考慮話語角色和對話結(jié)構(gòu)上下文。這里的自監(jiān)督是指無須對大規(guī)模語料進行人工標(biāo)注,而是直接利用語料本身的標(biāo)簽,例如某query是哪個角色說的,可以構(gòu)建角色標(biāo)簽;某角色先說了某query,下一輪對話中說了另外一個query。可以構(gòu)建query內(nèi)部的順序標(biāo)簽以及輪次之間的順序標(biāo)簽。

2.2.1全詞掩碼WWM

常規(guī)的掩碼語言模型是以15%概率選擇輸入序列的字符進行掩碼;然后,針對這些字符以80%概率進行實際掩碼,10%概率隨機替換,10%概率保持不變。為了提高模型的語義學(xué)習(xí)能力,文獻[25]提出了全詞掩碼(WWM),基于預(yù)設(shè)詞典,將連續(xù)的若干字符同時掩碼。本文采取的是全詞掩碼。例如,對于角色si的話語ui={ui1,ui2,ui3,…,uin},如果選擇其中的第2、3個字符掩碼,即得到u′i={ui1,[MASK],[MASK],…,uin}。圖1案例中的第1輪對話中的“解鎖”表示了全詞掩碼。利用每個位置輸出的嵌入向量,通過非線性字符分類器預(yù)測字符,并與實際字符進行比較。

p1ij=softmax(Eij·EtT+b1)(3)

其中:p1ij∈Euclid ExtraaBpV表示對掩碼后的uij的預(yù)測值;b1為非線性分類器的偏置參數(shù)。值得注意的是,這里共享了字符嵌入表Et,只是在計算過程中進行了轉(zhuǎn)置。模型的編碼器參數(shù)記為θ,非線性字符分類器參數(shù)記為θ1,輸入序列掩碼的字符數(shù)量為M。全詞掩碼預(yù)訓(xùn)練任務(wù)的損失函數(shù)可以表示為

L1(θ,θ1)=-∑Mk=1log p1ij(m=mk|θ,θ1),mk∈[1,2,…,V](4)

2.2.2角色預(yù)測RP

除了通過全詞掩碼來學(xué)習(xí)語義知識之外,還考慮話語的角色信息(RP)。需要注意的是,由于本文關(guān)注的是雙角色多輪對話,角色預(yù)測屬于二分類任務(wù)(這里用A和C來表示,A表示客服代表,C表示客戶)。例如,對于對話dk={(s1,u1),(s2,u2),…,(sm,um)},將根據(jù)u1對應(yīng)的嵌入向量判斷該片段是否由s1表達。圖1案例的第2輪對話,預(yù)測其角色為A;第7輪對話,預(yù)測其角色為C。利用每個片段的第一個嵌入向量(即Ei1)作為片段的語義表示,通過非線性角色分類器預(yù)測該片段的角色,并與實際角色進行比較。

p2i=sigmoid(Ei1·W2+b2)(5)

其中:p2i∈Euclid ExtraaBp;W2∈Euclid ExtraaBpd×1;b2是非線性分類器的偏置參數(shù)。然而本文模型不限于雙角色對話,同樣適合于多角色對話場景,只需由二分類任務(wù)轉(zhuǎn)換為多分類任務(wù)即可。非線性角色分類器的參數(shù)記為θ2,角色預(yù)測預(yù)訓(xùn)練任務(wù)的損失函數(shù)可以表示為

L2(θ,θ2)=-∑mr=1log p2i(n=nr|θ,θ2),nr∈[A,C] (6)

2.2.3話語內(nèi)部反轉(zhuǎn)預(yù)測IQRP

多輪對話具有先天的內(nèi)在順序邏輯,本文提出兩種基于順序的預(yù)訓(xùn)練任務(wù)。本節(jié)從微觀角度先介紹角色的話語內(nèi)部順序(IQRP)。角色在表達話語的過程中往往包含多個句子,這些句子之間是天然具有先后順序和內(nèi)在邏輯的,如果將其中連續(xù)兩個句子進行互換,將影響句子的實際語義和含義。因此,話語內(nèi)部反轉(zhuǎn)預(yù)測屬于二分類任務(wù),即存在反轉(zhuǎn)和沒有反轉(zhuǎn)。例如,對于角色si的話語ui={ui1,ui2,ui3,ui4,…,uin},假定ui1與ui2組成一個句子,ui3與ui4組成一個句子,如果選擇該連續(xù)兩個句子進行反轉(zhuǎn),即得到u′i={ui3,ui4,ui1,ui2,…,uin}。圖1案例的第10輪對話的內(nèi)部發(fā)生了反轉(zhuǎn),因此,預(yù)測為true。利用每個片段的第一個嵌入向量,預(yù)測該片段內(nèi)部是否存在句子反轉(zhuǎn),并與實際標(biāo)簽進行比較。

p3i=sigmoid(Ei1·W3+b3)(7)

其中:p3i∈Euclid ExtraaBp;W3∈Euclid ExtraaBpd×1;b3是非線性分類器的偏置參數(shù)。非線性反轉(zhuǎn)分類器的參數(shù)記為θ3,話語內(nèi)部反轉(zhuǎn)預(yù)測預(yù)訓(xùn)練任務(wù)的損失函數(shù)可以表示為

L3(θ,θ3)=-∑mt=1log p3i(c=ct|θ,θ3),ct∈[true,1](8)

2.2.4輪次間互換預(yù)測IQEP

從宏觀角度來看,在一通多輪對話的過程中,角色是基于之前的多次交互信息決定如何輸出本輪次的話語,不同輪次的話語也具有內(nèi)在的順序邏輯,它可能是對前一輪次的回復(fù),也可能是對更早輪次的澄清或否定等。如果將任意兩輪話語進行順序交換,必將影響整個對話的實際語義和含義。因此,輪次間互換預(yù)測(IQEP)實際上是需要預(yù)測每一片段在整個對話的實際輪次,屬于多分類任務(wù)。例如,對于對話dk={(s1,u1),(s2,u2),(s3,u3),…,(sm,um)},如果選擇第1和3輪次對話互換,即得到d′k={(s3,u3),(s2,u2),(s1,u1),…,(sm,um)},這里就需要根據(jù)片段u3的嵌入向量預(yù)測其輪次為3(即使片段u3在輸入序列中處于第1輪次),同理,根據(jù)片段u1的嵌入向量預(yù)測其輪次為1(即使片段u1在輸入序列中處于第3輪次)。圖1案例的第3、4輪進行了互換,因此,需要預(yù)測輸入第3輪實際為第4輪,而輸入第4輪實際為第3輪。利用每個片段的第一個嵌入向量,預(yù)測該片段在對話中的輪次,并與實際輪次進行比較。

p4i=softmax(Ei1·W4+b4)(9)

其中:p4i∈Euclid ExtraaBpS;W4∈Euclid ExtraaBpd×S;b4是非線性分類器的偏置參數(shù)。非線性輪次分類器的參數(shù)記為θ4,輪次預(yù)測預(yù)訓(xùn)練任務(wù)的損失函數(shù)可以表示為

L4(θ,θ4)=-∑Ss=1log p4i(e=es|θ,θ4),es∈[1,2,…,S] (10)

2.3多任務(wù)聯(lián)合訓(xùn)練

綜合考慮上述四個自監(jiān)督預(yù)訓(xùn)練任務(wù),通過多任務(wù)聯(lián)合學(xué)習(xí),最小化上述損失函數(shù)之和,訓(xùn)練本文的SPD-BERT模型,模型總的損失函數(shù)可以表示為

L(θ,θ1,θ2,θ3,θ4)=L1(θ,θ1)+L2(θ,θ2)+L3(θ,θ3)+L4(θ,θ4)(11)

2.4模型預(yù)訓(xùn)練

2.4.1語料數(shù)據(jù)

由于目前沒有開源的大規(guī)模口語對話數(shù)據(jù)集,本文收集了金融領(lǐng)域內(nèi)2020年5月至2021年5月的人工客服坐席的對話數(shù)據(jù)。這些數(shù)據(jù)是客戶和客服代表使用口語通過電話方式進行對話,并將語音通過ASR轉(zhuǎn)譯后的文本數(shù)據(jù)。為了保護客戶的隱私,將文本中出現(xiàn)的數(shù)字(包括但不限于身份證號碼、手機號碼、金額、銀行卡號、住址門牌號等)、姓名、地址等全部進行隨機替換脫敏處理。對于脫敏后的數(shù)據(jù)語料,為了提升語料質(zhì)量,進行了如下預(yù)處理:a)針對常見的ASR轉(zhuǎn)譯錯誤(如備用金和被用金)進行強制轉(zhuǎn)換;b)為了滿足雙角色的基本要求,剔除只涉及1個角色的對話(如外呼未接聽);c)為了使得模型學(xué)習(xí)到更豐富的語義知識,并且人人對話的總輪次往往較多,這里剔除總輪次較少(8輪及以下)的對話;d)剔除對話文本的總長度小于80的對話;e)由于本文基于Transformer特征提取器,結(jié)合語料數(shù)據(jù)分析,對話文本的總長度限制在486;f)考慮到輪次預(yù)測屬于多分類任務(wù),對話總輪次限制在32輪。經(jīng)過預(yù)處理后,得到大約2 000萬通高質(zhì)量、多輪次、雙角色口語對話。

為了充分提高語料的利用率,本文采取動態(tài)生成訓(xùn)練樣本的方式,具體體現(xiàn)在兩個方面:a)基于全量對話語料構(gòu)建領(lǐng)域?qū)S性~典,對于任意對話,隨機選擇其中若干專有術(shù)語進行全詞掩碼;b)對于三個自監(jiān)督任務(wù)(RP、IQRP、IQEP),并不需要對每個片段分別預(yù)測,而是隨機選擇其中部分片段進行預(yù)測。對于角色預(yù)測任務(wù)RP,隨機選擇若干片段(而非全部片段)預(yù)測其角色。同理,對于IQRP和IQEP,也采取同樣的處理方式。由于上述方法都基于隨機選擇,對于任意一通對話,可以生成多個訓(xùn)練樣本,從而大幅度增加訓(xùn)練樣本的數(shù)量。特別地,生成的訓(xùn)練樣本數(shù)量與對話總輪次呈正相關(guān)。

另外需要注意的是,考慮到片段的嵌入向量會用于RP、IQRP、IQEP任務(wù),應(yīng)盡量避免同一個片段同時參與多個預(yù)測任務(wù),而其他片段卻沒有參與到任務(wù)學(xué)習(xí)中。也就是說,隨機選擇若干個片段,預(yù)測其對應(yīng)的角色;再從剩余的片段中隨機選擇若干片段,預(yù)測其內(nèi)部是否存在反轉(zhuǎn);然后,再從剩余的片段中隨機選擇若干片段,預(yù)測其輪次。

2.4.2模型訓(xùn)練

這里的Transformer編碼器配置與BERT[5]的BERTbase保持一致,并且使用開源的中文BERT參數(shù)來初始化Transformer編碼器,學(xué)習(xí)率設(shè)置為5E-5,使用學(xué)習(xí)率預(yù)熱,非線性分類器的激活函數(shù)設(shè)置為GELU[26],優(yōu)化器設(shè)置為Adam[27],批大小設(shè)置為32,在Tesla V100上進行模型訓(xùn)練。對于所有實驗,本文按照80%、10%、10%的比例將數(shù)據(jù)集拆分成訓(xùn)練集、驗證集、測試集,依據(jù)驗證集的效果選擇最優(yōu)模型,并在測試集進行評估。每組實驗進行四次,取四次評估結(jié)果的平均值作為最終的評估結(jié)果。

3實驗及分析

基于人人對話語料訓(xùn)練的SPD-BERT模型,是為了學(xué)習(xí)到口語對話的領(lǐng)域知識,可應(yīng)用于下游的口語理解任務(wù)中,如智能質(zhì)檢、智能客服、智能助手等。這里以智能客服場景為例,精調(diào)SPD-BERT模型應(yīng)用于三個典型口語語言理解下游任務(wù):意圖識別、ASR拼音糾錯和產(chǎn)品名識別,并比較不同模型在數(shù)據(jù)集上的效果。

3.1實驗數(shù)據(jù)

筆者所在機構(gòu)在金融領(lǐng)域智能客服方面積累了大量意圖識別訓(xùn)練數(shù)據(jù),可以作為本次實驗對象。為了提升對話效果,筆者所在機構(gòu)標(biāo)注了相當(dāng)數(shù)量的ASR拼音糾錯訓(xùn)練數(shù)據(jù)和產(chǎn)品名(如理財產(chǎn)品、基金產(chǎn)品等)識別訓(xùn)練數(shù)據(jù),三項任務(wù)的訓(xùn)練數(shù)據(jù)分布如圖3所示。

可以發(fā)現(xiàn),在口語對話理解任務(wù)中,大部分樣本是短文本,長度在32個字符左右,這與常見的文檔型數(shù)據(jù)存在較為明顯的差異。表1展示了三個數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計分析,可以發(fā)現(xiàn),針對領(lǐng)域內(nèi)特定任務(wù),為了達到預(yù)期生產(chǎn)效果,人工標(biāo)注了大量的標(biāo)簽數(shù)據(jù)。值得注意的是,這些訓(xùn)練數(shù)據(jù)都是基于單輪對話的客戶話語,因此,按照SPD-BERT模型的輸入格式要求,在客戶話語的首部添加[CLS]標(biāo)志,并在尾部添加[SEP]標(biāo)志輸入到模型中,得到每個位置的嵌入向量。對意圖識別任務(wù),提取[CLS]對應(yīng)的嵌入向量,再增加全連接層,輸出每個意圖的得分和概率。例如客戶話語“幫我看看我卡里還有多少錢”,對應(yīng)的意圖為“查余額”。對于ASR拼音糾錯任務(wù),提取每個字符位置對應(yīng)的嵌入向量,再增加全連接層,輸出該字符是否存在轉(zhuǎn)譯錯誤(屬于二分類任務(wù));對于存在轉(zhuǎn)譯錯誤的字符,使用另外一個全連接層,輸出詞典中每個字符的得分和概率(屬于多分類任務(wù))。例如客戶話語“我想數(shù)回馬上到期的理財產(chǎn)品”,其中,“贖回”被ASR錯誤轉(zhuǎn)譯為“數(shù)回”,這將嚴(yán)重影響后續(xù)的意圖識別。對于產(chǎn)品名識別任務(wù),提取每個字符位置對應(yīng)的嵌入向量,再增加CRF層,輸出每個字符屬于產(chǎn)品名的得分和概率。例如客戶話語“光伏50ETF這款基金怎么樣?”,輸出基金產(chǎn)品名光伏50ETF。

3.2實驗結(jié)果

對于不同的下游任務(wù),對比多種基線模型在各自測試數(shù)據(jù)集上的效果。對于意圖識別模型,使用的對比模型包括基于CNN[28]的文本分類模型、基于RNN的文本分類模型、基于BERT[5]的文本分類模型、基于ERNIE[29]的文本分類模型。表2展示了意圖識別任務(wù)的實驗結(jié)果。結(jié)果表明,預(yù)訓(xùn)練語言模型BERT更能理解話語的語義信息,相較于CNN、RNN分別顯著提升了2.83%、1.56%,而ERNIE由于包含了更豐富的知識,F(xiàn)1進一步提升了0.47%,達到了非常好的效果。而本文的SPD-BERT模型考慮了角色信息、語義信息和對話結(jié)構(gòu)信息,因此,相對于ERNIE進一步提升了0.38%。該實驗表明,SPD-BERT在短文本分類任務(wù)上具有明顯優(yōu)勢。

對于ASR拼音糾錯任務(wù),首先對每個字符進行錯誤檢測,如果認(rèn)為該字符存在拼音錯誤,則嘗試糾正錯誤。選擇包含了拼音和筆畫的預(yù)訓(xùn)練模型PLOME[16]作為本實驗的基線模型。如表3所示,比較了PLOME和SPD-BERT的字符級別、句子級別的P(精準(zhǔn)率)、R(召回率)、F1值(P和R的調(diào)和平均數(shù))。對于字符級別,在錯誤檢測階段,F(xiàn)1顯著提升了1.1%;在錯誤糾正階段,F(xiàn)1也提升了0.4%。對于句子級別,在錯誤檢測階段,F(xiàn)1提升較為明顯,達到2.8%;在錯誤糾正階段,F(xiàn)1也取得明顯效果,提升了1.8%。該實驗表明,SPD-BERT在ASR拼音糾錯方面具有明顯優(yōu)勢。

對于產(chǎn)品名識別任務(wù),選擇常規(guī)的BiLSTM+CRF[30]和BERT+CRF作為基線模型。表4展示了基于實體級別的實驗結(jié)果,可以發(fā)現(xiàn),由于理財產(chǎn)品覆蓋數(shù)百款、基金產(chǎn)品覆蓋數(shù)千款,而人工標(biāo)注的數(shù)據(jù)量較為豐富,所以名稱識別的效果整體較好。BERT+CRF相較于BiLSTM+CRF,F(xiàn)1提升了1.87%,SPD-BERT+CRF在BERT的基礎(chǔ)上進一步提升了0.48%。該實驗表明,SPD-BERT在命名實體識別方面也具有明顯優(yōu)勢。

4結(jié)束語

本文提出面向口語對話的預(yù)訓(xùn)練語言模型SPD-BERT,并構(gòu)建了大規(guī)模人人口語對話語料。根據(jù)筆者的經(jīng)驗,該模型是首個面向口語對話、多輪次、雙角色的語言模型,通過四個自監(jiān)督預(yù)訓(xùn)練任務(wù):全詞掩碼、角色預(yù)測、話語內(nèi)部反轉(zhuǎn)預(yù)測和輪次間互換預(yù)測,該模型不僅考慮話語的角色信息,還融合了多輪對話結(jié)構(gòu)和語義信息。通過在金融領(lǐng)域智能客服場景的三個典型下游任務(wù)中的實驗,證明了該模型的有效性。

另外,本文提出的第四個預(yù)訓(xùn)練任務(wù)輪次間互換預(yù)測,僅僅考慮對話中任意兩句話語的互換。還可以考慮基于話語對的輪次互換,也就是dk={(s1, u1),(s2,u2), (s3,u3),(s4,u4),(s5,u5)}可以轉(zhuǎn)換為dk={(s3, u3),(s4,u4),(s1,u1),(s2,u2),(s5,u5)},模型需要同時預(yù)測四個位置的正確順序。大量相關(guān)研究表明,基于PAIR的損失函數(shù)比基于item的往往能帶來性能上的提升。

在此基礎(chǔ)上,筆者希望從以下三個方面繼續(xù)提升該模型的性能:a)繼續(xù)擴大領(lǐng)域口語對話語料庫,更大規(guī)模的語料往往能夠帶來模型效果的提升;b)嘗試更加復(fù)雜的自監(jiān)督預(yù)訓(xùn)練任務(wù),學(xué)習(xí)到更復(fù)雜的語義、結(jié)構(gòu)等信息,從而提升模型的能力;c)探索基于該模型應(yīng)用于對話場景的其他任務(wù),例如高頻意圖識別、對話樹自動構(gòu)建、知識圖譜構(gòu)建、商機發(fā)現(xiàn)、個性化智能對話等。

致謝

感謝創(chuàng)新實驗室胡巖、蔣勝臣、徐義通在實驗對比分析中的幫助,感謝李虹、張淼在大規(guī)模對話語料收集中提供的支持。

參考文獻:

[1]曹亞如, 張麗萍, 趙樂樂. 多輪任務(wù)型對話系統(tǒng)研究進展 [J]. 計算機應(yīng)用研究,2022,39(2): 331-341. (Cao Yaru, Zhang Liping, Zhao Lele. Research progress of multi-turn task-oriented dialogue system [J]. Application Research of Computers, 2022, 39(2): 331-341.)

[2]趙陽洋, 王振宇, 王佩, 等. 任務(wù)型對話系統(tǒng)研究綜述 [J]. 計算機學(xué)報,2020,43(10): 1862-1896. (Zhao Yangyang, Wang Zhen-yu, Wang Pei, et al. A survey on task-oriented dialogue systems [J]. Chinese Journal of Computers, 2020, 43(10): 1862-1896.)

[3]陳晨, 朱晴晴, 嚴(yán)睿, 等. 基于深度學(xué)習(xí)的開放領(lǐng)域?qū)υ捪到y(tǒng)研究綜述 [J]. 計算機學(xué)報,2019,42(7): 1439-1466. (Chen Chen, Zhu Qingqing, Yan Rui, et al. Survey on deep learning based open domain dialogue system [J]. Chinese Journal of Computers, 2019, 42(7): 1439-1466.)

[4]楊寧, 盧菁, 邵清, 等. 基于無向分塊加權(quán)圖的無模式實體識別方法研究 [J]. 計算機應(yīng)用研究,2021,38(1): 169-174. (Yang Ning, Lu Jing, Shao Qing, et al. Research on schema-agnostic entity resolution based on undirected block weighted graph [J]. Application Research of Computers, 2021, 38(1):169-174.)

[5]Devlin J, Chang Mingwei, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.

[6]Ravuri S V, Stolcke A. Recurrent neural network and LSTM models for lexical utterance classification [C]// Proc of Interspeech. [S.l.]: International Speech Communication Association, 2015: 135-139.

[7]Kurata G, Xiang Bing, Zhou Bowen, et al. Leveraging sentence-level information with encoder LSTM for semantic slot filling [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 2077-2083.

[8]Haihong E, Niu Peiqing, Zhongfu Chen, et al. A novel bi-directional interrelated model for joint intent detection and slot filling [C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 5467-5471.

[9]Qin Libo, Liu Tailu, Che Wanxiang, et al. A co-interactive transformer for joint slot filling and intent detection [C]// Proc of International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE Press, 2021: 8193-8197.

[10]Chen Qian, Zhuo Zhu, Wang Wen. BERT for joint intent classification and slot filling [EB/OL]. (2019-02-28). https://arxiv.org/pdf/1902.10909.pdf.

[11]Castellucci G, Bellomaria V, Favalli A, et al. Multi-lingual intent detection and slot filling in a joint BERT-based model [EB/OL]. (2019-07-05). https://arxiv.org/pdf/1907.02884v1.pdf.

[12]Qin Libo, Xie Tianbao, Che Wanxiang, et al. A survey on spoken language understanding: recent advances and new frontiers [EB/OL]. (2021-05-09). https://arxiv.org/pdf/2103.03095.pdf.

[13]Yu Junjie, Li Zhenghua. Chinese spelling error detection and correction based on language model, pronunciation, and shape [C]// Proc of the 3rd CIPS-SIGHAN Joint Conference on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 220-223.

[14]Hong Yuzhong, Yu Xianguo, He Neng, et al. FASPell: a fast, adaptable, simple, powerful Chinese spell checker based on DAE-decoder paradigm [C]// Proc of the 5th Workshop on Noisy User-Gene-rated Text. Stroudsburg, PA: Association for Computational Linguistics, 2019: 160-169.

[15]Cheng Xingyi, Xu Weidi, Chen Kunlong, et al. SpellGCN: incorporating phonological and visual similarities into language models for Chinese spelling check [C]// Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 871-881.

[16]Liu Shulin, Yang Tao, Yue Tianchi, et al. PLOME: pre-training with misspelled knowledge for Chinese spelling correction [C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 2991-3000.

[17]Mikolov T, Chen Kai, Corrado G S, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07). https://arxiv.org/pdf/1301.3781.pdf.

[18]孫飛, 郭嘉豐, 蘭艷艷, 等. 分布式單詞表示綜述 [J]. 計算機學(xué)報,2019,42(7):1605-1625. (Sun Fei, Guo Jiafeng, Lan Yanyan, et al. A survey on distributed word representation [J]. Chinese Journal of Computers, 2019, 42(7): 1605-1625.)

[19]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need? [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

[20]Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training [EB/OL]. (2018-11-06).https://paperswithcode.com/paper/improving-language-understanding-by.

[21]Wu C S, Hoi S C H, Socher R, et al. TOD-BERT: pre-trained natural language understanding for task-oriented dialogue [EB/OL]. (2020-04-29). https://arxiv.org/pdf/2004.06871v2.pdf.

[22]Kim M, Kim G, Lee S W, et al. ST-BERT: cross-modal language model pre-training for end-to-end spoken language understanding [EB/OL]. (2021-04-11). https://arxiv.org/pdf/2010.12283.pdf.

[23]Gu Jiachen, Tao Chongyang, Ling Zhenhua, et al. MPC-BERT: a pre-trained language model for multi-party conversation understanding [C]// Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 3682-3692.

[24]王孟宇, 俞鼎耀, 嚴(yán)睿, 等. 基于HRED模型的中文多輪對話任務(wù)方法研究 [J]. 中文信息學(xué)報,2020,34(8): 78-85. (Wang Mengyu, Yu Dingyao, Yan Rui, et al. Chinese multi-turn dialogue tasks based on HRED model [J]. Journal of Chinese Information Processing, 2020, 34(8):78-85.)

[25]Cui Yiming, Che Wanxiang, Liu Ting, et al. Pre-training with whole word masking for Chinese BERT[EB/OL]. (2021-11-25). https://arxiv.org/pdf/1906.08101.pdf.

[26]Hendrycks D, Gimpel K. Bridging nonlinearities and stochastic regularizers with Gaussian error linear units [EB/OL]. (2020-07-08). https://arxiv.org/pdf/1606.08415v1.pdf.

[27]Kingma D P, Ba J. Adam: a method for stochastic optimization [EB/OL]. (2017-01-30). https://arxiv.org/pdf/1412.6980.pdf.

[28]Kim Y. Convolutional neural networks for sentence classification [EB/OL]. (2014-09-03). https://arxiv.org/pdf/1408.5882.pdf.

[29]Zhang Zhengyan, Han Xu, Liu Zhiyuan, et al. ERNIE: enhanced language representation with informative entities [C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019:1441-1451.

[30]Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition [C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2016: 260-270.

收稿日期:2022-01-05;修回日期:2022-03-01

作者簡介:黃健(1986-),男,上海人,博士,主要研究方向為智能對話、自然語言理解、文本糾錯、基于知識圖譜的問答和產(chǎn)品推薦(jan8611@163.com);李鋒(1980-),男,上海人,正高級工程師,博士,主要研究方向為數(shù)字人、智能對話、語音識別、圖像識別.

主站蜘蛛池模板: 四虎影视国产精品| 日韩精品免费一线在线观看| 国产麻豆另类AV| 特级精品毛片免费观看| 色国产视频| 日韩高清一区 | 特级欧美视频aaaaaa| 久久国产精品电影| 一区二区三区四区日韩| 野花国产精品入口| 国产SUV精品一区二区6| 99热最新在线| 久久婷婷国产综合尤物精品| 日本免费福利视频| 亚洲人成日本在线观看| 久久久久无码精品| 五月天丁香婷婷综合久久| 综合久久五月天| 1024国产在线| 丁香六月激情婷婷| 久久久精品无码一区二区三区| 欧美成人二区| 露脸国产精品自产在线播| 日韩色图在线观看| 久久久噜噜噜久久中文字幕色伊伊| 又大又硬又爽免费视频| 久久精品一卡日本电影| 国产成人福利在线视老湿机| 91成人在线观看视频| av无码一区二区三区在线| 久草性视频| 欧美成人免费| 亚洲成人一区二区三区| 91久久国产热精品免费| 亚洲第一成网站| 亚洲欧美一级一级a| 在线国产三级| 91福利免费视频| 欧美精品亚洲精品日韩专区va| 91无码人妻精品一区二区蜜桃| 毛片基地视频| 国产又粗又爽视频| 欧洲高清无码在线| 久久综合干| 久久国产精品影院| 国产一区二区三区日韩精品| 精品夜恋影院亚洲欧洲| 中日韩一区二区三区中文免费视频 | 久久精品人人做人人综合试看| 亚洲AⅤ无码国产精品| 女同国产精品一区二区| 中文字幕色在线| 国产丝袜第一页| 拍国产真实乱人偷精品| 欧美精品亚洲二区| 久久综合五月婷婷| 四虎永久免费在线| 亚洲av综合网| 亚洲an第二区国产精品| 亚洲AV无码精品无码久久蜜桃| 91无码视频在线观看| 69免费在线视频| 国产精品丝袜视频| 亚洲AV一二三区无码AV蜜桃| 中文字幕亚洲综久久2021| 国产精品黄色片| 国产精品嫩草影院视频| 色婷婷色丁香| 亚洲综合香蕉| 成人国产一区二区三区| 一级在线毛片| 亚洲视频免费在线| 亚洲国产精品久久久久秋霞影院| 免费国产高清精品一区在线| 98精品全国免费观看视频| 成人日韩精品| 少妇人妻无码首页| 国语少妇高潮| 久久精品电影| 久久亚洲天堂| 狠狠做深爱婷婷久久一区| 在线观看av永久|