









摘 要: "對話系統旨在實現機器與人類進行信息交流并向其提供個性化服務,具有一定的研究價值。為了及時跟進相關領域的研究,對其目前研究進展進行綜述。首先針對對話系統的發展和分類情況進行介紹;其次綜述了任務型對話系統的架構,重點梳理基于模塊和基于端到端兩種框架,并進一步總結歸納所使用模型的優缺點;接下來介紹任務型對話系統的評估方法以及應用領域,包括電商領域、教育領域和醫學領域等方面;最后對多輪任務型對話系統面臨的問題與挑戰進行分析并作出總結。
關鍵詞: "人機對話; 深度學習; 多輪任務型對話系統; 端到端
中圖分類號: "TP391 """文獻標志碼: A
文章編號: "1001-3695(2022)02-002-0331-11
doi:10.19734/j.issn.1001-3695.2021.07.0295
Research progress of multi-turn task-oriented dialogue system
Cao Yaru, Zhang Liping, Zhao Lele
(College of Computer Science amp; Technology, Inner Mongolia Normal University, Hohhot 010022, China)
Abstract: "Dialogue system aims to realize the communication for information between machine and human so as to provide personalized service, it has certain research value. In order to follow up the research in related fields timely, this paper reviewed the current research progress. Firstly, it introduced the development and classification of dialogue system. Secondly, it summarized the architecture of task-oriented dialogue system, focusing on module based and the end-to-end based frameworks, then summarized the advantages and disadvantages of the models. Thirdly, it introduced the evaluation methods and application fields of task-oriented dialogue system, including e-commerce, education, medicine and so on. Finally, it analyzed and summarized the problems and challenges faced by the multi-turn task-oriented dialogue system.
Key words: "human-machine dialogue; deep learning; multi-turn task-oriented dialogue system; end to end
人機對話(human-machine dialogue)是人機交互領域的重要研究內容,旨在最大限度地模仿人與人之間交流的方式,使人類可以與機器通過自然語言進行交流。對話系統(dialogue system)則是用來實現人機對話,以便提供特定的自動化服務的具體系統[1]。
1950年,Turing[2]提出了圖靈測試,即令機器與人類測試者進行交談,在測試過程中,如果30%的人類測試者無法判斷與之對話的對象是否為機器,則說明該機器通過了圖靈測試,也就是說該機器已經實現了智能。隨著研究的不斷深入,圍繞對話系統的研究也成為目前人機交互領域的重點研究方向。
對話系統發展至今可以劃分為三個階段,各階段的對話系統都有其各自的特征。20世紀60年代,第一個對話系統ELIZ[3] 問世。當時,ELIZ被視為心理醫生,可以對患者進行心理干預。第一代對話系統基于規則模板,通過簡單的關鍵詞匹配以及專家編寫的回復規則來實現對話。這種方法雖然實現簡單且易于理解,但是在構建規則時較為復雜并且跨領域的擴展性不強,需要大量的人力物力。大數據技術的出現和迅速發展使得第二代對話系統成為熱門研究內容,即基于數據驅動的淺層學習的對話系統。這類對話系統不涉及特征學習,其特征需要人工經驗或者特征轉換的方法來抽取。因此,第二代對話系統存在難以擴展的缺點。近年來,由于深度學習在其他領域的出色表現,以深度學習為主要方法的對話系統應運而生。基于此,以端到端的方法為代表的第三代對話系統成為目前熱點研究內容。此類模型的表征能力強,但是對數據規模要求較高。隨著網絡上數據的海量增長,端到端的對話系統獲得了較廣闊的發展前景。
1 對話系統的分類
對話系統是人類使用自然語言與機器進行信息交流,并使機器為其提供個性化服務的系統軟件。日常生活中,對話系統的應用較為常見,比如智能客服、私人助理、陪伴機器人等。對話系統可以分為不同類別應用于不同的工作中。
對話系統可以按照交互輪數的復雜程度進行分類,一般可以將其分為單輪對話和多輪對話。單輪對話為一輪的交互,即在一次的人機信息交流后完成用戶比較簡單的請求。單輪交互只需要執行一些已經設定好的或者并不復雜的操作,識別用戶簡單的意圖并完成簡單的任務,在對話內容中也不存在人類交談中常出現的與上下文密切相關的指代詞,即不需要聯系其他交互內容就可以完成用戶請求的過程。不同于單輪對話,多輪對話中常存在上下文聯系的問題。 在響應用戶請求的過程中,系統完全圍繞一個主題與用戶進行多次信息交流來描述任務,以此獲得更多有利于明確用戶真實意圖和實際需求的信息。所以,多輪對話對當前交互內容上下文的聯系與記憶有著更高的要求。單輪對話系統與多輪對話系統的區別如表1所示。
按照對話系統所提供服務的不同,又可以將對話系統分為任務型對話系統、非任務型對話系統和問答系統。任務型對話系統常應用于需要完成具體任務的交互中。這類對話系統面向垂直域,像人類助手一般,旨在用盡可能少的對話輪數滿足用戶的需求或完成用戶提出的任務。大多數的任務型對話系統數據規模較小,領域性較強,這樣的特點使這類對話系統難以跨領域應用。非任務型對話系統面向開放域,沒有固定的主題。這類對話系統話題自由,有著回復前后一致性、回復多樣化和個性化的要求, 常被應用于日常所見的閑聊機器人中。但是由于目前數據的匱乏,非任務型對話系統在實際應用與設想中的使用還具有一定的差距。問答系統本質上是信息檢索的過程,系統獲得用戶輸入問句的關鍵詞,在相應的庫中匹配最相似問題的答案并將其反饋給用戶,這樣就完成了答案的反饋。
任務型對話系統在日常生活中應用廣泛,目前已經有很多相關的研究,同時,由于自然語言的靈活性,對于用戶提出的問題在一輪的交互中往往難以理解,所以多輪任務型對話系統成為研究的重點內容。在相關的中文綜述中,趙陽洋等人[4]綜述了任務型對話系統研究,其重點在于實現對話系統技術上的總結; 俞凱等人[5]詳細介紹了認知技術在人機對話系統中的定位并綜述了相關技術領域的進展。國外也有對話系統研究的相關綜述,López-Cózar等人[1]綜述了對話系統的基本原理、實現技術及其發展、應用;Chen等人[6]在2017年發表對話系統英文綜述,介紹了任務型對話系統和非任務型對話系統并討論了今后的研究方向。在這些綜述研究的基礎上,本文介紹了對話系統的相關架構、實現方法、評估方法以及相關應用等內容。
2 任務型對話系統架構
任務型對話系統常被應用于完成具體任務的工作中。目前有關任務型對話系統的研究通常是基于模塊或基于端到端的架構[7]。下文提到的對話系統均表示任務型對話系統。
2.1 基于模塊的對話系統
基于模塊的對話系統是比較經典的,是將整個系統的各個功能劃分成各自獨立的模塊來分別實現。在純文本對話系統基于模塊的架構中,整個對話系統可以分為自然語言理解(natural language understanding,NLU)、對話管理(dialogue ma-nager,DM) 以及自然語言生成(natural language generation,NLG)[7]三個模塊。部分對話系統將對話管理模塊劃分為對話狀態追蹤(dialogue state tracking,DST)和對話策略(dialogue po-licy,DP)兩部分。基于模塊的對話系統如圖1所示。
在用戶與機器進行交互時,用戶輸入具體的任務,該任務由自然語言描述。用戶的輸入進入自然語言理解模塊首先要進行分類,包括分類到具體領域和識別出用戶的真實意圖,再通過語義槽填充得到標注序列,并將標注后的數據傳輸到對話管理模塊。在對話管理模塊中,對話狀態追蹤推斷出用戶當前意圖和對話狀態,對話策略再決定系統下一步的走向。最后通過自然語言生成模塊將機器回復轉換成人類可以理解的自然語言形式,再將生成的回復反饋給用戶,至此就完成了用戶與機器的一輪交互。下文將描述基于模塊的框架中自然語言、對話管理以及自然語言生成模塊所完成的任務。
2.1.1 自然語言理解模塊
對話系統的自然語言理解模塊旨在解析用戶輸入的自然語言,并從中提取出系統可以利用的信息。在對話系統與用戶進行交互的過程中,用戶輸入的自然語言中常常蘊涵著真實意圖與請求。對話系統通過與用戶進行交互從中獲取足夠的信息,以此作為判斷依據來完成后續工作。
自然語言理解模塊通常被認為由領域識別、意圖識別和語義槽填充三部分工作組成。領域識別和意圖識別實際上是分類任務,領域識別將用戶請求分類到不同的領域中,意圖識別是通過用戶的輸入判斷用戶的真實需求。語義槽填充是序列標注問題,即將用戶意圖具體化到一定的參數,這樣就可以刻畫出用戶意圖的完整信息。通過這三個部分的工作,最終理解用戶的真實意圖。自然語言理解如圖2所示。在用戶輸入的語句中,機器首先識別其語句所處領域,之后機器可以圍繞“餐廳”這一領域提供服務;在意圖識別部分,識別出對該領域數據進行的操作,如圖中對餐廳的查詢、預訂等;語義槽存放領域的屬性,比如餐廳領域有“菜系”“地點”等屬性。
2.1.2 對話管理模塊
在現階段研究中,常認為對話管理模塊由對話狀態追蹤和對話策略兩部分工作組成,這兩部分內容相輔相成,共同完成對話管理的任務。
對話狀態是在某一固定時刻,系統結合所獲得的對話歷史和當前用戶的輸入給出每個槽值的概率分布情況。對話狀態追蹤就是根據歷史對話信息推斷出當前對話狀態和用戶的意圖,并在多輪交互中更新對話狀態,對之前得到的信息進行加工并以此支持接下來的對話策略。
對話狀態追蹤有人工規則、生成式和判別式模型三類主要方法。就目前研究而言,判別式模型的效果相比其他模型表現更好,這是因為它可以對對話狀態進行精確建模,而且在與深度學習等方法結合進行自動提取特征的工作中表現更好。
在對話系統中,對話策略控制著用戶與機器交互,與用戶的體驗感息息相關。對話策略基于當前的狀態來決定系統的下一步行為,目前相關研究將監督學習、強化學習等技術應用于對話策略的處理任務中。
2.1.3 自然語言生成模塊
自然語言生成模塊的任務是將系統要傳達給用戶的信息以人類可以理解的自然語言形式表示,以實現機器與人類的交互。在對話系統中,自然語言生成就是在系統經過自然語言理解、對話狀態追蹤以及對話策略后,根據學習到的策略生成對話回復。一個好的應答語句應該具備上下文連貫、回復內容準確、易于用戶理解以及回復形式多樣的特點[8]。
2.2 基于端到端的對話系統
基于模塊的對話系統是將每個模塊獨立處理優化,模型無法很好地拓展到其他領域中,而且模塊獨立容易造成各個模塊間的錯誤累積,影響對話質量[9]。因此,隨著深度學習的不斷發展與研究的深入,基于端到端框架的對話系統逐步成為研究熱點。端到端的方法將管道方法中部分模塊或全部模塊用端到端方法替代,相當于一個黑盒,利用歷史對話直接生成回復,在一定程度上避免了模塊化容易產生錯誤累積的弊端。經典端到端任務型對話系統實現過程如圖3所示。
在端到端的對話系統中,用戶輸入的自然語言經過意圖識別網絡的處理后進入策略網絡,狀態追蹤器處理后得到的結果進入策略網絡并進入外部數據庫進行關鍵字查詢。數據庫中查詢到的結果和策略網絡中學習到的內容再反饋到生成網絡,將最終的反饋結果以自然語言的形式展現給用戶。如圖3中實例所示,用戶輸入想要吃的食物,輸入進入意圖識別網絡,將語句分解為“我,想,吃,〈v.food〉”,處理后的信息進入策略網絡;狀態追蹤器處理用戶輸入并通過相關系數確定菜系,交付策略網絡并進入數據庫進行查詢;數據庫查詢后的結果返回策略網絡,生成網絡將數據庫中查詢到的字段與策略網絡中生成的語句相結合,最后將完整的一句回復返回用戶[10]。
3 任務型對話系統的主要模型
對話系統各個任務的實現基于不同的模型,下文將介紹基于模塊的對話系統和基于端到端的對話系統的相關模型。
3.1 基于模塊的對話系統的主要模型
一個完整的基于模塊的對話系統由若干個子任務組成,各個任務的實現依賴不同的模型,下面介紹自然語言理解模塊、對話管理模塊以及自然語言生成模塊中完成相關任務時使用的模型。
3.1.1 自然語言理解模塊
自然語言理解是自然語言處理領域的研究重點。自然語言中往往蘊涵著大量的潛在信息,對用戶輸入的自然語言理解的準確程度將影響對話系統的任務完成情況。
自然語言理解中的領域識別問題和意圖識別問題屬于文本分類任務。文本分類是一項用預定義集合中的主題類別標記自然語言文本的任務[11],早期的研究中,針對文本分類研究采用K近鄰(K-nearest neighbor,KNN)[12]、樸素貝葉斯(naive Bayesian,NB)[13]和支持向量機(support vector machines,SVM)[14~17]等傳統的統計學習模型對數據量的要求有所不同。文獻[17]通過對比實驗證明,當每個類別的訓練實例數量較小(小于10個)時,SVM、KNN的效果顯著優于NB,而當類別足夠多(超過300個)時,所有方法的性能都比較好。傳統文本分類方法存在一定的缺點,以SVM模型為例,雖然該模型適合解決高維非線性問題且不容易過擬合,但是該模型太依賴核函數的選取,不能進行自動學習。近年來,以神經網絡為代表的深度學習技術以其強大的特征學習能力,在自然語言理解工作中廣泛使用。在文本分類任務中,常見的模型有卷積神經網絡(convolutional neural networks,CNN)[18]、循環神經網絡(recurrent neural networks,RNN)[19]、CNN與RNN相結合的模型[20]、RNN與注意力(attention)機制相結合的模型[21]以及特殊的RNN——長短期記憶網絡(long-short term memory,LSTM)[22]和CNN與LSTM相結合的模型[23]等。這類深度學習模型逐漸完善了傳統方法中部分問題,并使模型具有一定的知識遷移的能力,但是仍存在一些問題。以CNN和RNN為例,CNN模型簡單,并且可以提取局部高層文本特征[24],但是對設置超參數要求較高,訓練速度緩慢[25];RNN在短文本數據上表現良好,但是存在梯度爆炸或梯度消失的問題,并且難以學習長依賴[26]。
自然語言理解模塊在完成分類任務后,就面臨著語義槽填充問題,即序列標注問題。序列標注模型有著廣泛的應用,只要在對序列標注時給定特定的標簽集合,就可以進行序列標注,其輸出是一個標簽序列。在序列標注領域,常用的模型有隱馬爾可夫(hidden Markov model,HMM)[27]和條件隨機場(conditional random field,CRF)[28]等。CRF模型考慮了句子的局部特征,在詞性標注上表現良好,但是,當輸出標簽之間存在強依賴性時,其獨立的分類決策能力較弱[29]。使用深度學習完成序列標注任務中常用的RNN模型及其變體,如LSTM模型[30,31]。另外還有雙向長短期記憶網絡(bidirectional long-short term memory,BiLSTM)+CRF模型[32],該模型結合了自動提取特征與計算聯合概率,在實驗過程中技巧性較強。
聯合模型也可以完成自然語言理解任務。聯合建模是對領域識別、意圖識別和語義槽填充任務進行聯合訓練和聯合測試。在這樣的訓練中,一個任務可以用到另一個任務的信息, 互相糾正錯誤,從而提高整體的準確率。CNN+CRF[33]、RNN+ CRF+attention[34]是將意圖識別和語義槽填充聯合模型的架構。領域識別、意圖識別以及語義槽填充的聯合模型有具有長短期記憶網絡門的雙向循環神經網絡(bi-directional RNN- LSTM)[35]、遞歸神經網絡(recursive neural network,RecNN)[36] 等。bi-directional RNN-LSTM模型可以捕捉長遠的上下文信息,但是該模型結構復雜、訓練過程時間較長。Google在自然語言理解工作中也作出了很大的貢獻。2017年,Google提出Transformer模型[37],該模型完全基于注意力機制,避免了重復和卷積。次年提出了多層雙向Transformer的編碼器(bidirectional encoder representation from transformers,BERT)[38]模型。與之前的語言表示模型不同,該模型是通過在所有層次上對上下文進行聯合條件作用。相比于之前的CNN、RNN模型,Transformer模型及其變體語義特征提取能力和任務綜合能力更強。在之后的工作中,常在BERT模型的基礎上進行聯合建模[39]。Zhu等人[40]提出將對抗算法融入基于BERT模型的自然語言理解任務中,對抗模型通過在單詞嵌入中添加對抗擾動以及將輸入樣本周圍不同區域內的對抗風險最小化,從而提高嵌入空間的不變性。Zhang等人[41]提出了一種基于BERT架構的用于意圖識別和語義槽填充任務的聯合學習方法。在該模型中,為了更好地表達語義,引入了預先訓練的語言模型,同時引入了意圖增強機制,充分利用意圖與槽之間的語義相關性。為了更好地感知語義信息,Zhang等人[42]提出了引入語義感知的BERT模型(semantics-aware BERT,SemBERT),該模型以微調方式保持了BERT的易用性,無須進行大量修改。表2為自然語言理解任務中部分模型的比較。
3.1.2 對話管理模塊
對話管理模塊是人機對話系統的核心模塊,它根據當前自然語言理解的輸出及上下文信息來決定系統下一步的動作走向。對話管理模塊通常被分為對話狀態追蹤和對話策略兩部分。
1)對話狀態追蹤
對話狀態追蹤常用的模型有人工規則、生成式和判別式三種模型。
人工規則模型一般以1-best的結果作為輸入,輸出的狀態是確定的。因為人工規則模型不依賴對話數據,所以在沒有對話數據的情況下比較適用。在前期的交互中,由于用戶輸入沒有明確的限制與規范,所以存在口語化、語句具有歧義性等特殊情況,此時自然語言理解可能會出現識別錯誤,這使對話系統不能準確理解用戶意圖從而不能正確地完成任務。2014年,Sun等人[43]應用了可以計算整個自然語言理解的N-best列表分數的方法,用DST模塊通過多輪對話不斷更新交互內容,從而修正自然語言理解模塊識別的錯誤。因為人工規則模型通常需要大量的人工和專家知識并且無法進行自學習,所以在較復雜的場景適用性不強,面對自然語言理解模塊出現的識別錯誤也不能進行糾正[44,45],故生成式和判別式模型被應用于對話狀態追蹤任務中。
生成式模型主要是對數據集中存在的模式進行挖掘,通過構建對話狀態之間的轉移關系圖,建模各變量之間的依賴關系和概率分布計算公式,學習出對話狀態的條件概率分布。常見的方法有部分可觀察馬爾可夫模型(partially observable Markov decision process,POMDP)[46],但是該模型完整的建模和優化計算代價較大[47]。
與生成式模型不同,判別式模型是先對結果提取有用特征,然后再進行建模。通過對當前輪次對話提取的特征進行建模表示,在一定程度上可以反映出對話的狀態。該模型可以結合深度學習,例如深度神經網絡[48],將對話歷史信息抽象成一個固定維度的特征向量用于訓練分類器,代表模型有最大熵模型(maximum entropy model,MEM)[49]。之后CRF[50,51]和RNN[52~54]模型在一定程度上彌補了生成式模型的缺點,但是大量的標注工作也使模型的應用變得費時費力。2017年,文獻[55]提出了神經信念跟蹤模型(neural belief tracker,NBT),該模型由語義解碼、上下文建模和二元決策器三個部分組成,可以確定用戶是否明確表達了與輸入槽值對匹配的意圖。該模型無須大量帶注釋的訓練數據和手工標注的詞匯,但是存在語言限制的劣勢。在跨語言對話狀態追蹤任務中,Shi等人[56]提出將多通道卷積神經網絡應用于跨語言的對話狀態跟蹤任務中。實現對話狀態追蹤任務部分模型優缺點的比較如表3所示。
2)對話策略
在對話系統中,對話策略與用戶的交互體驗感息息相關。對話策略的學習通常基于監督學習和強化學習,通過訓練更新模型以獲得提升的過程[57]。監督學習需要人工設計對話策略規則。由專家人工設計的對話策略規則在固定域表現較好,但是設計過程困難并且難以應用到其他領域,因此將強化學習逐漸應用于對話策略工作中。文獻[58]提出了融合POMDP、K近鄰以及蒙特卡羅控制算法(Monte-Carlo control algorithm)來進行對話策略優化,該方法減少了過擬合,提高了用戶輸入語義噪聲的魯棒性,但是在處理規模方面受限。隨后,Daubigney等人[59]提出了POMDP結合離線學習的模型,該模型通過樣本有效、在線和非策略強化學習算法學習最優策略,能夠處理較大規模的系統。2014年,Gai c ' 等人[60]提出了將高斯過程POMDP結合的方法進行對話策略優化工作。在建模中使用高斯過程,這使對話策略不再過度依賴大量的人類知識。
深度強化學習方法加快了強化學習模型的收斂速度。Mnih等人[61]提出了深度Q網絡(deep Q-network,DQN),該網絡是將CNN與傳統Q學習(Q-learning)相結合的算法。實驗證明,該模型在有人類專家的七場對比實驗中,有六場的表現都優于之前的方法,其中三場超越了人類專家的表現,但是該模型依賴跨域核函數,在獎勵設置時較為困難。
除去上述提到的方法外,在線學習的方法也被應用于對話策略工作中。這類方法包括直接在對話中推斷獎勵的在線方法[62]、對話策略與獎勵模型聯合訓練的在線方法[63]等。Shah等人[64]發現將反饋直接應用于塑造對話策略可以使對話管理模塊更快地學習,于是提出了一種將回合級反饋與任務級獎勵相結合的方法。在理想反饋的條件下,使用交互式反饋來塑造對話策略具有一定的優勢。對話策略任務部分模型優缺點的比較如表4所示。
3.1.3 自然語言生成模塊
自然語言生成所完成的工作是用戶輸入經過自然語言理解、對話狀態追蹤以及對話策略處理后到反饋給用戶的最后一步。自然語言生成的方法可以劃分為基于規則模板和基于深度學習。
基于模板的自然語言生成[65]需要人工設定對話場景,所以要專門編寫模板和規則,然后再映射到自然語言,最終結果是一個只需要部分填充的模板。這樣的方法在固定領域的回答準確性較高,但是在編寫模板和規則的過程中存在費時費力且不容易擴展到其他領域的缺陷。
為了解決對特定的庫或模板過于依賴的問題,基于深度學習的方法被應用于該項工作中。該方法是從大量語料中學習得到語言能力來進行對話。編碼器—解碼器(encoder-deco-der)[66]框架是這類方法的基礎框架,通過對模型的部分功能進行改進以此得到效果的提升[67~69]。2015年,Vinyals等人[66]使用序列到序列(sequence-to-sequence,seq2seq)的模型來生成簡單的對話。與其他模型相比,seq2seq模型需要較少的手工規則,但是該模型存在上下文缺乏一致性的問題。多層循環編解碼模型(hierarchical recurrent encoder-decoder,HRED)是對seq2seq的一種改進。王孟宇等人[70]提出了以HRED為基礎框架,與注意力機制和跨步融合機制結合的方案。在此方案下,第一類測試數據雙語評估替換(bilingual evaluation understudy,BLEU)值達到33.4,第二類測試數據BLEU值達到29.1,取得了較大的性能提升。Kumar等人[71]提出動態神經網絡(dynamic memory network,DMN),該網絡可以處理輸入序列和先前的輸入與結果,并進行推理得到結果。針對前后對話內容缺乏邏輯關聯、不具備個性化以及生成無意義的通用回復內容等問題,王豪等人[72]利用基于Transformer模型的編解碼結構分別構建了通用對話模型和個性化對話模型,困惑度減少到22.45,評價指標相比于編碼器—解碼器模型得到了一定的提升。此外,還有基于遷移學習的對話生成研究。Wen等人[73]提出一種基于RNN的多域語言生成純數據驅動訓練方法,該方法滿足跨語言使用并且在語料較少的情況下表現依舊良好。Shi等人[74]討論了遞歸神經網絡語言模型(recurrent neural network language models,RNNLM)的自適應問題。RNNLM可以利用任意長距離的單詞依賴信息,這使RNNLM能夠在相對較少的訓練數據下學習,也意味著該模型非常適合于自適應。自然語言生成任務部分模型優缺點的比較如表5所示。
3.2 基于端到端的對話系統的主要模型
隨著神經網絡技術的不斷發展,端到端的方法被應用于多個領域且獲得一定的成就。下文將介紹基于端到端的對話系統。
早期的基于端到端對話系統的研究中,用戶非確定性的請求無法在外部知識庫中被查詢解決,而且用戶的反饋也無法有效利用于系統的優化工作中[75]。2014年,Cho等人[76]提到了seq2seq方法,該方法通常使用RNN、LSTM等深度神經網絡模型作為基礎結構,實現輸入序列映射為輸出序列的任務。Wen等人[77]提出了一個基于神經網絡的對話系統模型,該模型是第一個可以在面向任務的應用程序中進行有意義對話的端到端基于神經網絡(neural network,NN)的模型。之后,文獻[78]提出了一個完整的端到端模型[78],該模型基于一個現有的seq2seq架構建模對話上下文與對話生成,增加了注意力 (attention-based)的鍵值對機制來對知識庫條目進行檢索,基本解決了模型如何與知識庫更加平滑對接的問題。2018年,Madotto 等人[79]提出了一個新穎而簡單的端到端模型,即內存到序列(memory to sequence,mem2seq)模型,來解決合并知識庫的問題,該模型將多跳注意與指針網絡相結合,在三種不同任務的對話數據集上進行對比實驗,mem2seq可以實現更快的訓練,達到更優的性能,而且該模型較為通用,不存在特定的任務設計,所以具有良好的拓展性。基于seq2seq的模型僅根據對話歷史生成響應,系統反映遲鈍,無法根據個性化信息調整對話策略,并且在構建模板過程中費時費力。為了解決這一問題,Zhang等人[80]提出了一種基于記憶網絡(memory networks-based)端到端的個性化任務對話系統響應生成框架。隨后,Zhang等人[81]又對該模型進行改進,結合基于生成和基于檢索的文本生成方法,改進后的模型可以提供更好的響應,也可以更快地捕獲用戶的需求。
使用基于seq2seq模型往往需要大量的訓練數據,而且不允許對話系統繼續探索效果可能優于現方法的策略,這使得基于強化學習的方法應用于構建端到端的對話系統框架中[10]。2016年,Zhao等人[82]提出了一種基于深度循環Q網絡(deep recurrent Q-networks,DRQN)的變體,聯合了對話系統中的自然語言理解、對話狀態追蹤以及對話策略模塊,通過向用戶和數據庫學習實現端到端的對話系統。但是,由于需要大量的樣本并且需要和外部知識庫交互,所以該方法的拓展性較差。Li等人[9]提出神經對話系統可以直接與結構化數據庫進行交互,幫助用戶獲取信息,完成特定任務。該方法對噪聲具有較好的魯棒性。
混合多種學習方式也常用于端到端的對話系統任務中。 Williams等人[83]提出了一個面向任務的對話系統的端到端學習模型,該模型融合監督學習和深度學習,其主要組成部分是一個LSTM,LSTM可以使用強化學習,其中系統通過直接與最終用戶進行交互來進行改進;LSTM也可以使用監督學習進行優化,最終的實驗表明,用監督學習訓練的策略啟動強化學習,使得強化學習的速度大大加快。Lei等人[84]提出了一個可擴展的框架Sequicity,該框架能夠在單個seq2seq模型中得到整體優化,并且可以使用監督學習或強化學習進行優化。該模型可以處理詞表之外的信息,在任務完成和語言質量方面優于基線模型。
目前,大部分方法都針對純文本信息,但如今,圖像、音頻和視頻等多種模態信息正逐漸增多,現有方法的局限性極大地阻礙了對話系統的發展。知識庫(knowledge bases,KB)是建立實用對話系統的必要條件。Yang等人[85]提出一種新的模型來解決這一局限性,該模型將外部多模態知識庫推理與預先訓練的語言模型集成在一起,并通過一種新的多粒度融合機制進一步增強該模型捕獲對話歷史中的多粒度語義。知識庫的模態問題也是今后對話系統可研究的方向之一。端到端的部分模型優缺點的比較如表6所示。
4 任務型對話系統評估方法
隨著對話系統的不斷發展,對其進行評價的方法和指標也逐漸成為 重要研究內容之一。在早期對系統評價的任務中,Walker等人[86]提出了PARADISE系統,該系統通過線性回歸的方法得到 一個權重指標來表示用戶滿意度,該指標由對話系統的表現決定,比如機器交互任務的成功率,之后通過強化學習將權重指標轉換成一個作為獎勵的損失函數。然而,在實際的交互過程中,任務是否完成以及完成的情況都難以判斷,且PARADISE本身具有一定的局限性,所以該系統對對話的評估效果并不好[87]。在之后的相關研究中,基于標注語料的數據驅動型對話評價模型成為熱點研究模型[88,89],但是這樣的方法在標注數據時費時費力,所以用機器模擬人類來標注數據的方法被提出,該方法在投入人力較少的情境下可以獲得更多的數據。常用的評估方法大致可以分為用戶模擬和人工評估兩種。
4.1 用戶模擬
對話系統最終的評估目的是得到用戶對系統滿意程度,用戶模擬是一種評估對話系統簡單高效的方法,即通過計算機來模擬人類用戶的交互行為。該評價方法在不同情景內可以在較大范圍進行評價[90],曾被用于評價POMDP的對話策略任務中。文獻[91]對三個不同的對話管理模塊以用戶模擬方法為評估方法進行對比實驗,實驗結果如圖4所示。傳統手工對話管理器(conventional handcrafted deterministic dialog manager,HDC)表示系統將人工選取出最像模擬器生成的結果作為輸入,對話狀態的貝葉斯更新(Bayesian update of dialog state,BUDS)表示非人工選擇的系統輸入,策略優化訓練的對話狀態的貝葉斯更新(Bayesian update of dialog state-trained,BUDS-TRA)是經過訓練的策略優化。 實驗表明,在低錯誤率范圍內對話系統的表現相似,而在高錯誤率范圍內,BUDS對噪聲的抵抗性要優于HDC。通過對比實驗得出,通過強化學習的策略優化是有效的,從而可以得出用戶模擬方法適用于對話系統評估工作的結論。但是,真實用戶對于交互的反映與機器模擬的反映還是存在一定差別的,差別的大小程度取決于模擬器的好壞。
4.2 人工評估
雇傭測試人員評估也是對話系統常用的評估方法之一,這樣的方法可以通過真實用戶的反饋得到更多真實的數據。人工評估可以適用于研究資源較多的情況下,通過設定的問題與系統進行交互,再對交互結果進行評分。Thomson等人[92]在基于POMDP的對話系統中使用了人工評估的方法。在此次實驗中,提出讓36名母語為英語的人對這些系統進行評估,這些人之前都沒有參與相關實驗。此次測評采用了48種不同的任務場景,每個系統記錄108組對話,最后的測評結果可以反映出系統的改進效果。
然而,人工評估方法存在的最大問題就是需要雇傭大量的測評人員,在支付費用時會產生大筆開銷,在人員與資金方面都有較高的要求。同時,測評者的個性化也是人工評估方法所面臨的問題。測評者擁有自己的判斷和評測標準,所以他們并不能代替所有的用戶,人工評價的動機和目的也會影響最終的評估結果,不能完整地表現出對話效果特點[93]。因此,有關對話系統的有效評估方法還需要繼續探索。
5 相關應用
對話系統的核心是解決人與計算機之間的交流問題,通過多輪對話幫助用戶完成任務型的指令[94]。目前的任務型對話系統被廣泛應用于各個領域,常見的有不同行業的智能客服[95]、生活娛樂場景下的私人助手[96]、教育行業的智能口語系統[97]、醫療行業中的藥物查詢[98]以及交通出行中的路線查詢規劃[99]等。
1)對話系統在人工客服中的應用
對話系統被應用于智能客服工作中時,可以幫助人工客服應對客戶高度重復的標準化咨詢。2010年,蔡逆水等人[100]提出智能化即時通信客服系統,該系統采用更具智能化的各種即時通信機器人自助服務、郵件自動回復等自動化服務手段。李美玲等人[101]針對金融證券領域客服,提出了基于多特征融合的句子相似度算法模型,提高了客服的智能性,并提升了模型的泛化能力。現如今,智能客服在多數電商網站中已經普及,比如阿里巴巴的阿里小蜜和京東的JIMI等,顧客可以向這一類智能客服咨詢商品信息、了解訂單信息以及進行服務反饋等,但智能客服的用戶使用體驗感亟待加強。針對現有的在線客服無法確定最佳解決方案導致客戶滿意度不高的情況,張瑞等人[102]引入情感計算技術以改進智能客服系統,以此使智能客服更加人性化,提升用戶滿意度。2020年,郭曉哲等人[103]在京東智能客服對話數據集上使用提出的新模型GRS(generative retrieval score),該模型同時訓練檢索模型和生成模型,通過得分機制來決定用哪句話回復用戶,該模型在給出的數據集上表現良好。現在,越來越多的智能客服出現在大眾視野,在一定程度上能幫助客服人員,隨著對其不斷改進,用戶體驗感也在逐步提升。
2)對話系統在生活娛樂場景下的應用
對話系統常被視為人類生活娛樂中的私人助理,可以幫助人類完成一定的工作,如常見的有蘋果智能語音助手Siri、微軟的Cortana、華為的小藝等[96]。這一類私人助手可以幫助人類完成諸如信息查詢、發送信息或郵件、撥打電話以及打開應用等任務。在娛樂生活中,對話系統往往可以實現訂票、預定酒店[104]、網上購物[105]等任務。旅行語音助手[104]從現有模型構建了一個功能齊全的語音搜索助手,可以實現搜索住宿、尋求旅行靈感、尋求幫助、修改現有預訂、推薦酒店等功能,為外出旅行的游客提供了便利。Li等人[105]推出了一款名為AliMe Assist的購物智能助手,該智能助手支持語音和文本輸入的多輪交互,以問答為基礎,提供輔助服務和聊天服務等。除網上購物之外,對話系統也被嵌入到機器人中,以實體形象幫助人類。Chen等人[106]介紹了名為KeJia的商場機器人導游,在商場中為顧客導航、提供用戶查詢的信息和與顧客進行娛樂互動。KeJia在商場的實地實驗中表現出一定的穩定性,新穎的導航及娛樂方式也給購物中心吸引來更多的消費者,使消費者有更好的購物體驗。
3)對話系統在教育領域中的應用
在教育領域中,對話系統也常有涉及。在2002年,文獻[107] 將對話系統應用于幾何知識學習中。此時的對話系統被視為導師,通過對話來存儲學習者的知識,再通過學生模型來診斷學習者的水平。BEETLE Ⅱ[108]是一個適應性較強的對話系統,該對話系統是為了講解電力和電子課程而開發的,它使用深層解析器、生成器以及領域推理器、診斷器,對學生的輸入進行詳細分析,并自動生成回復反饋給學生。在學生學習過程中,該系統還會詢問一些如“電壓是什么?”類的問題。在英語學習的教育過程中,對話系統也取得了一定的成就。Li[97]等人提出將對話系統作為英語口語學習的輔助工具,該對話系統給學生提供了一個可以模擬會話情景用于練習口語的環境。通過收集到的28名學生在小型英語口語課堂實驗反饋結果得知,學生對該系統的評價高于對常規的口語學習方法,認為該對話系統提高了他們的學習動力。在學術文獻檢索工作中也出現了對話系統的身影[109]。常見的信息檢索引擎通常是基于與檢索詞的匹配,需要將想要檢索的內容轉換成為序列檢索詞。在此基礎上加入對話系統后,用戶通過語音輸入需要檢索的內容,最后將顯示的內容限制為檢索結果。
4)對話系統在醫療領域中的應用
對話系統與醫療領域密切結合且獲得一定的成就。Liu等人[98]提出了查詢藥物和相關副作用的對話系統。通過網絡上對藥物的評論進行分析發現藥物的副作用,用戶便可以查到相關藥物的總結信息。2013年,評估創傷后應激障礙患者適應性的對話系統[110]被提出,該系統可以通過自然對話與創傷后應激障礙者進行互動,以類似于自我評估測試的方式引導對話,并獲得足夠的信息對其狀況進行評估。該系統可以采取兩種模式:a)存儲與患者之前的會話信息以提供信任感;b)不存儲信息以保護患者的隱私。之后,Liu等人[111]將任務型對話系統應用于自動診斷工作中。對話系統被視為一位醫生,從病人的自我報告和病人與醫生的對話數據中提取出癥狀,經過多輪的交互收集患者自我報告之外的其他癥狀并給出建議,從會話中提取的附加癥狀可以提高疾病識別的準確率,這樣可以使系統作出更好的判斷。
5)對話系統在交通出行中的應用
在交通出行方面,文獻[99]提出了STIS系統。STIS是一個關于上海交通信息的漢語口語對話系統,旨在為司機提供上海兩個站點之間的最佳交通路線以及為旅客提供換乘信息。文獻[112]描述了列車信息檢索的漢語口語對話系統,提出了一種將用戶計劃推理與主題樹模型相結合的對話管理器,初步主觀評價表明,用戶表示對該系統感興趣并愿意與之交談。
現代計算機技術日新月異,對話系統在逐漸改變著人們生活方式。智能家居的出現改變了人類傳統對家居控制的方式,此時的對話系統如同人類的私人管家,使用者通過直接或間接的交互方式與相關家居進行對話以此來控制家居,從而實現人類對家居部分功能的請求。對話系統的出現也使人類在業務辦理工作方面變得更加便捷。
在現階段對話系統的發展中,用戶對于對話系統的要求在不斷提高。對話系統除了要完美地完成用戶提出的任務這項本職工作之外,也要和用戶建立一定的熟悉關系,即對話系統在幫助人類完成任務的同時也要擁有自己固定的身份并始終保持前后一致。任務型對話系統的任務方向在未來發展中并不單一,任務型對話系統可以與非任務型對話系統以及問答系統在一定程度上結合。通過這類對話系統,機器可以實現特定的指令,可以通過問答反饋答案,也可以與人類進行閑聊。該對話系統的典型是在市面上常見的智能音箱,比如在國內市場深受用戶喜愛的天貓精靈、百度小度和小愛音箱,國外市場的亞馬遜echo show和Google home等。2018年百度發行了小度智能音箱,該音箱可以完成用戶日常生活中常見的請求,比如查詢天氣、設置鬧鐘、語音控制家電等,也可以向其詢問在百度詞條中可以查詢到的問題。除此之外,用戶可以與身份為“小度”的機器人進行互動聊天來解悶。這樣的對話系統集多種任務于一身,更加貼合用戶的需求。
在未來對話系統的發展中,如何使對話系統的表現更加智能、與人類的交互過程更加個性化、交互方式更加靈活、完成任務種類更加多樣是研究的重點內容。對話系統的應用場景靈活,將對話系統應用于特定的場合使工作事半功倍,如何將對話系統融入現實生活,充分合理地使用也是一個值得思考的問題。在如今網絡數據劇增的情境下,深度學習等先進技術會被應用于對話系統的相關研究中。在未來的研究中,對實現對話系統的各個任務模型繼續進行深入探索,結合深度學習等技術改進現有模型并以此來提升用戶使用滿意度也是研究的一個重點方向。與此同時,隨著對話系統在日常生活中的應用與普及,在對話系統的相關研究中所付出的代價也應盡量降低。
6 問題與挑戰
對話系統旨在用最少的輪數搞清用戶的復雜意圖并提供給用戶個性化服務,有關對話系統的研究也受到了廣泛的關注。雖然目前的研究已經獲得了一定的研究成果,但是距離實際應用還存在一定的差距,在一些任務上仍需要改進,在將來的研究中面臨著以下問題:
a)語言靈活度高,輸入沒有規范。在對話系統與用戶交互的過程中,用戶輸入的自然語言并沒有明確的規范標準,這導致在自然語言理解工作階段,對話系統常要面臨表達多樣性、輸入具有歧義性、輸入錯別字以及用戶指代省略習慣等問題。如何更加有效地使對話系統結合上下文歷史信息,高效地理解用戶描述并明確其意圖成為對話系統需要解決的問題之一。在目前的研究中,深度學習方法常被應用于該問題的解決中,這使對話系統的性能得到了一定的提升,但是仍然需要進一步地理解用戶可能的潛在意圖,因此要在自然語言理解工作上進行進一步研究。
b)系統缺乏個性化,前后身份不一致。不同的用戶具有不同的特點,在機器與用戶進行交互的過程中,用戶往往會體現出一定的個性化。為了營造更加生動的對話體驗,機器也需要具備個性化的特點。在人機對話的過程中,機器需要擁有固定的身份,即在與用戶對話的過程中,要保持身份的前后一致性,這樣的對話過程符合人類交互的特點。保持對話中身份的前后一致性有利于提升用戶使用感,所以,在后續研究中要優化相應的技術和模型,使機器更加擬人化。
c)回復缺乏多樣性,影響用戶體驗感。當計算機面對用戶輸入的請求不能被解決或用戶所提任務超出限定領域的情況時,對話系統的輸出常會出現一些萬能回復。這樣的回復不會產生錯誤,但對于用戶來說也沒有任何的幫助,并不符合人類交互的靈活性,因此,用戶的交互體驗感也會受到影響。目前在自然語言生成的任務研究中多為基于模板的方法、序列到序列模型、動態神經網絡和基于遷移學習的方法,其中一些方法也取得了不錯的效果。在之后的研究中需要進一步改進方法,使生成內容更加多樣化且符合特定的個性化特征。
d)評估方法缺乏,評估標準不統一。多輪任務型對話的評估方法并不多,并且沒有固定的評估標準。在機器評估過程中難以界定對話完成情況,在人工評估的過程中又費時費力,且具有一定的個人主觀性。由于缺乏評估標準,使用不同模型的對話系統的優劣難以通過比較得出結論,這樣的情況并不利于模型的發展。所以建立統一的評估標準和評估方法以及如何做到客觀準確的評估也是對話系統相關研究工作中的重要研究方向。
e)訓練數據集較少,中文語料不足。基于深度學習的方法往往需要大量的語料訓練模型完成任務。對于目前對話系統的研究而言,可供訓練的數據集較少,部分成熟任務的數據集也存在數據量少的問題,尤其是中文語料更為匱乏。構建數據集以及擴展數據集語料對于對話系統的發展有著一定的促進作用,因此,針對任務型對話系統構建中文語料庫也是今后的重要工作之一。
f)用戶情感關注度低,用戶滿意度不高。用戶體驗是評估對話系統的重要指標。對話系統旨在幫助人類完成生活工作中的一些任務,充當人類助手的角色。然而,一些對話系統常會出現無意義回復、答非所問、自顧自言等情況,不能迅速理解并完成所布置的任務,這導致用戶對其產生厭惡,更加青睞于人工解決問題。因此,如何快速理解用戶需求,生成高效、恰當的回復是對話系統目前所要面臨的問題之一。如何設計并實現對話系統,使其可以關注用戶情感是對話系統下一步的研究重點之一。
7 結束語
通過對現有工作的總結可以看到,目前多輪任務型人機對話系統已經取得了一定的成就,對話系統也被應用于多個領域并具有一定的商業價值。對于對話系統的研究通常包括對基于模塊框架的研究和基于端到端框架的研究。對話系統的基于模塊框架是將整個對話系統分割成幾個小模塊完成不同的任務。在這些工作中,通常在傳統方法的基礎上融合了強化學習和深度學習等技術對完成效果進行改善。基于端到端的對話系統不會嚴格地將各個模塊分割開,而是用歷史對話直接生成回復。通過本文模型的對比可以看出,結合相關的熱點技術可以解決部分傳統方法的遺留問題,更好地處理相應的任務。最后介紹了目前任務型對話系統的評估方法、現階段的相關應用以及面臨的問題與挑戰。
人機交互是人工智能的核心研究方向之一。對話系統各項技術的研究工作正在不斷推進,有著廣闊的應用前景和使用價值。目前在很多實際問題中用到了對話系統,且在一些特定任務系統中表現良好,比如智能客服、醫學領域交互式自我診斷、教育領域的交互式學習、車載智能導航等。但是目前的對話系統仍處于發展階段,在很多情況下會使用戶體驗感差,還需要不斷的研究探索。在未來的研究中,對話系統旨在用最精簡的對話理解用戶潛在意圖,滿足用戶的復雜請求并使其感受到更加良好的交互體驗。通過改進訓練模型使對話系統加強其自主學習能力,將深度學習技術與系統中的模型相結合,實現更加高效且具有良好用戶體驗的人機交互,讓計算機真正成為人類的智能助手。
參考文獻:
[1] "López-Cózar R, Callejas Z, Griol D, "et al . Review of spoken dialogue systems[J]. Loquens: Spanish Journal of Speech Sciences ,2014, 1 (2):e012.
[2] Turing A M. Computing machinery and intelligence[J]. Mind ,1950, 59 (236):433-460.
[3] Weizenbaum J. ELIZA:a computer program for the study of natural language communication between man and machines[J]. Communications of the ACM ,1983, 26 (1):23-28.
[4] 趙陽洋,王振宇,王佩,等.任務型對話系統研究綜述[J].計算機學報,2020, 43 (10):1862-1896.(Zhao Yangyang, Wang Zhenyu, Wang Pei, "et al . A review of task-based dialogue system[J]. Chinese Journal of Computers ,2020, 43 (10):1862-1896.)
[5] "俞凱,陳露,陳博,等.任務型人機對話系統中的認知技術——概念、進展及其未來[J].計算機學報,2015, 38 (12):2333-2348.(Yu Kai, Chen Lu, Chen Bo, "et al . Cognitive technology in task-based human-computer interaction system: concept, progress and future[J]. Chinese Journal of Computers ,2015, 38 (12):2333-2348.)
[6] Chen Hongshen, Liu Xiaoru, Yin Dawei, "et al . A survey on dialogue systems: recent advances and new frontiers[J]. ACM SIGKDD Explorations Newsletter ,2017, 19 (2):25-35.
[7] Young S J. Probabilistic methods in spoken-dialogue systems[J]. Philosophical Trans of the Royal Society of London,Series A: Mathematical, Physical and Engineering Sciences ,2000, 358 (1769):1389-1402.
[8] Salazar V L, Cabeza E M E, Pena J L C, "et al . A case based reaso-ning model for multilingual language generation in dialogues[J]. Expert Systems with Applications, 2012, 39 (8):7330-7337.
[9] Li Xiujun, Chen Y N, Li Lihong, "et al . End-to-end task-completion neural dialogue systems[C]//Proc of the 8th International Joint Conference on Natural Language Processing.2017:733-743.
[10] 黃毅,馮俊蘭,胡珉,等.智能對話系統架構及算法[J].北京郵電大學學報,2019, 42 (6):14-23.(Huang Yi, Feng Junlan, Hu Min, "et al . Architecture and algorithm of intelligent dialogue system[J]. Journal of Beijing University of Posts and Telecommunications ,2019, 42 (6):14-23.)
[11] Sebastiani F. Machine learning in automated text categorization[J]. ACM Computing Surveys ,2001, 34 (1):1-47.
[12] Cover T M, Hart P E. Nearest neighbor pattern classification[J]. IEEE Trans on Information Theory ,1967, 13 (1):21-27.
[13] McCallum A, Nigam K. A comparison of event models for naive Bayes text classification[C]//Proc of AAAI-98 Workshop on Lear-ning for Text Categorization.Palo Alto,CA:AAAI Press,1998:41-48.
[14] Joachims T. Text categorization with support vector machines: lear-ning with many relevant features[C]//Proc of the 10th European Conference on Machine Learning.Berlin:Springer,1998:137-142.
[15] "Joachims T. Transductive inference for text classification using support vector machines[C]//Proc of the 16th International Conference on Machine Learning.San Francisco:Morgan Kaufmann,1999:200-209.
[16] Tong S, Koller D. Support vector machine active learning with applications to text classification[J]. Journal of Machine Learning Research ,2001, 2 (11):45-66.
[17] "Yang Yiming, Liu Xin. A re-examination of text categorization methods [C]//Proc of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,1999:42-49.
[18] Kim Y. Convolutional neural networks for sentence classification[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2014:1746-751.
[19] Ravuri S, Stolcke A. Recurrent neural network and LSTM models for lexical utterance classification[C]//Proc of the 16th Annual Confe-rence of the International Speech Communication Association.Red Hook,NY:Curran Associates Inc.,2015:135-139.
[20] Lai Siwei, Xu Liheng, Liu Kang, "et al . Recurrent convolutional neural networks for text classification[C]//Proc of the 29th AAAI Conference on Artificial Intelligence.2015:2267-2273.
[21] Pappas N, Popescu-Belis A. Multilingual hierarchical attention networks for document classification[C]//Proc of the 8th International Joint Conference on Natural Language Processing.2017:1015-1025.
[22] Zhang Yue, Liu Qi, Song Linfeng. Sentence-state LSTM for text re-presentation[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018:317-327.
[23] Zhang Jiaru, Li Yingxiang, Tian Juan, "et al . LSTM-CNN hybrid model for text classification[C]//Proc of the 3rd Advanced Information Technology, Electronic and Automation Control Conference.Piscataway,NJ:IEEE Press,2018:1675-1680.
[24] LeCun Y, Bottou L. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE ,1998, 86 (11):2278-2324.
[25] Zhang Ye, Wallace B. A sensitivity analysis of (and practitioners’ guide to) convolutional neural networks for sentence classification[C]//Proc of the 8th International Joint Conference on Natural Language Processing.2017:253-263.
[26] Kolen J F, Kremer S C. Gradient flow in recurrent nets: the difficulty of learning longterm dependencies[M]//A Field Guide to Dynamical Recurrent Networks.[S.l.]:Wiley-IEEE Press,2001:237-244.
[27] Rabiner L R. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Proceedings of the IEEE ,1989, 77 (2):257-286.
[28] Peng Fuchun, McCallum A. Information extraction from research papers using conditional random fields[J]. Information Processing amp; Management ,2006, 42 (4):963-979.
[29] Lample G, Ballesteros M, Subramanian S, "et al . Neural architectures "for named entity recognition[EB/OL].(2016-04-07).https://arxiv. org/abs/1603.01360.
[30] Gers F A, Schmidhuber J, Cummins F. Learning to forget: continual prediction with LSTM[J]. Neural Computation, 2000, 12 (10):2451-2471.
[31] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation ,1997, 9 (8):1735-1780.
[32] Huang Zhiheng, Xu Wei, Yu Kai. Bidirectional LSTM-CRF models for sequence tagging[EB/OL].(2015-08-09).https://arxiv.org/abs/1508.01991.
[33] Xu Puyang, Sarikaya R. Convolutional neural network based triangular CRF for joint intent detection and slot filling[C]//Proc of IEEE Workshop on Automatic Speech Recognition and Understanding.Piscataway,NJ:IEEE Press,2013:78-83.
[34] Yu Shuai, Shen Lei, Zhu Pengcheng, "et al . ACJIS:a novel attentive cross approach for joint intent detection and slot filling[C]//Proc of International Joint Conference on Neural Networks.Piscataway,NJ:IEEE Press,2018:1-7.
[35] Hakkani-Tür D, Tur G, Celikyilmaz A, "et al . Multi-domain joint semantic frame parsing using bi-directional RNN-LSTM[C]//Proc of the 17th Annual Meeting of the International Speech Communication Association.2016:715-719.
[36] Guo D, Tur G, Yih W T, "et al . Joint semantic utterance classification and slot filling with recursive neural networks[C]//Proc of IEEE Spoken Language Technology Workshop.Piscataway,NJ:IEEE Press,2014:554-559.
[37] Vaswani A, Shazeer N, Parmar N, "et al . Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[38] "Devlin J, Chang Mingwei, Lee K, "et al . BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proc of Confe-rence of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2019:4171-4186.
[39] Chen Qian, Zhuo Zhu, Wang Wen. BERT for joint intent classification and slot filling[EB/OL].(2019-02-28).https://arxiv.org/abs/1902.10909.
[40] "Zhu Chen, Cheng Yu, Gan Zhe, "et al . FreeLB: enhanced adversarial training "for natural language understanding[EB/OL].(2020-04-23).https://arxiv.org/abs/1909.11764.
[41] Zhang Zhichang, Zhang Zhewen, Chen Haoyuan, "et al . A joint learning framework with BERT for spoken language understanding[J]. IEEE Access ,2019, 7 :168849-168858.
[42] Zhang Zhuosheng, Wu Yuwei, Zhao Hai, "et al . Semantics-aware BERT for language understanding[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.2020:9628-9635.
[43] Sun Kai, Chen Lu, Zhu Su, "et al . A generalized rule based tracker for dialogue state tracking[C]//Proc of IEEE Spoken Language Technology Workshop.Piscataway,NJ:IEEE Press,2014:330-335.
[44] Williams J. Web-style ranking and SLU combination for dialog state tracking[C]//Proc of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue.2014:282-291.
[45] Devault D, Stone M. Managing ambiguities across utterances in dialogue[C]//Proc of the 11th Workshop on the Semantics and Pragma-tics of Dialogue.2007:49-56.
[46] Williams J D, Young S. Partially observable Markov decision processes for spoken dialog systems[J]. Computer Speech amp; Language ,2007, 21 (2):393-422.
[47] Young S, Gai M, Keizer S, "et al . The hidden information state mo- del: a practical framework for POMDP-based spoken dialogue management[J]. Computer Speech amp; Language ,2010, 24 (2):150-174.
[48] Henderson M, Thomson B, Young S. Deep neural network approach for the dialog state tracking challenge[C]//Proc of the 14th Annual Meeting of the Special Interest Group on Discourse and Dialogue.2013:467-471.
[49] Williams J. Multi-domain learning and generalization in dialog state tracking[C]//Proc of the 14th Annual Meeting of the Special Interest Group on Discourse and Dialogue.2013:433-441.
[50] Ren Hang, Xu Weiqun, Yan Yonghong, "et al . Dialog state tracking using conditional random fields[C]//Proc of the 14th Annual Mee-ting of the Special Interest Group on Discourse and Dialogue.2013:457-461.
[51] Lee S J. Structured discriminative model for dialog state tracking[C]//Proc of the 14th Annual Meeting of the Special Interest Group on Discourse and Dialogue.2013:442-451.
[52] Henderson M, Thomson B, Young S. Word-based dialog state trac-king with recurrent neural networks[C]//Proc of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue.2014:292-299.
[53] Henderson M, Thomson B, Young S. Robust dialog state tracking using delexicalised recurrent neural networks and unsupervised adaptation[C]//Proc of IEEE Spoken Language Technology Workshop.Piscataway,NJ:IEEE Press,2014:360-365.
[54] Mrki N, Séaghdha D O, Thomson B, "et al . Multi-domain dialog state tracking using recurrent neural networks[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics.2015:794-799.
[55] "Mrki N, Séaghdha D , Wen T H, "et al . Neural belief tracker:data-driven dialogue state tracking[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.2017:1777-1788.
[56] Shi Hongjie, Ushio T, Endo M, "et al . A multichannel convolutional neural network for cross-language dialog state tracking[C]//Proc of IEEE Spoken Language Technology Workshop.Piscataway,NJ:IEEE Press,2016:559-564.
[57] Cuayáhuitl H, Keizer S, Lemon O. Strategic dialogue management via deep reinforcement learning[EB/OL].(2015-11-25).https://arxiv.org/abs/1511.08099.
[58] Lefévre F, Gai M, Jur c ˇ í c ˇ ek F, "et al . K-nearest neighbor Monte-Carlo control algorithm for POMDP-based dialogue systems[C]//Proc of the 10th Annual Meeting of the Special Interest Group on Discourse and Dialogue.2009:272-275.
[59] Daubigney L, Geist M, Pietquin O. Off-policy learning in large-scale POMDP-based dialogue systems[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway,NJ:IEEE Press,2012:4989-4992.
[60] Gai c "' "M, Young S. Gaussian processes for pomdp-based dialogue manager optimization[J]. IEEE/ACM Trans on Audio, Speech, and Language Processing ,2014, 22 (1):28-40.
[61] Mnih V, Kavukcuoglu K, Silver D, "et al . Playing Atari with deep reinforcement learning[EB/OL].(2013-12-19).https://arxiv.org/abs/1312.5602.
[62] Su P H, Vandyke D, Gasic M, "et al . Learning from real users: rating dialogue success with neural networks for reinforcement learning in spoken dialogue systems[EB/OL].(2015-08-13).https://arxiv.org/abs/1508.03386.
[63] Su P H, Gasic M, Mrksic N, "et al . On-line active reward learning for policy optimisation in spoken dialogue systems[EB/OL].(2016-06-02).https://arxiv.org/abs/1605.07669.
[64] Shah P, Hakkani-Tür D Z, Heck L. Interactive reinforcement lear-ning for task-oriented dialogue management[EB/OL].(2016).https://research.google/pubs/pub45734/.
[65] Reiter E, Dale R. Building applied natural language generation systems[J]. Natural Language Engineering ,1997, 3 (1):57-87.
[66] Vinyals O, Le Q. A neural conversational model [EB/OL].(2015-06-19).https://arxiv.org/abs/1506.05869.
[67] Serban I V, Sordoni A, Bengio Y, "et al . Building end-to-end dialogue systems using generative hierarchical neural network models[EB/OL].(2016-04-06).https://arxiv.org/abs/1507.04808.
[68] Li Jiwei, Galley M, Brockett C, "et al . A persona-based neural conversation model[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.2016:994-1003.
[69] Li Jiwei, Galley M, Brockett C, "et al . A diversity-promoting objective function for neural conversation models[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2016:110-119.
[70] 王孟宇,俞鼎耀,嚴睿,等.基于HRED模型的中文多輪對話任務方法研究[J].中文信息學報,2020, 34 (8):82-89.(Wang Mengyu, Yu Dingyao, Yan Rui, "et al . Chinese multi-turn dialogue tasks based on HRED model[J]. Chinese Journal of Information ,2020, 34 (8):82-89.)
[71] Kumar A, Irsoy O, Ondruska P, "et al . Ask me anything: dynamic memory networks for natural language processing[C]//Proc of the 33rd International Conference on Machine Learning.San Francisco:Morgan Kaufmann,2016:1378-1387.
[72] "王豪,郭斌,郝少陽,等.基于深度學習的個性化對話內容生成方法[J].圖學學報,2020, 41 (2):210-216.(Wang Hao, Guo Bin, Hao Shaoyang, "et al .Personalized dialogue content generation based on deep learning[J]. Journal of Graphics ,2020, 41 (2):210-216.)
[73] Wen T H, Gai c ' "M, Mrki c ' "N, "et al . Multi-domain neural network language generation for spoken dialogue systems[C]//Proc of Confe-rence of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2016:120-129.
[74] Shi Yangyang, Larson M, Jonker C M. Recurrent neural network language model adaptation with curriculum learning[J]. Computer Speech amp; Language ,2015, 33 (1):136-154.
[75] Dhingra B, Li Lihong, Li Xiujun, "et al . Towards end-to-end reinforcement learning of dialogue agents for information access[C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics.2017:484-495.
[76] Cho K, Merrinboer B V, Gulcehre C, "et al . Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2014:1724-1734.
[77] Wen T H, Vandyke D, Mrki c ' "N, "et al . A network-based end-to-end trainable task-oriented dialogue system[C]//Proc of the 15th Confe-rence of the European Chapter of the Association for Computational Linguistics.2017:438-449.
[78] Eric M, Krishnan L, Charette F, "et al . Key-value retrieval networks for task-oriented dialogue[C]//Proc of the 18th Annual Meeting of the Special Interest Group on Discourse and Dialogue.2017:37-49.
[79] Madotto A, Wu C S, Fung P. mem2seq: effectively incorporating knowledge bases into end-to-end task-oriented dialog systems[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018:1468-1478.
[80] Zhang Bowen, Xu Xiaofei, Li Xutao, "et al . Learning personalized end-to-end task-oriented dialogue generation[C]//Proc of CCF International Conference on Natural Language Processing and Chinese Computing.Berlin:Springer,2019:55-66.
[81] Zhang Bowen, Xu Xiaofei, Li Xutao, "et al . A memory network based end-to-end personalized task-oriented dialogue generation[J]. Know-ledge-Based Systems ,2020, 207 :106398.
[82] Zhao Tiancheng, Eskenazi M. Towards end-to-end learning for dialog state tracking and management using deep reinforcement learning[C]//Proc of the 17th Annual Meeting of the Special Interest Group on Discourse and Dialogue.Stroudsburg,PA:Association for Computational Linguistics,2016:1-10.
[83] Williams J D, Zweig G. End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning[EB/OL].(2016-06-03).https://arxiv.org/abs/1606.01269.
[84] Lei Wenqiang, Jin Xisen, Ren Zhaochun, "et al . Sequicity: simpli-fying task-oriented dialogue systems with single sequence-to-sequence architectures[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018:1437-1447.
[85] Yang Shiquan, Zhang Rui, Erfani S, "et al . UniMF: a unified framework to incorporate multimodal knowledge bases into end-to-end task-oriented dialogue systems[C]//Proc of the 30th International Joint Conference on Artificial Intelligence.2021:3978-3984.
[86] Walker M A, Litman D J, Kamm C A, "et al . PARADISE: a framework for evaluating spoken dialogue agents[C]//Proc of the 35th Annual Meeting of the Association for Computational Linguistics.1997:271-280.
[87] Larsen L B. Issues in the evaluation of spoken dialogue systems using objective and subjective measures[C]//Proc of IEEE Workshop on Automatic Speech Recognition and Understanding.Piscataway,NJ:IEEE Press,2003:209-214.
[88] Yang Zhaojun, Levow G A, Meng Helen. Predicting user satisfaction in spoken dialog system evaluation with collaborative filtering[J]. IEEE Journal of Selected Topics in Signal Processing ,2012, 6 (8):971-981.
[89] Ultes S, Kraus M, Schmitt A, "et al . Quality-adaptive spoken dialogue initiative selection and implications on reward modelling[C]//Proc of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue.2015:374-383.
[90] "Watanabe T, Araki M, Doshita S. Evaluating dialogue strategies under communication errors using computer-to-computer simulation[J]. IEICE Trans on Information and Systems ,1998, 81 (9):1025-1033.
[91] Young S, Gasic M, Thomson B, nbsp;et al . POMDP-based statistical spoken dialog systems: a review[J]. Proceedings of the IEEE ,2013, 101 (5):1160-1179.
[92] Thomson B, Young S. Bayesian update of dialogue state:a POMDP framework for spoken dialogue systems[J]. Computer Speech amp; Language ,2010, 24 (4):562-588.
[93] Gai c ' "M, Jur c ˇ í c ˇ ek F, Thomson B, "et al . On-line policy optimisation of spoken dialogue systems via live interaction with human subjects[C]//Proc of IEEE Workshop on Automatic Speech Recognition amp; Understanding.Piscataway,NJ:IEEE Press,2011:312-317.
[94] 林先輝.面向出行領域的任務型對話系統研究[D].哈爾濱:哈爾濱工業大學,2018.(Lin Xianhui. Research on task oriented dialogue system for travel domain[D].Harbin:Harbin Institute of Technology,2018.)
[95] 沈丹鳳,李繁.基于客服場景的智能對話系統的設計與實現[J].工業控制計算機,2019, 32 (7):99-100,102.(Shen Danfeng, Li Fan. Design and implementation of intelligent dialogue system in customer service[J]. Industrial Control Computer ,2019, 32 (7):99-100,102.)
[96] Hoy M B. Alexa, Siri, Cortana, and more: an introduction to voice assistants[J]. Medical Reference Services Quarterly ,2018, 37 (1):81-88.
[97] Li Kuochen, Chang Maiga, Wu K H. Developing a task-based dialogue system for English language learning[J]. Education Sciences ,2020, 10 (11):306.
[98] Liu Jingjing, Seneff S. A dialogue system for accessing drug reviews[C]//Proc of IEEE Workshop on Automatic Speech Recognition amp; Understanding.Piscataway,NJ:IEEE Press,2011:324-329.
[99] Mao Jiaju, Chen Qiulin, Gao Feng, "et al . STIS: a Chinese spoken dialogue system about shanghai transportation information[C]//Proc of IEEE International Conference on Intelligent Transportation Systems.Piscataway,NJ:IEEE Press,2003:65-68.
[100]蔡逆水,陳強,楊俊,等.即時通信客服系統智能化的研究和應用[J].電信科學,2010, 26 (7):127-131.(Cai Nishui, Chen Qiang, Yang Jun, "et al . Research and application of intelligent instant messaging customer service system[J]. Telecommunication Science ,2010, 26 (7):127-131.)
[101]李美玲,任亞偉,孫軍梅,等.基于多特征融合的智能客服模型[J].計算機系統應用,2021, 30 (7):239-245.(Li Meiling, Ren Yawei, Sun Junmei, "et al . Intelligent customer service model based on multi-feature fusion[J]. Computer Systems amp; Applications ,2021, 30 (7):239-245.)
[102]張瑞,潘鑫,楊艷妮,等.情感介入式智能客戶服務系統[J].情報理論與實踐,2016, 39 (8):70-74,39.(Zhang Rui, Pan Xin, Yang Yanni, "et al . Intelligent customer service system with emotional intervention[J]. Information Studies: Theory amp; Application ,2016, 39 (8):70-74,39.)
[103]郭曉哲,彭敦陸,張亞彤,等.GRS:一種面向電商領域智能客服的生成—檢索式對話模型[J].華東師范大學學報:自然科學版,2020(5):156-166.(Guo Xiaozhe, Peng Dunlu, Zhang Yatong, "et al . GRS: a generative retrieval dialogue model for intelligent customer service in the field of e-commerce[J]. Journal of East China Normal University:Natural Science, 2020(5):156-166.)
[104]Poran S, Amsalem G, Beka A, "et al . With one voice:composing a travel voice assistant from re-purposed models[EB/OL].(2021-08-04).https://arxiv.org/abs/2108.11463.
[105]Li Fenglin, Qiu Mingui, Chen Haiqing, "et al . Alime assist: an intelligent assistant for creating an innovative e-commerce experience[EB/OL].(2018-01-12).https://arxiv.org/abs/1801.05032.
[106]Chen Yingfeng, Wu Feng, Shuai Wei, "et al . KeJia robot——an attractive shopping mall guider[C]//Proc of International Conference on Social Robotics.Cham:Springer,2015:145-154.
[107]Kim Y G, Lee C H, Han S G. Educational application of dialogue system to support e-learning[EB/OL].(2002).https://eric.ed.gov/?id=ED477042.
[108]Dzikovska M O, Isard A, Bell P, "et al . BEETLE Ⅱ: an adaptable tutorial dialogue system[C]//Proc of the SIGDIAL 2011 Conference.2011:338-340.
[109]Kiriyama S, Hirose K, "et al . Development and evaluation of a spoken dialogue system for academic document retrieval with a focus on reply generation[J]. Systems and Computers in Japan ,2002, 33 (4):25-39.
[110]Papangelis A, Gatchel R, Metsis V, "et al . An adaptive dialogue system for assessing post traumatic stress disorder[C]//Proc of the 6th International Conference on Pervasive Technologies Related to Assistive Environments.New York:ACM Press,2013:1-4.
[111] Liu Qianlong, Wei Zhongyu, Peng Baolin, "et al . Task-oriented dialogue system for automatic diagnosis[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018:201-207.
[112] Chen Junyan, Wu Ji, Wang Zuoying. A Chinese spoken dialogue system for train information[C]//Proc of IEEE International Conference on Systems, Man and Cybernetics.Piscataway,NJ:IEEE Press,2003:1097-1103.