999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

管道式對話系統(tǒng)研究進展及其在醫(yī)療領(lǐng)域應(yīng)用

2024-03-30 10:09:58杜建強鄭奇民羅計根聶斌熊旺平劉勇周添強
科學(xué)技術(shù)與工程 2024年6期
關(guān)鍵詞:用戶方法模型

杜建強, 鄭奇民, 羅計根*, 聶斌, 熊旺平, 劉勇, 周添強

(1.江西中醫(yī)藥大學(xué)計算機學(xué)院, 南昌 330004; 2.江西中醫(yī)藥大學(xué)中醫(yī)人工智能重點研究室, 南昌 330004)

近年來,隨著人工智能技術(shù)的不斷突破,使得在廣泛的領(lǐng)域中使用機器成為可能。許多研究者對對話系統(tǒng)進行了大量的研究。對話系統(tǒng)(dialogue system),也稱為對話代理或聊天機器人,是使用自然語言與用戶交互的計算機程序。這些系統(tǒng)目前有著廣泛的潛在應(yīng)用,從客戶服務(wù)和技術(shù)支持到個人助理和教育工具,例如智能醫(yī)療[1]、智能客服[2]、智能助手[3]、情感聊天[4]和智能問答[5]等領(lǐng)域的應(yīng)用。

最早在1950年的論文《計算機與智能》[6](computing machinery and intelligence)中,艾倫·圖靈(Alan Turing)在介紹圖靈測試時就定義了人機對話系統(tǒng)。然而,早期的任務(wù)型對話系統(tǒng)通常在理解和響應(yīng)自然語言輸入的能力方面受到限制,并且依賴于預(yù)先編程的響應(yīng)或簡單的基于規(guī)則的算法來生成輸出。最早的對話系統(tǒng)是由Weizenbaum[7]于1966年創(chuàng)建的“伊莉莎”(ELIZA),這是一個模擬心理治療師的聊天機器人。ELIZA使用模式匹配和簡單的規(guī)則與用戶進行對話,至今仍被廣泛研究和引用[8]。20世紀(jì)90年代,自然語言處理的統(tǒng)計方法開始流行,研究人員開始利用統(tǒng)計模型設(shè)計任務(wù)型對話系統(tǒng),其原理是使用機器學(xué)習(xí)技術(shù)分析大量語言數(shù)據(jù),并對用戶輸入產(chǎn)生響應(yīng)。隨著深度學(xué)習(xí)的發(fā)展,對話系統(tǒng)能夠從大量數(shù)據(jù)中進行自主學(xué)習(xí),并能夠處理復(fù)雜的任務(wù)和與用戶的交互。

傳統(tǒng)的任務(wù)型對話系統(tǒng)(task-oriented dialogue,TOD)主要分為兩類:管道式(pipelined)任務(wù)型對話系統(tǒng)和端到端(end-to-end)任務(wù)型對話系統(tǒng)。本文研究中主要關(guān)注任務(wù)型對話系統(tǒng)中管道式方法的研究進展,其是任務(wù)型對話系統(tǒng)中在實際應(yīng)用中最常用的方法之一[9]。在管道式方法中,研究者可以采取不同的技術(shù)手段實現(xiàn)各個模塊,因此便于開發(fā)和調(diào)試。深度學(xué)習(xí)的興起,整個系統(tǒng)仍采用模塊拼接的方式,但各個子模塊采用神經(jīng)網(wǎng)絡(luò)實現(xiàn),利用神經(jīng)網(wǎng)絡(luò)提升各個子模塊的性能,從而最終提高整個對話系統(tǒng)的性能。因此,現(xiàn)對管道式任務(wù)型對話系統(tǒng)各模塊的相關(guān)概述、最新進展以及其在智能醫(yī)療領(lǐng)域的應(yīng)用(從中醫(yī)和西醫(yī)兩個方面)進行深入分析和總結(jié)。明確各模塊在未來的發(fā)展方向以及在醫(yī)療應(yīng)用中所面臨的挑戰(zhàn),為管道式對話系統(tǒng)發(fā)展及其在醫(yī)療領(lǐng)域?qū)嶋H應(yīng)用方面的相關(guān)研究提供有益的參考。

1 管道式任務(wù)型對話系統(tǒng)概述

任務(wù)型對話系統(tǒng)不是一個簡單的自然語言理解加信息檢索的過程,而是一個多輪的決策過程。它需要機器在對話過程中不斷根據(jù)當(dāng)前的狀態(tài)決策下一步應(yīng)該采取的最優(yōu)動作(如提供結(jié)果、詢問特定限制條件、澄清或確認(rèn)需求等),從而最有效的輔助用戶完成信息或服務(wù)獲取的任務(wù)。

基于管道的任務(wù)型對話系統(tǒng)通常分為4個部分:自然語言理解(natural language understanding,NLU)、對話狀態(tài)跟蹤(dialog state tracking,DST)、對話策略(dialogue policy,DP)、自然語言生成(natural language generation,NLG)。其中對話狀態(tài)追蹤和對話策略兩部分組合起來就是任務(wù)型對話中至關(guān)重要的對話管理(dialogue management,DM),是對話系統(tǒng)中負責(zé)整體對話流程和決策的組件,它的作用是利用對話狀態(tài)追蹤和對話策略來管理對話的進行。管道方法的架構(gòu)圖如圖1所示[9]。本節(jié)將介紹任務(wù)型對話系統(tǒng)管道方法中各模塊概述和常用的一些數(shù)據(jù)集總結(jié)。

圖1 管道方法框架圖[9]Fig.1 Pipeline method framework diagram[9]

1.1 自然語言理解模塊

圖2 NLU模塊圖解[9]Fig.2 Diagram of the natural language understanding (NLU) module[9]

S={Du,Iu,(s1,v1),(s2,v2),…,(sn,vn)}=NLU(u1,u2,…,un)

(1)

(2)評價指標(biāo)。NLU模塊常用的評價指標(biāo)為準(zhǔn)確率(accuracy)和F1分?jǐn)?shù)[10]。

準(zhǔn)確率是衡量NLU模塊在分類任務(wù)中正確分類的比例,用來衡量模塊對輸入語句的領(lǐng)域識別和意圖識別的正確與否。

F1分?jǐn)?shù)可以綜合衡量NLU模塊的分類準(zhǔn)確性和對正例的識別能力,即用來衡量槽值對識別的能力。

1.2 對話狀態(tài)追蹤模塊

Sn={Dl,Iu,(s1,v1),(s2,v2),…,(sn,vn)}=DST(Un,An-1,Sn-1)

(2)

(2)評價指標(biāo)。DST常用的評價指標(biāo)多為平均目標(biāo)精度AGA[11]、槽位準(zhǔn)確度slot Acc和聯(lián)合目標(biāo)準(zhǔn)確率Joint Acc[12]等。

平均目標(biāo)精度是DST模塊在多輪對話中預(yù)測目標(biāo)的平均準(zhǔn)確率。目標(biāo)是指對話中要達到的目標(biāo)或任務(wù)。AGA計算模塊在每個對話中預(yù)測的目標(biāo)與真實目標(biāo)的匹配準(zhǔn)確率,并對多個對話的準(zhǔn)確率取平均值。

槽位準(zhǔn)確度衡量模塊對對話中槽位和對應(yīng)值的預(yù)測準(zhǔn)確性。它獨立地將每個槽位值和其對應(yīng)的人工真值標(biāo)注進行比較。它的評價粒度更為精細,但不適合評價對話跟蹤器的整體性能。

聯(lián)合目標(biāo)準(zhǔn)確率衡量模塊對當(dāng)前輪對話狀態(tài)的整體預(yù)測準(zhǔn)確性,要求模型在每個槽位上都預(yù)測正確的值。即使對話輪中只有一個槽位被錯誤地預(yù)測,該輪的對話狀態(tài)也是錯誤的。

除此之外,在對話狀態(tài)跟蹤挑戰(zhàn)數(shù)據(jù)集(DSTC2)中,還用了L2正則和ROC曲線等評估指標(biāo)。

1.3 對話策略模塊

(1)任務(wù)定義。對話策略用于確定對話系統(tǒng)如何在每個對話步驟中做出決策和回復(fù)。它基于當(dāng)前的對話狀態(tài)和對話目標(biāo),決定系統(tǒng)的動作和回復(fù)策略。對話策略的目標(biāo)是根據(jù)當(dāng)前對話狀態(tài)制定合適的系統(tǒng)行為,以達到對話的目標(biāo)。對話策略是以對話狀態(tài)追蹤輸出的n時刻的對話狀態(tài)Sn作為輸入,輸出是系統(tǒng)選擇的動作策略an。DP任務(wù)的形式化定義為

an=DP(Sn)

(3)

(2)評價指標(biāo)。對話策略的主要評價指標(biāo)是任務(wù)完成率和平均對話輪數(shù)[13]。對話策略依賴當(dāng)前對話狀態(tài)選擇接下來的系統(tǒng)動作,其評測標(biāo)準(zhǔn)為系統(tǒng)動作準(zhǔn)確率,即是否涵蓋了用戶想要的信息,系統(tǒng)回復(fù)的實體是否滿足用戶的限制,從而判定對話狀態(tài)的成功與否。

在強化學(xué)習(xí)方法中,也會使用一些其他的指標(biāo),如平均回報[14](average reward)、匹配率[15](match rate)等。

1.4 自然語言生成模塊

y=NLG({an,(s1,v1),(s2,v2),…,(sn,vn)})

(4)

(2)評價指標(biāo)。自然語言生成從結(jié)構(gòu)化信息中生成自然語言表示,其評估有人工評測和自動評估兩種。人工評測指標(biāo)主要是從生成句子的流暢性、合理性、可讀性、多樣性等幾方面評判[16-17]。自動評估常用的指標(biāo)有BLEU、槽位錯誤率(slot error rate,ERR)等指標(biāo)[18-20]。其中,BLEU指標(biāo)是n-gram相似度的指標(biāo),用來衡量生成句子的流暢度;ERR用來衡量生成句子與輸入的槽值對的匹配程度,其公式表達是(生成回復(fù)中缺少和多余的槽位數(shù)量)/(NLG輸入中所含槽值對的數(shù)量)。

1.5 常用數(shù)據(jù)集

近年來,許多語料庫推動著任務(wù)型對話系統(tǒng)的研究。將數(shù)據(jù)集根據(jù)領(lǐng)域進行劃分可分為單一領(lǐng)域和多領(lǐng)域。

其中,單一領(lǐng)域最常用的數(shù)據(jù)集有ATIS數(shù)據(jù)集[21]、Snips數(shù)據(jù)集[22]、DSTC2數(shù)據(jù)集[23]、WOZ2.0數(shù)據(jù)集[24]、M2M數(shù)據(jù)集[25]、Frames數(shù)據(jù)集[26]、E2E數(shù)據(jù)集[27]等。其中ATIS數(shù)據(jù)集的背景為航空公司預(yù)訂航班;Snips數(shù)據(jù)集是從Snips個人語音助手收集來的,包含7個領(lǐng)域,但各個領(lǐng)域不交叉;DSTC2和E2E的背景都為餐館預(yù)訂; M2M數(shù)據(jù)集的背景為購買電影票、預(yù)訂餐廳,包含兩個領(lǐng)域Frames的背景為旅游預(yù)定。數(shù)據(jù)集詳細統(tǒng)計如表1所示。

表1 常用數(shù)據(jù)集統(tǒng)計信息

在深度學(xué)習(xí)興起后,任務(wù)型對話系統(tǒng)中多領(lǐng)域建模開始慢慢發(fā)展,而多領(lǐng)域數(shù)據(jù)集才是推動其前進的基石。目前多領(lǐng)域數(shù)據(jù)集有MultiWOZ數(shù)據(jù)集[28]、Taskmaster-1數(shù)據(jù)集[29]、SGD 數(shù)據(jù)集[30]、CrossWOZ數(shù)據(jù)集[31]、RiSA-WOZ數(shù)據(jù)集[32]。其中,MultiWOZ的對話背景為餐廳、酒店、景點、出租車、火車、醫(yī)院和警察,但在原始MultiWOZ數(shù)據(jù)集中狀態(tài)注釋存在很多噪聲,因此人們不斷改進,目前已發(fā)布到第4個版本MultiWOZ2.4[33],極大地刺激了面向任務(wù)的對話系統(tǒng)的研究;Taskmaster-1中對話背景為訂購披薩、創(chuàng)建汽車維修預(yù)約、設(shè)置乘車服務(wù)、訂購電影票、訂購咖啡飲料和預(yù)訂餐廳;SGD對話背景包括從銀行、媒體活動、日歷、旅行和天氣等16種領(lǐng)域;CrossWOZ包括酒店、餐廳、景點、地鐵和出租車5種領(lǐng)域;RiSA-WOZ分布12種領(lǐng)域,包括景點、餐廳、酒店、航班、火車、天氣、電影、電視、電腦、汽車、醫(yī)院和教育。除了ATIS、Snips、Frames、Taskmaster-1,其他數(shù)據(jù)集只統(tǒng)計了訓(xùn)練集,以上數(shù)據(jù)集詳細統(tǒng)計如表1所示。

2 管道方法研究進展

在過去的幾年里,研究人員在管道式任務(wù)型對話系統(tǒng)的各個模塊上取得了顯著的進展,這些進展為管道式任務(wù)型對話系統(tǒng)的實際應(yīng)用提供了堅實的基礎(chǔ)。本節(jié)將對各模塊的方法進行總結(jié)概述并梳理了所用模型的優(yōu)缺點。

2.1 自然語言理解

在管道方法中,自然語言理解部分中前兩個子任務(wù)領(lǐng)域檢測和意圖識別相當(dāng)于找到對話內(nèi)容的主題,屬于文本分類問題[34],在定義時intent到domain的映射是一對一的。領(lǐng)域檢測是將用戶文字輸入的文本分類到各個子領(lǐng)域,如查詢天氣等,目前任務(wù)型對話系統(tǒng)都是面向某一特定領(lǐng)域,在大多數(shù)情況下只需要在固定領(lǐng)域下進行具體的意圖識別任務(wù)即可[35]。

對于意圖識別問題,早期將傳統(tǒng)的機器學(xué)習(xí)分類方法應(yīng)用在意圖分類任務(wù),如樸素貝葉斯(naive Bayesian, NB)、支持向量機(support vector machine, SVM)等[36]。這種方法的主要目標(biāo)是人工標(biāo)注文本的特征提取,但無法學(xué)習(xí)深層語義信息[37],意圖識別的準(zhǔn)確性不高。深度學(xué)習(xí)的快速發(fā)展為意圖識別任務(wù)提供了新方法[38]。在計算機視覺有不錯效果的CNN,其在文本分類中能夠更好地提取到對話文本中的局部信息,這對意圖識別有很大的幫助;循環(huán)神經(jīng)網(wǎng)絡(luò)在對話文本的優(yōu)勢在于可以提取時序信息并捕獲到上下文相關(guān)信息。文獻[39-41]結(jié)合CNN與循環(huán)神經(jīng)網(wǎng)絡(luò)各自的優(yōu)勢,使用不同層的CNN與RNN及其變體模型LSTM共同進行融合文本信息,表現(xiàn)出來的分類效果比傳統(tǒng)的分類模型都好。隨著預(yù)訓(xùn)練語言模型的顯著成功,更多人嘗試將其應(yīng)用于意圖識別任務(wù)中。Wu等[42]提出了面向任務(wù)的對話BERT(TOD-BERT),顯著提高了意圖識別任務(wù)的準(zhǔn)確率,同時具有較強的few-shot能力,有效地緩解了面向任務(wù)對話的數(shù)據(jù)稀缺問題。Casa-nueva等[43]提出的基于預(yù)訓(xùn)練的雙句型編碼器支持的意圖識別方法在資源匱乏的情況下同樣非常有效。Abro等[44]提出了一種NLU架構(gòu),他們采用BERT+BiLSTM將背景知識融入到框架中,以便更好理解到用戶話語中的意圖。Guo等[45]利用預(yù)訓(xùn)練ERNIE模型的知識微調(diào)FastText模型,從而使意圖識別準(zhǔn)確率得到提高。這種“預(yù)訓(xùn)練+微調(diào)”范式已成為自然語言處理任務(wù)中的主要手段之一。

語義槽填充可以看作是序列標(biāo)注的問題,常用的統(tǒng)計方法模型有最大熵馬爾可夫模型[46]、條件隨機場[47](conditional random field, CRF)等。但統(tǒng)計模型開發(fā)成本較高,而深度學(xué)習(xí)模型能夠減小開發(fā)成本且誤差更小,常用有RNN模型及其變體LSTM模型和GRU模型等[48]。其中,經(jīng)典的模型是雙向長短期記憶網(wǎng)絡(luò)結(jié)合條件隨機場(BiLSTM+CRF)[49],它能更好地獲取到文本序列中的上下文信息,同時可以捕獲其長距離的依賴關(guān)系并對其建模,從而提高序列標(biāo)注的準(zhǔn)確性。而將槽填充視為序列標(biāo)記任務(wù)的最廣泛使用的做法有兩個主要缺點:首先,本體通常是預(yù)先定義和固定的,因此無法檢測未知槽的新標(biāo)簽。其次,槽標(biāo)簽的one-hot 編碼忽略了具有相似語義的槽位之間的相關(guān)性,這使得跨不同領(lǐng)域共享學(xué)習(xí)的知識變得困難。對此,Dai等[50]提出了彈性條件隨機場(eCRF)的新型槽填充框架,用于自然語言處理中的開放本體。通過引入彈性正則化方法,有效地應(yīng)對新領(lǐng)域和新槽的出現(xiàn),從而解決開放本體下槽填充的挑戰(zhàn)。Liu等[51]將跨域槽填充轉(zhuǎn)換成機器閱讀理解(machine rea-ding comprehension, MRC)問題,通過將槽填充看作是對一個包含多個答案的文本進行MRC任務(wù),可以更自然地處理多輪對話和槽之間的依賴關(guān)系。

隨著研究不斷深入,更多人將意圖識別和語義槽填充兩個子任務(wù)進行聯(lián)合建模。在最近的研究中,Yang等[52]提出一種新的聯(lián)合模型AISE,用于聯(lián)合意圖檢測和槽填充。模型中引入多頭注意機制來捕獲話語級意圖上下文特征,并引入了位置感知的多頭掩蓋注意(PMMAtt)機制來建模單詞編碼特征和意圖槽特征之間的顯式交互。先前的研究中大多只考慮到意圖到槽的單向信息流,Qin等[53]提出了一種協(xié)同Transformer,其中協(xié)同交互模塊是該框架的核心組件,采用共同交互注意力層建立雙向連接來考慮交叉影響,槽和意圖之間的信息能夠進行雙向交互,以相互的方式增強兩個任務(wù)。在捕獲兩個任務(wù)之間的交叉影響時,容易忽略特定意圖中槽標(biāo)記之間的依賴關(guān)系,Li等[54]提出一種新的雙向長短期記憶網(wǎng)絡(luò)結(jié)合條件隨機場聯(lián)合模型(double-Bi-LSTM-CRF model,DBLC),能在考慮意圖檢測和槽填充之間的交叉影響的同時,捕獲到隱藏槽標(biāo)記之間的依賴關(guān)系。Abro等[55]提出了WFST-BERT模型,利用正則表達式(REs)規(guī)則來編碼領(lǐng)域知識并將其轉(zhuǎn)換成可訓(xùn)練的加權(quán)有限狀態(tài)傳感器(weighted finite-state transducer,WFST),同時利用BERT的語言表示能力生成上下文表示,提高模型的泛化能力的同時減少了對海量監(jiān)督數(shù)據(jù)的需求。對于Bert模型的使用,大多都是將其引入模型結(jié)構(gòu)作為編碼器,對此有人進行了不一樣的嘗試。Rafiepour等[56]提出一種新的架構(gòu)CTRAN,用于意圖識別和槽填充。它用Bert進行詞嵌入,融合CNN的局部語義信息,將Transformer作為解碼器提供最終的編碼器輸出;而在解碼器中引入了一種對齊策略,這樣的話使輸入標(biāo)記與輸出標(biāo)記保持一對一關(guān)系,從而提高槽填充準(zhǔn)確性。證明了將語言模型作為詞嵌入是一種更好的策略,而不是將它們納入模型結(jié)構(gòu)。He等[57]首次引入知識庫來構(gòu)建一種多任務(wù)學(xué)習(xí)(MTL)的意圖檢測和槽填充聯(lián)合模型,充分利用外部知識與意圖和槽之間的高質(zhì)量關(guān)系信息,兩個模塊之間的參數(shù)和特征共享,以提高槽填充和意圖檢測的性能。

自然語言理解模塊未來方向如下。

(1)未知意圖和未知槽標(biāo)簽。當(dāng)模型在一個領(lǐng)域的監(jiān)督數(shù)據(jù)集上成功訓(xùn)練后,能否擴展到新的領(lǐng)域,新的意圖和槽都會出現(xiàn),對模型的NLU性能會造成影響。在目前元學(xué)習(xí)算法是針對未知標(biāo)簽的最新發(fā)展,是一個活躍的研究領(lǐng)域[58]。

(2)NLU數(shù)據(jù)集。多數(shù)現(xiàn)有的NLU研究用的最多就是ATIS和SNIPS兩個數(shù)據(jù)集,這兩者數(shù)據(jù)集不大,對話形式多以單輪呈現(xiàn),數(shù)據(jù)質(zhì)量也不高。目前在NLU兩個任務(wù)測試很容易就達到非常高的性能表現(xiàn)。所以為了更好地測試NLU模型的性能,值得進一步開發(fā)數(shù)據(jù)集和基準(zhǔn)任務(wù),比如領(lǐng)域切換,多回合任務(wù)以及多語言等。

(3)聯(lián)合學(xué)習(xí)模型評估。研究清楚地表明,意圖分類和槽位填充之間的聯(lián)合學(xué)習(xí)比單獨的訓(xùn)練模型更好[56]。但探討較少的是每個子任務(wù)如何提高其他子任務(wù)的性能,之后可以通過進行調(diào)整網(wǎng)絡(luò)中任何一方效果的實驗,可以用單獨或聯(lián)合的指標(biāo)來衡量。

NLU任務(wù)部分重要方法的優(yōu)缺點總結(jié)如表2所示。

表2 NLU任務(wù)部分重要方法的優(yōu)缺點總結(jié)

2.2 對話管理

2.2.1 對話狀態(tài)跟蹤

對話狀態(tài)跟蹤是確保對話系統(tǒng)穩(wěn)健運行的核心組成部分。對話狀態(tài)跟蹤主要分為3種方法:基于規(guī)則、生成式、判別式。

使用基于規(guī)則方法來解決DST任務(wù),優(yōu)勢在于其不依賴于對話數(shù)據(jù),非常適合冷啟動[49],在許多行業(yè)應(yīng)用中廣泛應(yīng)用,但存在泛化能力有限、人工成本高、錯誤率高、領(lǐng)域適應(yīng)性低等諸多限制。生成式模型是通過對數(shù)據(jù)進行學(xué)習(xí)建模,學(xué)習(xí)出數(shù)據(jù)的概率分布,從而能夠生成新的數(shù)據(jù)。常見的方法有貝葉斯網(wǎng)絡(luò)、部分可觀測馬爾可夫模型(POMDP)[59]等,雖然生成式模型的效果比基于規(guī)則的方法好,但是其模型的精確表示和優(yōu)化在計算上很困難。

2.2.2 對話策略

對話策略是對話管理模塊的第二個模塊,它根據(jù)DST模塊輸出的當(dāng)前對話狀態(tài),結(jié)合預(yù)設(shè)定的系統(tǒng)動作集,決策出系統(tǒng)下一步的動作,如追問、提供結(jié)果等,從而能夠有效的幫助用戶完成信息或服務(wù)獲取。DP學(xué)習(xí)的主流訓(xùn)練方法分為監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)。

監(jiān)督學(xué)習(xí)一般需要人工去制定對話策略規(guī)則,根據(jù)DST識別的對話狀態(tài)去執(zhí)行設(shè)定好的動作。監(jiān)督下學(xué)習(xí)的策略有很強的決策能力,可以準(zhǔn)確地完成任務(wù),但對訓(xùn)練數(shù)據(jù)的質(zhì)量要求高,消耗大量人力,決策能力受特定任務(wù)和領(lǐng)域的限制[69]。隨著強化學(xué)習(xí)的出現(xiàn),更多的人發(fā)現(xiàn)強化學(xué)習(xí)非常適合對話策略的學(xué)習(xí)[70]。在強化學(xué)習(xí)中,智能體學(xué)習(xí)策略主要是通過環(huán)境狀態(tài)映射到行動[71]。這個環(huán)境通常是用戶或者模擬用戶,而在這種環(huán)境設(shè)置下訓(xùn)練也被稱為在線學(xué)習(xí)。

強化學(xué)習(xí)方法與用戶交互學(xué)習(xí)策略,但不同用戶的主觀性導(dǎo)致用戶生成的訓(xùn)練對話復(fù)雜性差異很大,對此Liu等[14]提出了一種計劃對話策略學(xué)習(xí),通過安排對話策略的學(xué)習(xí)過程由易到復(fù)雜來改進對話策略的學(xué)習(xí)。其次在真實的在線用戶交互很難獲取以及用戶模擬器需要大量訓(xùn)練數(shù)據(jù),Takanobu等[15]提出了多智能體對話策略學(xué)習(xí)MADPL, 它將系統(tǒng)和用戶都視為對話代理,相互作用下共同學(xué)習(xí)策略。同時加入特定于角色的獎勵,以促進基于角色的響應(yīng)生成,在實驗中得到了較高的任務(wù)完成率。

強化學(xué)習(xí)(reinforcement learning, RL)訓(xùn)練對話代理的成本很高,因為它需要與真實用戶進行多次交互。強化學(xué)習(xí)和深度學(xué)習(xí)是如今實現(xiàn)人工智能不可或缺的一部分,兩者結(jié)合可以有效地加快強化學(xué)習(xí)模型的收斂速度[72]。Peng等[73]提出深度動態(tài)Q網(wǎng)絡(luò)(deep dyna-Q, DDQ),首次使用基于集成規(guī)劃的方法對對話策略進行學(xué)習(xí),引入一種世界模型,用少量的真實用戶交互數(shù)據(jù),模仿真實的用戶響應(yīng)并生成模擬的用戶對話,能有效地提高對話策略學(xué)習(xí)的效率,但無法把握模擬經(jīng)驗的質(zhì)量,容易產(chǎn)生低質(zhì)量的模擬用戶對話。在此基礎(chǔ)上,Wu等[74]提出一種基于高斯(Gaussian process, GP)過程的深度動態(tài)Q網(wǎng)絡(luò), 將世界模型建立為GP模型,并設(shè)計了一種基于Kullback-Leibler(KL)散度的判別器來評估模擬用戶經(jīng)驗的質(zhì)量,其對超參數(shù)的魯棒性更強。Wang等[75]提出了基于人類演示的對話策略學(xué)習(xí),它使用模仿模型替代了世界模型,通過策略塑造和獎勵塑造從人類演示中有效地學(xué)習(xí)對話策略,該方法可以在較少的數(shù)據(jù)量下學(xué)習(xí)出高效的策略,并能夠在多個任務(wù)中遷移學(xué)習(xí)。DRL方法用于對話策略優(yōu)化,在多個領(lǐng)域及其各種意圖的完成復(fù)雜任務(wù)中仍是一個很大的挑戰(zhàn)。Saha等[76]以統(tǒng)一的方式使用分層深度強化學(xué)習(xí) HDRL 特定選項框架提出了一種多領(lǐng)域、多意圖對話管理策略。實驗表明,該框架在多意圖子任務(wù)和領(lǐng)域適應(yīng)性方面都有較好的表現(xiàn)。之后,Saha等[77]又提出了一種基于多模態(tài)信息輸入和情感感知的對話策略學(xué)習(xí)方法,通過結(jié)合多模態(tài)特征和情感分類信息,提高了對話系統(tǒng)的性能。此外,在對話過程中,用戶的細粒度情感在實現(xiàn)最大用戶滿意度方面同樣發(fā)揮著重要作用[78]。Xu等[79]結(jié)合知識圖譜來提供行動集的先驗知識,并以基于圖的方式解決策略學(xué)習(xí)任務(wù)。通過結(jié)合知識圖譜,能夠為決策主體在選擇行動時提供長期獎勵,并且候選動作具有更高的質(zhì)量,策略可控性更強。

對話管理模塊未來方向如下。

(1)DST的精確性和魯棒性。DST是管道式對話系統(tǒng)中的關(guān)鍵環(huán)節(jié),未來的研究應(yīng)致力于提高對話狀態(tài)追蹤的準(zhǔn)確性和魯棒性。具體包括改進對話狀態(tài)表示方法、應(yīng)對多輪對話的挑戰(zhàn),并解決對話中的歧義和不完整信息。

(2)用戶模擬器的改進及評估。在使用深度強化學(xué)習(xí)的DM模塊中所用的用戶模擬器,它與真實用戶的交互反應(yīng)還是存在很大的差距,所以如何改進用戶模擬器,使其有更真實的人類反應(yīng),以及如何找到統(tǒng)一的標(biāo)準(zhǔn)評估用戶模擬器,有待進一步關(guān)注與探究。

(3)DP的個性化和靈活性。在人機交互過程中,面對不同個性的用戶,機器在進行決策應(yīng)該具備個性化特點。在前后對話過程盡量保持角色一致,因此未來的研究中可以去探索基于用戶特征和上下文的個性化對話策略,并嘗試引入新手段來實現(xiàn)靈活的對話決策。

(4)領(lǐng)域擴展問題。在DST模塊和DP模塊中,其是對話系統(tǒng)中最重要的兩個步驟,因此對領(lǐng)域擴展的敏銳需求是非常高的,它是回復(fù)用戶對話的核心。所以,如何利用遷移學(xué)習(xí)將原來預(yù)先訓(xùn)練好的對話管理模式轉(zhuǎn)移到新的對話系統(tǒng)管理任務(wù)中,也是一個值得探索的領(lǐng)域。

對話管理模塊中兩個模塊的部分重要方法的優(yōu)缺點總結(jié)如表3所示。

表3 DM任務(wù)部分重要方法的優(yōu)缺點總結(jié)

2.3 自然語言生成

自然語言生成是管道方法的最后一個模塊,它將DP模塊決策的動作轉(zhuǎn)換為最終的自然語言表示輸出給用戶,是非常關(guān)鍵步驟。

NLG常用方法一般可分為基于模板的方法和基于深度學(xué)習(xí)的方法。基于規(guī)則/模板的方法[80]就是根據(jù)人工設(shè)定的對話場景去設(shè)計相應(yīng)的對話模板和規(guī)則,將DM模塊輸出的策略或動作映射成自然語言填充到模板中。這種方法在特定的領(lǐng)域有著較高的回復(fù)準(zhǔn)確率,但需要消耗大量的人力物力,難以維護且領(lǐng)域擴展性差。

近年來,基于深度學(xué)習(xí)的方法被廣泛應(yīng)用在了NLG。這類方法的基礎(chǔ)框架是編碼器-解碼器(encoder-decoder)框架[81],后續(xù)的研究工作大多都是對框架的部分結(jié)構(gòu)進行改進從而提升NLG的效果。早期Vinyals等[82]使用序列到序列(seq-to-seq)框架可以實現(xiàn)簡單的對話。它不需要太多的手工規(guī)則,但生成的上下文的連貫性不足。對于這個問題,王孟宇等[83]提出基于注意力和跨步融合機制與HRED模型結(jié)合的方案,能夠在生成較通順的語句的同時保持上下文信息的一致性。Zhang等[18]提出了一種新的框架KAWA-DRG(knowledge-aware attentive wasserstein adversarial dialogue response generation), 可以動態(tài)突出單詞序列和話語序列的重要部分進行建模,并且在生成響應(yīng)時可以利用外部知識進行對抗式自動編碼學(xué)習(xí),從而在對話系統(tǒng)中產(chǎn)生合理和多樣的響應(yīng)。Baheti等[84]解決了對話式問答(conversational QA, ConvQA)中的NLG可靠性問題,提出了句法轉(zhuǎn)換(STs)來生成候選回應(yīng),并使用BERT對其質(zhì)量進行排序。這些生成的反應(yīng)可以被視為原始數(shù)據(jù)集的增強,以進一步用于NLG模型學(xué)習(xí)。Zhou等[19]引入了逆對抗訓(xùn)練(IAT)算法,能夠同時減少無響應(yīng)問題,并幫助神經(jīng)對話系統(tǒng)更好地建模對話歷史,產(chǎn)生更多樣化和一致的響應(yīng)。雖然序列到序列深度學(xué)習(xí)技術(shù)使NLGD得到了快速發(fā)展,但同樣基于深度學(xué)習(xí)的生成容易產(chǎn)生幻覺的無意義文本,這會降低系統(tǒng)性能,并且在許多現(xiàn)實場景中無法滿足用戶期望。對此,Ji等[85]對NLG 幻覺問題的研究進展和挑戰(zhàn)進行了廣泛的概述。Wu等[20]提出一種新的常識知識感知對話生成模型ConKADI,設(shè)計了Felicitous Fact機制來幫助模型關(guān)注與對話上下文高度相關(guān)的事實;在此基礎(chǔ)上,提出了上下文知識融合和靈活的模式融合兩種技術(shù),以促進知識的集成,有助于生成更加自然、流暢合理的對話。在此基礎(chǔ)上,許多研究者發(fā)現(xiàn)在人與人對話的過程中,自身蘊含了豐富的情感色彩,使得對話更加流暢、更具意義。文獻[86]對共情對話研究中情感感知和共情對話生成兩大任務(wù)進行了綜述,對任務(wù)型對話系統(tǒng)中情感色彩的表達提供了有益的參考。

自然語言生成模塊未來方向如下。

(1)外部知識的參與。在生成自然語言句子輸出給用戶時,僅依賴對話上下文很難生成令人滿意的句子,融入知識的對話生成研究還處在初級階段[87]。因此,如何獲得有用的相關(guān)知識以及如何有效地整合這些知識仍然值得研究。

(2)可控生成。目前端到端生成方法成為了NLG研究主流,但在生成可控文本回復(fù)缺乏統(tǒng)一的標(biāo)準(zhǔn)范式,并且針對不同領(lǐng)域的可控文本如何去衡量其可控性仍是一個開放性問題。

(3)評價指標(biāo)。在對話生成的評價指標(biāo)中,沒有一個統(tǒng)一的自動指標(biāo)對生成回復(fù)進行合理地評價,通常需要結(jié)合人工評價,費時費力還存在主觀性問題,所以建立統(tǒng)一的生成評價標(biāo)準(zhǔn)做到客觀準(zhǔn)確的評估是非常重要的研究方向。

NLG任務(wù)部分重要方法的優(yōu)缺點總結(jié)如表4所示。

表4 NLG任務(wù)部分重要方法的優(yōu)缺點總結(jié)

3 醫(yī)療領(lǐng)域的應(yīng)用與挑戰(zhàn)

隨著現(xiàn)代科學(xué)技術(shù)的不斷進步,人工智能、混合現(xiàn)實技術(shù)、遠程技術(shù)等領(lǐng)域迅速發(fā)展。同時,這些技術(shù)也逐漸應(yīng)用于醫(yī)療領(lǐng)域,帶動了智能醫(yī)療的發(fā)展。最顯著的案例,即在新冠疫情期間,智能醫(yī)療發(fā)揮了非常重要的作用,采用中西醫(yī)結(jié)合的遠程會診模式,為醫(yī)生和患者提供了遠程醫(yī)療和智能問診等手段,從而避免了病患的過多接觸[88]。

3.1 應(yīng)用

在中國,西醫(yī)和中醫(yī)是兩種不同的醫(yī)學(xué)傳統(tǒng),兩者在診斷上存在較大差別[89]。首先,西醫(yī)診斷是在解剖、生理、生化等現(xiàn)代醫(yī)學(xué)基礎(chǔ)上的實驗診斷,客觀性、科學(xué)性、專指性強;中醫(yī)診斷是一門經(jīng)驗醫(yī)學(xué)的診斷,基礎(chǔ)是難以捉摸的氣脈觀察,醫(yī)生個體之間的感受差異大,有很強的主觀性。

目前大多研究都是基于現(xiàn)代醫(yī)學(xué)診斷思想,在中醫(yī)問診診斷的研究較少。首先,Kao等[90]利用分層強化學(xué)習(xí)技術(shù)構(gòu)建用于疾病診斷的癥狀檢測器,使其具有上下文感知能力。癥狀檢查首先通過詢問一系列關(guān)于患者癥狀的問題來評估患者,然后嘗試預(yù)測潛在的疾病。并在WebMD和Mayo Clinic等網(wǎng)站已經(jīng)部署了在線癥狀檢查器,能夠根據(jù)患者的癥狀識別疾病的可能原因和治療方法。Wei等[1]提出一種面向任務(wù)的對話系統(tǒng)來為患者進行疾病自動診斷。該系統(tǒng)充當(dāng)醫(yī)生的角色,通過不斷與患者進行對話收集額外的癥狀。再結(jié)合病人的自述報告,可以大大提高疾病識別的準(zhǔn)確性,幫助對話系統(tǒng)做出更好的診斷。Ali等[91]所提出的智能醫(yī)療平臺是一個基于對話的醫(yī)療決策系統(tǒng),基于增量學(xué)習(xí)方法提供醫(yī)療指導(dǎo)和推薦服務(wù)。支持用戶多模態(tài)(文本、語音和圖像)輸入,與用戶進行多次對話后,結(jié)合歷史對話信息對用戶的需求提供一定的醫(yī)療指導(dǎo)和推薦服務(wù),極大地提升了用戶的滿意度。

而在智能中醫(yī)研究上,Yin等[92]針對乙型肝炎這一國際公共衛(wèi)生問題,利用知識圖譜與對話系統(tǒng)相結(jié)合構(gòu)建了基于乙肝疾病的中醫(yī)智能問答系統(tǒng),利用中醫(yī)的優(yōu)勢進行診療,為醫(yī)生的疾病診斷、治療和患者的自我護理提供參考,對乙型肝炎的治療具有重要價值。中醫(yī)問診包括“問什么”“怎么問”兩個核心問題,基于這兩個問題出發(fā),迪盼祺等[93]構(gòu)建了基于物品的協(xié)同過濾推薦算法的中醫(yī)智能問診系統(tǒng),根據(jù)患者的自述癥狀,對其潛在癥狀進行多輪提問,得到患者所患病證的關(guān)鍵癥狀,實現(xiàn)從癥狀到癥狀的智能化問診。Duan等[94]講述了智能醫(yī)學(xué)在中醫(yī)舌診、脈診、眼科上的應(yīng)用,但唯獨沒有中醫(yī)智能問診的應(yīng)用發(fā)展,可見實現(xiàn)中醫(yī)問診智能化是一項非常艱巨的挑戰(zhàn)。

無論西醫(yī)還是中醫(yī),在問診過程都是通過不斷對患者進行不斷的反問獲取癥狀信息,杜曾貞等[95]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的反問生成方法,使用BERT來檢測問題觸發(fā),并使用Open NMT模型生成問題,可以有效解決智能問診中醫(yī)生反問生成的問題,但仍然存在泛化問題。因此,智能問診的研究之路仍然是任重而道遠。

3.2 挑戰(zhàn)

任務(wù)型對話系統(tǒng)在醫(yī)療領(lǐng)域應(yīng)用上仍然處于初級階段,還有很多需要克服的難題。

第一,醫(yī)學(xué)知識的復(fù)雜性,各種知識實體之間的關(guān)系沒有固定的模式。尤其是在中醫(yī)上,辯證受醫(yī)生經(jīng)驗所限[96]。在處理面向醫(yī)生的文本時,診斷的關(guān)鍵可能不僅僅看癥狀等實體詞上,也有相當(dāng)一部分取決于癥狀實體詞之間復(fù)雜的邏輯關(guān)系,同時這些知識之間有很強的關(guān)聯(lián)性,使用一般的數(shù)據(jù)庫存儲會導(dǎo)致對話系統(tǒng)的搜索結(jié)果不是很理想。

第二,與西醫(yī)不同,中醫(yī)沒有標(biāo)準(zhǔn)的國際術(shù)語標(biāo)準(zhǔn),用戶描述話語與專業(yè)醫(yī)療術(shù)語的認(rèn)知差距[97]。在處理面向患者的文本時,很多醫(yī)學(xué)詞匯具有高度的專業(yè)性,與用戶的認(rèn)知大不相同,難以理解,所以幫助用戶在檢索信息時如何能夠克服表達不一致的情況也是一個努力的方向。

第三,醫(yī)療對話數(shù)據(jù)集較少,特別是中醫(yī)對話數(shù)據(jù)集。數(shù)據(jù)是研究的基礎(chǔ),最近剛發(fā)布兩個有關(guān)醫(yī)療對話數(shù)據(jù)集,MedDialog數(shù)據(jù)集[98]和COVID-19數(shù)據(jù)集[99]。兩個數(shù)據(jù)集都包含一個中文數(shù)據(jù)集和一個英文數(shù)據(jù)集,為醫(yī)療對話生成提供了可靠的數(shù)據(jù)支持。有關(guān)中醫(yī)的公開對話數(shù)據(jù)集更是少之又少。

第四,相對來說,中醫(yī)智能問診發(fā)展緩慢,缺乏完善的評價體系,用戶接受度低。在一定程度上,中醫(yī)辨證論治仍存在一些爭議,因為不同的中醫(yī)有著不同流派,在對不同證候信息和對辨證模式的不同選擇會帶來不同的結(jié)果,因此有人質(zhì)疑中醫(yī)的客觀性。在某種程度上,客觀指標(biāo)的缺乏和患者的疑慮會使中醫(yī)理論難以全面有效地應(yīng)用于各種疾病的診斷和治療。

未來,隨著人工智能技術(shù)的不斷發(fā)展和完善,相信這些難題都會被一一解決。在目前研究和實踐表明,任務(wù)型對話系統(tǒng)可以為醫(yī)療服務(wù)帶來巨大的變革和創(chuàng)新,成為醫(yī)療服務(wù)領(lǐng)域的重要組成部分。

4 結(jié)論與展望

綜上所述,首先介紹了對話系統(tǒng)的發(fā)展背景,概述了管道式任務(wù)型對話系統(tǒng)各模塊的任務(wù)定義和評價指標(biāo),并整理了各模塊常用的數(shù)據(jù)集。接著全面綜述了各模塊的研究進展和未來發(fā)展方向,同時對各種方法的優(yōu)缺點進行了歸納,綜合比較以推動進步。從中醫(yī)和西醫(yī)兩個角度,分析討論了其在醫(yī)療領(lǐng)域的實際應(yīng)用和挑戰(zhàn),為智能問診的研究提供了有益參考。在當(dāng)前對話系統(tǒng)的實際應(yīng)用中,管道式對話系統(tǒng)仍然是主要的使用框架。對于醫(yī)療領(lǐng)域而言,智能對話問診的對話理解、問診邏輯以及問診解釋性顯得尤為重要,這直接影響到用戶對系統(tǒng)的信任程度。因此,管道式任務(wù)型對話系統(tǒng)的研究值得進一步深入探索。

通過對管道式對話系統(tǒng)的全面總結(jié),對其未來發(fā)展方向有了一定見解。

首先,數(shù)據(jù)集是影響任務(wù)型對話系統(tǒng)性能的重要因素。然而,目前面向任務(wù)的對話系統(tǒng)的數(shù)據(jù)集稀缺,這影響了對話系統(tǒng)的發(fā)展。如何構(gòu)建和收集具有良好通用性和高對話質(zhì)量的會話數(shù)據(jù)集是一個亟待解決的問題。

其次,盡管Chatgpt的出現(xiàn)證明了大模型在通用性的強大,但隨著時代發(fā)展,更多的目光會放到特定領(lǐng)域的實際應(yīng)用中,類似于“精準(zhǔn)醫(yī)療”應(yīng)用,其對專業(yè)知識和邏輯推理的要求是非常高的,要做到真正地做到落地應(yīng)用,還是有很長的路要走的。

最后,對于管道式對話系統(tǒng)誤差傳播的問題,雖然出現(xiàn)了端到端對話系統(tǒng)能夠解決此類問題,但是端到端在實際應(yīng)用中得不到推廣。所以,更多人嘗試將兩種方式結(jié)合端到端神經(jīng)管道方式[100]或研究可修正對話狀態(tài)信息的手段[68]去緩解信息誤差。除此之外,任務(wù)型對話系統(tǒng)的評價體系統(tǒng)一毋庸置疑也是大家共同努力的方向之一。

猜你喜歡
用戶方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 波多野结衣一区二区三区四区视频| 国产午夜一级毛片| 精品国产自在现线看久久| 亚洲天堂日本| 成人在线不卡| 亚洲国产综合精品中文第一| 亚瑟天堂久久一区二区影院| 日本a级免费| 91无码视频在线观看| Jizz国产色系免费| 亚洲成AV人手机在线观看网站| 亚洲精品无码专区在线观看| 尤物成AV人片在线观看| 国产精品密蕾丝视频| 国产第一色| 亚洲国产清纯| www.亚洲天堂| 国产婬乱a一级毛片多女| 99中文字幕亚洲一区二区| 日韩精品成人网页视频在线| 99热这里只有精品国产99| 国产日韩欧美视频| 国产精品私拍在线爆乳| 亚洲视频二| 中文字幕人成乱码熟女免费| 日本一区二区三区精品国产| 好吊色国产欧美日韩免费观看| 久久国产热| 国产精品污视频| 麻豆精品国产自产在线| 亚洲欧美成人| 国产亚洲视频免费播放| 成人夜夜嗨| 欧美乱妇高清无乱码免费| 国产日本视频91| 亚洲成人精品久久| 免费无码又爽又黄又刺激网站 | 亚洲精品欧美日本中文字幕| 亚洲中文字幕久久精品无码一区| 国产人成乱码视频免费观看| 久久久受www免费人成| 一本一本大道香蕉久在线播放| 国产成人啪视频一区二区三区| 色九九视频| 色婷婷在线影院| 国内嫩模私拍精品视频| 老司机久久99久久精品播放| 精品久久蜜桃| 91麻豆精品国产91久久久久| 亚洲男人在线| 午夜国产精品视频| 国产在线拍偷自揄观看视频网站| 成人综合在线观看| 欧美三级视频在线播放| 99在线观看免费视频| 国语少妇高潮| 亚洲成人动漫在线| 精品久久高清| 国产办公室秘书无码精品| 欧美黄色网站在线看| 五月天丁香婷婷综合久久| 毛片免费观看视频| 国产喷水视频| 人妻丝袜无码视频| 免费A级毛片无码无遮挡| 女同国产精品一区二区| 色综合国产| 久久精品人人做人人爽| 国产一级在线观看www色| 日韩最新中文字幕| 婷婷五月在线| www.91中文字幕| 99热这里只有成人精品国产| 国产精品视频999| 亚洲av综合网| 日韩不卡免费视频| 男女男精品视频| 国产第一页免费浮力影院| 最新国产精品鲁鲁免费视频| www亚洲天堂| 国产亚洲精品yxsp| 天天色天天综合网|