999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

交互式檢索的用戶模擬器研究綜述

2020-05-20 01:18:26李艷玲
計算機工程與應(yīng)用 2020年10期
關(guān)鍵詞:引擎動作用戶

劉 陽,林 民,李艷玲

內(nèi)蒙古師范大學(xué) 計算機科學(xué)技術(shù)學(xué)院,呼和浩特 010022

1 引言

機器學(xué)習(xí)算法已經(jīng)被廣泛應(yīng)用于提升檢索系統(tǒng)的性能[1-4]。近年來,強化學(xué)習(xí)在檢索引擎的應(yīng)用越來越廣泛[5-6],強化學(xué)習(xí)方法允許檢索引擎在沒有標(biāo)記的數(shù)據(jù)集中學(xué)習(xí)。在強化學(xué)習(xí)方法中,檢索引擎通過用戶模擬器提供一個獎賞信號來優(yōu)化檢索策略,而檢索策略需要來自環(huán)境下的多輪交互數(shù)據(jù),即大量的用戶與之交互。為克服該限制,研究人員通過使用用戶模擬器來訓(xùn)練檢索引擎。

交互式檢索可看作用戶與檢索引擎一個或多個回合的交互過程[7]。通常設(shè)計為一個馬爾科夫決策過程(Markov Decision Process,MDP),通過隨機優(yōu)化的方法學(xué)習(xí)檢索策略。訓(xùn)練檢索引擎可分為兩種,即在線訓(xùn)練和離線訓(xùn)練。目前多數(shù)模型基于數(shù)據(jù)進(jìn)行離線監(jiān)督訓(xùn)練,而在線學(xué)習(xí)過程則利用強化學(xué)習(xí)算法通過構(gòu)建用戶模擬器[8],模擬真實用戶與檢索引擎進(jìn)行交互,有效地解決了檢索引擎在線使用存在冷啟動問題。

用戶模擬器構(gòu)建存在以下困難:首先,不同類型用戶有不同的習(xí)慣及特征;其次,個性化行為數(shù)據(jù)通常是有限的。針對用戶模擬器的構(gòu)建方法,重點分析了基于模型的用戶模擬器,首先能夠引導(dǎo)用戶識別目標(biāo)需求,幫助用戶完成檢索任務(wù),其次在檢索交互過程中挖掘用戶的檢索習(xí)慣,使其滿足個性化特征以便通過強化學(xué)習(xí)訓(xùn)練高質(zhì)量的個性化檢索引擎。

2 用戶模擬器

在傳統(tǒng)的人機對話系統(tǒng)中,對真實用戶交互的數(shù)據(jù)采集極為困難,導(dǎo)致與對話系統(tǒng)交互的數(shù)據(jù)匱乏。用戶模擬器可以產(chǎn)生多條交互數(shù)據(jù),使對話代理可以挖掘最優(yōu)對話策略。在交互式檢索場景中,通過收集不同類型用戶的檢索行為數(shù)據(jù),訓(xùn)練出模擬不同類型用戶檢索行為的用戶模擬器。利用個性化用戶模擬器訓(xùn)練出的檢索引擎能夠適應(yīng)不同用戶類型的檢索行為,使檢索引擎達(dá)到適應(yīng)個性化檢索任務(wù)的能力。

近年來研究者對用戶模擬器進(jìn)行了大量的研究工作,包括基于概率模型的bi-gram 模型[9]、基于規(guī)則的方法[10-11],然而基于概率模型和基于規(guī)則方法構(gòu)建的用戶模擬器并不具有對用戶交互學(xué)習(xí)能力。隨后發(fā)展到基于深度學(xué)習(xí)的方法[12-13],構(gòu)建出的用戶模擬器能夠?qū)W習(xí)到單類型的用戶特征,很大程度上提升了用戶模擬器性能,使得對話代理訓(xùn)練更高效。

交互式檢索方式能方便采集到細(xì)粒度的用戶行為數(shù)據(jù),使得訓(xùn)練出的用戶模擬器能夠模擬出不同類型的個性化數(shù)據(jù),利用強化學(xué)習(xí)方法,將個性化用戶模擬器模擬為環(huán)境,使檢索引擎具有適應(yīng)個性化行為的能力。

用戶模擬器包含以下三部分:

第一,檢索目標(biāo):當(dāng)用戶模擬器與檢索引擎交互時,首先用戶模擬器生成一個檢索引擎未知的檢索目標(biāo),通過多輪交互,檢索引擎幫助用戶模擬器完成檢索任務(wù)。

第二,用戶模型[14]:該部分為用戶模擬器中最重要的組成部分,當(dāng)每輪交互完成時檢索引擎反饋給用戶模擬器一個檢索結(jié)果,用戶模型根據(jù)此結(jié)果更新下一輪對話的狀態(tài)信息并給出相應(yīng)的策略[15]。

第三,行為輸出模塊:該模塊的輸入為用戶動作指針,輸出為特定任務(wù)的輸出,如點擊、終止、繼續(xù)等任務(wù),從而使用戶模擬器具有交互式、多任務(wù)輸出的能力。

在交互式檢索過程中,用戶模型根據(jù)檢索結(jié)果更新用戶狀態(tài)并選擇適當(dāng)?shù)男袨椴呗裕賹⑿袨椴呗暂斎氲叫袨檩敵鰧又校瑢⒔Y(jié)果返回到檢索系統(tǒng)中。如此反復(fù),直到檢索結(jié)束。圖1 表示用戶模擬器與檢索引擎的交互過程。為方便起見,省略了檢索引擎中的內(nèi)部結(jié)構(gòu),其中用戶模型將在第3章詳細(xì)介紹。

圖1 用戶模擬器與檢索引擎的交互過程

3 相關(guān)工作

如何高效地評估用戶模擬器,至今沒有度量標(biāo)準(zhǔn)[16],導(dǎo)致沒有構(gòu)建用戶模擬器的標(biāo)準(zhǔn)方法。這里將構(gòu)建用戶模擬器的方法大致分為兩類,即基于規(guī)則的方法和基于模型的方法。

3.1 基于規(guī)則的用戶模擬器

下面首先介紹基于議程的用戶模擬器。

基于議程[10-11](Agenda-based)的方法將用戶模擬器與對話代理交互的過程通過棧的結(jié)構(gòu)記錄下來,以入棧形式記錄歷史的對話動作,保證用戶模擬器在對話過程中行為的一致性。

在時刻t時,用戶在狀態(tài)s下執(zhí)行動作au,狀態(tài)過渡到s′,然后接收系統(tǒng)回復(fù)動作am,并轉(zhuǎn)換到下一個狀態(tài)s″,通過此形式可以形式化地表示狀態(tài)轉(zhuǎn)換和對話動作序列,后續(xù)每輪對話按照此流程循環(huán)下去。

由馬爾科夫假設(shè),用戶行為可分三種:(1)P(au|s),用戶動作選擇;(2)P(s′|au,s),用戶在狀態(tài)s下采取au后,用戶狀態(tài)轉(zhuǎn)移到s″的概率;(3)P(s″|am,s′),在狀態(tài)s′下接收到系統(tǒng)動作am后用戶狀態(tài)轉(zhuǎn)移到s″的概率。

Agenda的內(nèi)容A是圍繞著用戶目標(biāo)G所建立的,在對話過程中,當(dāng)前的對話狀態(tài)S包括A中的用戶動作和當(dāng)前輪的用戶目標(biāo)G,即S=(A,G)。

G可以保證A中發(fā)出的用戶動作一致性,并且是以G為導(dǎo)向的。G由約束條件C和詢問內(nèi)容R組成,即G=(C,R),類似于SQL語句,可抽象表示為:

A中存儲待執(zhí)行的用戶對話行為,在開始對話時,系統(tǒng)隨機生成用戶目標(biāo)G,將約束條件C轉(zhuǎn)換為告知行為(inform acts),詢問內(nèi)容R轉(zhuǎn)換為詢問行為(request acts),再將告知行為和詢問行為填充到A中,并在底部添加bye act來結(jié)束對話。在對話過程中A頂部會彈出本輪的用戶動作au。在用戶模擬器接收到系統(tǒng)回復(fù)am后,根據(jù)規(guī)則產(chǎn)生新的用戶動作將會壓入A的棧頂。如果棧頂?shù)挠脩魟幼鞯膬?yōu)先級小于當(dāng)前輪的用戶動作,將A棧頂?shù)挠脩魟幼骶彺嫫饋碓賵?zhí)行優(yōu)先級高的動作。圖2展示了用戶目標(biāo)和A變化示例[10]。

用戶動作模型定義為:

其中,δ為狄拉克函數(shù),A[N-n+1..N] 為A棧頂?shù)膖op-n的用戶動作序列acts。換種解釋方法為:如果au在top-n的動作序列acts中,如果P趨近于1,那個au動作將被選中發(fā)出。

狀態(tài)轉(zhuǎn)換模型定義為:

其中,A′為執(zhí)行動作au后的A,N′代表A′的大小。根據(jù)概率的鏈?zhǔn)椒▌t與條件獨立性假設(shè)可將公式改寫成:

基于議程的模擬器的優(yōu)點是可以冷啟動,用戶行為完全可控,缺點為需要通過專家手動構(gòu)建數(shù)據(jù),規(guī)則一般由人工編寫,工作量大,覆蓋度不夠,主觀性強,一致性難以保證,也不利于系統(tǒng)的擴充,適用于模板型的填槽式對話任務(wù)。

3.2 基于模型的用戶模擬器

3.2.1 基于統(tǒng)計模型的用戶模擬器

在不同領(lǐng)域的對話系統(tǒng)中,用戶模擬器最早是基于統(tǒng)計模型建模,文獻(xiàn)[9]利用一個簡單的bi-gram模型,對用戶模型進(jìn)行概率建模。在系統(tǒng)動作as基礎(chǔ)上預(yù)測下一輪用戶動作au,即p=(au|as)。因為該模型并沒有在整個對話歷史和用戶目標(biāo)之間進(jìn)行有效的建模,所以模擬出的用戶行為隨機性很大。其主要原因有兩個:(1)該模型只能看到最后一個系統(tǒng)動作;(2)如果用戶改變目標(biāo),該模型可能會出現(xiàn)偏差的行為,因為預(yù)測下一個用戶動作as時,并沒有考慮用戶目標(biāo)。為解決第一個問題,文獻(xiàn)[17-18]通過研究對話歷史,再預(yù)測下一個用戶動作au,使用戶動作的生成有了一定的約束性;第二個問題可通過整合用戶目標(biāo)為用戶狀態(tài)進(jìn)行建模[19]。

文獻(xiàn)[20]在用戶模型的序列建模上利用隱馬爾科夫模型來推斷每一輪的用戶動作,使用戶行為更接近真實用戶行為,從而減少了用戶行為的隨機性。文獻(xiàn)[21]通過觀察用戶操作保持對對話狀態(tài)的信任,并受到Williams 等人[22]的啟發(fā),使用動態(tài)貝葉斯網(wǎng)絡(luò)并加入獨立性假設(shè)得到概率模型的網(wǎng)絡(luò)結(jié)構(gòu),如圖3 所示[21],g、st、ut、ht、ot分別是用戶目標(biāo)、系統(tǒng)動作、用戶動作、對話歷史記錄和每個時間片用戶觀測動作。通過迭代算法優(yōu)化模型參數(shù)。

圖2 用戶目標(biāo)和Agenda變化示例

圖3 概率模型的用戶模型

3.2.2 序列到序列的用戶模擬器

上文提出的概率模型,并沒有考慮對話歷史的情況,并且需要特定模板保證用戶行為一致性,應(yīng)用場景單一,對話效率低下。Layla等人[12]基于此,提出序列到序列的用戶模型[23]。將對話的上下文序列(c1,c2,ck)作為輸入,輸出為用戶動作序列(a1,a2,ak),如圖4所示[12]。

圖4 用戶模擬器的序列到序列模型

根據(jù)于基于議程的方法[24],每輪中的對話目標(biāo)G包括約束條件C和詢問內(nèi)容R。在t輪對話時,上下文ct包含如下:(1)上一輪系統(tǒng)動作am,t;(2)上一輪系統(tǒng)回復(fù)內(nèi)容與目標(biāo)不一致的信息inconsistt;(3)約束狀態(tài)(是否告知)constt;(4)問詢內(nèi)容狀態(tài)(是否告知)reqt。

根據(jù)系統(tǒng)的行為序列將上下文ct經(jīng)過one-hot編碼再經(jīng)過encoder LSTM(Long Short Term Memory)[25-26]網(wǎng)絡(luò)得到對話歷史的內(nèi)部表示,再經(jīng)過decoder LSTM網(wǎng)絡(luò)處理得到對話行為序列,例如(inform,request),再將對話行為映射到inform,request 等操作,其作用是根據(jù)用戶意圖生成對話動作。這種方法將用戶轉(zhuǎn)到代理的對話看作為源到目標(biāo)的序列生成問題,因此解決了用戶模擬器長期歷史對話不足的問題,不需要人工編寫規(guī)則,具有一定的學(xué)習(xí)能力。缺點為需要人工對數(shù)據(jù)添加語義標(biāo)簽。

3.2.3 多模型構(gòu)建用戶模擬器

面向任務(wù)的對話系統(tǒng)利用自然語言實現(xiàn)人機交互是十分重要的手段。為提高任務(wù)型對話系統(tǒng)效率,Liu等人[27]提出利用模擬代理與用戶模擬器之間的對話,通過多次迭代共同優(yōu)化它們的對話策略。對話代理和用戶模擬器分別采用端到端的神經(jīng)網(wǎng)絡(luò)模型[28]。

圖5表示了用戶模擬器的設(shè)計,該模型的用戶目標(biāo)由可查詢和可請求的時序列表定義[29],把LSTM網(wǎng)絡(luò)的隱藏層作為用戶狀態(tài)轉(zhuǎn)移網(wǎng)絡(luò),將前饋神經(jīng)網(wǎng)絡(luò)作為用戶模擬器的決策網(wǎng)絡(luò)。在k輪對話時,將用戶目標(biāo)編碼上一輪的用戶語句編碼,當(dāng)前輪的系統(tǒng)語句編碼作為輸入。用戶狀態(tài)通過LSTM隱層節(jié)點編碼,將新的用戶狀態(tài)輸入到?jīng)Q策網(wǎng)絡(luò),得到用戶即將采取的動作和各個槽位參數(shù)信息。自然語言生成(Natural Language Generation,NLG)模塊部分通過模板直接生成。

圖5 用戶模擬器網(wǎng)絡(luò)結(jié)構(gòu)

對話代理結(jié)構(gòu)如圖6所示,該結(jié)構(gòu)同樣采用端到端的LSTM 模型[27]。它的輸入為上一輪的系統(tǒng)語句編碼上一輪的用戶語句編碼以及數(shù)據(jù)庫查詢結(jié)果編碼,代理狀態(tài)也是通過LSTM隱藏層將狀態(tài)更新為,并將新的狀態(tài)輸入到?jīng)Q策網(wǎng)絡(luò)(前饋神經(jīng)網(wǎng)絡(luò)),得到代理即將采取的動作,各個槽位的分布狀態(tài),以及one-hot 編碼的查詢指針。自然語言生成模塊部分也是通過模板直接生成。

Liu等人[27]在模擬器和對話代理上采用聯(lián)合優(yōu)化的方法,使用同一個回報函數(shù):

通過用戶模擬器和代理交替優(yōu)化將回報函數(shù)Rk最大化。用戶模擬器和代理使用同一個目標(biāo)函數(shù):

圖6 對話代理網(wǎng)絡(luò)結(jié)構(gòu)

通過多次迭代優(yōu)化參數(shù)θa、θu,使目標(biāo)函數(shù)最大化,其中γ為折扣因子,取值在0~1之間。用戶模擬器和代理的梯度可通過偏導(dǎo)的方式求出,用戶模擬器和代理的梯度公式如下,其中π代表決策函數(shù)。

多模型構(gòu)建模擬器的方法優(yōu)點是在特定任務(wù)中通過聯(lián)合優(yōu)化策略使累積回報最大化,訓(xùn)練的用戶模擬器效果明顯;能夠模擬多類型的用戶,使對話代理達(dá)到個性化特征。然而由于槽位的設(shè)定,使得該方法在擴展性上相對較弱,從而很難適應(yīng)其他任務(wù)。

3.2.4 協(xié)同過濾的用戶模擬器

在相對較大的文本語料庫中[30],根據(jù)相似的用戶在相似語境的情況下預(yù)測用戶的下一個話語作為用戶模擬器的回復(fù),換言之,將用戶模擬問題轉(zhuǎn)換為用戶與用戶相似度問題[31],因此必須要處理對話序列。由于用戶的操作空間較為豐富,Didericksen等人[32]考慮代理的動作空間并利用比較保守的低熵語句。協(xié)同過濾方法如圖7所示[32]。

圖7 協(xié)同過濾方法概述

該方法主要包括兩個階段:(1)將代理標(biāo)簽從規(guī)模較小的注釋集傳播到整個語料庫。(2)在語料庫中查找與正在進(jìn)行的對話最相似的對話框,并將作為下一個用戶模擬器的返回語句。在對話時,系統(tǒng)語句生成一個語義標(biāo)簽,并將標(biāo)簽存入語料庫中。每輪用戶模擬器回復(fù)時,通過在語料庫中查找出與當(dāng)前對話的語義序列相似度較高的數(shù)據(jù)作為候選集。再將最后一次的系統(tǒng)話語與候選集中最后一個系統(tǒng)話語,利用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)[33]進(jìn)行排序,從而返回最佳的用戶語句,具體算法如下所示[32]。

算法1 用戶模型的協(xié)同過濾算法

基于協(xié)同過濾的用戶模擬器能夠保證對話動作的一致性,可擴展性強。缺點在于該方法依賴于高質(zhì)量語料庫,在語料庫相對不足的情況下,用戶模擬器話語的可行率有待提高。

3.2.5 基于RNN的神經(jīng)用戶模擬器

雖然序列到序列模型對整個對話歷史進(jìn)行了跟蹤處理,但仍然沒有對用戶目標(biāo)改變進(jìn)行建模。基于此,Kreyssig 等人[34]提出從語料庫中學(xué)習(xí)行為的用戶模擬器,該方法的主要組成部分包括一個特征提取器和基于神經(jīng)網(wǎng)絡(luò)的序列到序列模型。圖8 表示用戶模擬器結(jié)構(gòu)[34]。將系統(tǒng)的輸出輸入到特征提取器中,將生成的特征向量追加到特征歷史記錄中,再將特征歷史記錄輸入到序列到序列模型生成用戶語句。在對話開始時,目標(biāo)生成器生成一個目標(biāo),在對話過程中目標(biāo)有可能隨之改變。

圖8 用戶模擬器的神經(jīng)網(wǎng)絡(luò)模型

在t輪對話中,特征提取器提出的特征向量Vt=[at,rt,it,ct] 由四個向量組成:at為系統(tǒng)動作向量,且表示一個長度為所有可能的系統(tǒng)動作的二進(jìn)制向量。是一個長度為可告知槽(informable slots)總個數(shù)4倍的二進(jìn)制向量,用來表示本輪系統(tǒng)動作是否出現(xiàn)了 request、select、inform 和 expl-conf 這四個以可告知槽為參數(shù)的動作。rt表示一個長度為可請求槽數(shù)量的二進(jìn)制表示。it為不一致向量,長度為可告知槽的數(shù)量,表示系統(tǒng)動作和用戶目標(biāo)的不一致性。ct為用戶目標(biāo)約束向量,長度為可告知槽的數(shù)量,表示用戶目標(biāo)中出現(xiàn)哪些可告知的槽位信息。

Kreyssig 等人[34]使用交叉模型作為評估方法[35],即通過基于語料庫的用戶模擬器訓(xùn)練一個Agent,和基于規(guī)則的用戶模擬器訓(xùn)練一個Agent。再用其他用戶模擬器或真實用戶測試Agent,實驗結(jié)果表明,基于語料庫的用戶模擬器訓(xùn)練的Agent,在基于規(guī)則的用戶模擬器和真實用戶上測試得到的成功率較優(yōu),而在基于規(guī)則的環(huán)境上訓(xùn)練得到的Agent 效果只在基于規(guī)則的環(huán)境上的成功率較優(yōu)。

3.2.6 多任務(wù)輸出的用戶模擬器

從基于規(guī)則到基于模型的方法,雖然在多輪交互過程中,都對用戶目標(biāo)進(jìn)行建模,保持了目標(biāo)的一致性,但對于不同領(lǐng)域、個性化特征用戶,即不同的用戶畫像,并未達(dá)到通過訓(xùn)練使Agent 達(dá)到適應(yīng)多類型用戶的個性化特征。Liu 等人[7]提出利用用戶的個性化用戶資料建立個性化的用戶模擬器,并采用基于模型的方法對用戶模擬器進(jìn)行訓(xùn)練,使用戶模擬器在電商領(lǐng)域中有效地利用個性化數(shù)據(jù)。

該研究團隊[7]將用戶模擬器的每一輪交互設(shè)置為三個子任務(wù):點擊(click)、終止(terminate)和轉(zhuǎn)移(transition)。多任務(wù)模型的用戶模擬器如圖9 所示[7],點擊任務(wù)用來預(yù)測一個顯示的標(biāo)簽是否會被用戶點擊。根據(jù)預(yù)測的結(jié)果,將即時獎勵返還給代理;終止任務(wù)決定終止或繼續(xù)當(dāng)前搜索會話;轉(zhuǎn)換任務(wù)用于每輪交互時,當(dāng)前對話狀態(tài)的轉(zhuǎn)換。

在t輪交互時,將狀態(tài)st和代理的動作at作為輸入,狀態(tài)st包括用戶的特征向量u、查詢的單詞序列qt,即s=(u,qt);代理動作at中包括顯示給用戶的K個標(biāo)簽序列(t1,t2,…,tK)。其中u為三個one-hot 向量的級聯(lián),其作用在于模擬個性化用戶特征。考慮到查詢q和代理動作a順序信息很重要,利用兩個雙向LSTM提取標(biāo)簽之間的順序信息。

圖9 多任務(wù)模型的用戶模擬器

利用共享層將用戶u、查詢qt和動作at編碼為hs,u、hs,q和hs,a。每個子任務(wù)的特定層是以LeakyReLU 為激活函數(shù)的兩個全連接層。將作為相應(yīng)子任務(wù)的輸入,輸出任務(wù)結(jié)果。由于三個子任務(wù)都是分類問題,使用交叉熵作為這三個子任務(wù)的損失函數(shù)。模擬器的全損函數(shù):

該研究團隊[7]受到Serban 等人[36]啟發(fā),不是直接估計完全轉(zhuǎn)換概率p(s′|s,a),而是將狀態(tài)轉(zhuǎn)換概率近似為:

其中,u是當(dāng)前會話中與代理交互的用戶,Z是滿足|Z|?|Q|條件的離散抽象查詢空間。轉(zhuǎn)換如圖10 所示[7]。在給定用戶u的情況下,以抽象查詢?yōu)闂l件,以概率對狀態(tài)st=(u,qt)進(jìn)行采樣,然后代理根據(jù)其策略π執(zhí)行動作at=A(st),并從環(huán)境中接收即時獎勵rt。然后根據(jù)查詢qt和動作at,下一個抽象查詢zt+1的概率采樣。

圖10 帶有抽象查詢的狀態(tài)轉(zhuǎn)換

4 用戶模擬器評價方法

4.1 基于深度學(xué)習(xí)的評價方法

文獻(xiàn)[16]認(rèn)為一個好的用戶模擬器應(yīng)該具備如下要求:

(1)用戶模擬器具備一定泛化能力;

(2)評價方式不受任務(wù)限制;

(3)評價指標(biāo)不需要任何外部人工干預(yù),應(yīng)客觀計算得出。

準(zhǔn)確率和召回率是機器學(xué)習(xí)中常用的度量指標(biāo)[37],用于衡量預(yù)測模型的預(yù)測能力。因此在單輪級別對話時,用戶模擬器可被定義為下一個檢索行為的預(yù)測器[38]。準(zhǔn)確率、召回率和F1 值[39]定義如下:

準(zhǔn)確率、召回率和F1 值在評估用戶模擬器時,其泛化能力較弱,如果用戶模擬器做出的動作未出現(xiàn)在對話數(shù)據(jù)中,會導(dǎo)致度量值的得分低。因此Pietquin 等人[37]提出計算用戶模擬器預(yù)測用戶動作概率分布P與真實用戶的概率分布Q之間的KL[40]散度,通過概率模型衡量用戶模擬器的合理性,可定義為:

在多輪級別對話系統(tǒng)中常用的度量指標(biāo)是任務(wù)完成率和平均對話輪數(shù),即通過用戶模擬器與對話系統(tǒng)進(jìn)行真實交互,計算系統(tǒng)任務(wù)的完成率和平均對話輪數(shù)。

4.2 基于強化學(xué)習(xí)的評價方法

在交互式檢索場景下,使用強化學(xué)習(xí)方法訓(xùn)練時,用戶模擬器可比作環(huán)境一方,檢索引擎可看作為代理,檢索引擎和用戶模擬器交互時,代理不斷更新學(xué)習(xí)對話策略,并接收來自環(huán)境的獎賞,因此可將如下兩個度量作為用戶模擬器的評價指標(biāo):檢索引擎的累積回報,累積回報越大,用戶模擬器效果越好;每次檢索的平均交互輪數(shù),交互輪數(shù)越小,用戶模擬器效果越好。

5 總結(jié)與展望

本文主要對構(gòu)建用戶模擬器中常用的模型和方法進(jìn)行介紹,如預(yù)訂餐館、訂電影票等槽填充(slot-filling)任務(wù)中,由于有限的對話空間和對話動作,基于規(guī)則的方法在實際應(yīng)用中變得簡單、快捷。然而該方法的應(yīng)用場景比較單一,魯棒性低。在高質(zhì)量數(shù)據(jù)中,深度學(xué)習(xí)模型的效果普遍優(yōu)于基于規(guī)則的方法。

大量近期研究進(jìn)展表明,交互式檢索系統(tǒng)在支持用戶完成檢索任務(wù)方面還有很大的提升空間,因此交互式檢索的用戶模擬器需要構(gòu)建更加合理的模型,協(xié)助用戶完成信息檢索任務(wù)。以面向?qū)W位論文檢索為例,相比傳統(tǒng)的用戶模擬器,交互式檢索的用戶模擬器訓(xùn)練的檢索引擎存在以下優(yōu)勢:

(1)利用交互式檢索的用戶模擬器訓(xùn)練的檢索系統(tǒng),在每輪交互過程中,都會向用戶推薦出一組檢索結(jié)果和相應(yīng)的檢索標(biāo)簽,通過標(biāo)簽的點擊事件,使得用戶獲取有效的檢索信息,極大地提高用戶檢索信息的效率。

(2)利用檢索引擎反饋的結(jié)果及對應(yīng)的標(biāo)簽,幫助用戶更好地掌握信息發(fā)現(xiàn)的過程。

(3)可對檢索用戶的人群、檢索偏好進(jìn)行個性化建模。通過記錄用戶點擊系統(tǒng)反饋的檢索標(biāo)簽,挖掘該類用戶正確的檢索習(xí)慣,從而達(dá)到個性化特征。

交互式檢索的用戶模擬器在學(xué)位論文檢索任務(wù)中發(fā)揮著重要作用,一個好的用戶模擬器不僅能夠在用戶目標(biāo)確定的情況下生成連貫的用戶動作,而且能夠體現(xiàn)用戶個性化、多樣性和泛化能力。基于此,后續(xù)工作將針對面向交互式檢索學(xué)位論文檢索任務(wù),對用戶模擬器進(jìn)行構(gòu)建。本文還有許多新的問題需要解決,需要在實際應(yīng)用中積累和完善,在以下方面還需要進(jìn)一步研究:

(1)在語料庫中未出現(xiàn)的檢索動作,用戶模擬器泛化能力依舊較弱,如何探索更大的動作空間,使用戶模擬器具有更大的泛化能力。

(2)為了適應(yīng)不同專業(yè)、年級、性別等個性化用戶,如何將用戶群體畫像特征融入檢索系統(tǒng),使交互式檢索的用戶模擬器具有更多樣化、個性化的檢索行為。

(3)在學(xué)位論文檢索中,由于個性化檢索數(shù)據(jù)限制,考慮運用遷移學(xué)習(xí)方法,將個性化用戶模型拆解為共性特征、異性特征兩個模塊進(jìn)行分步訓(xùn)練,以解決個性化數(shù)據(jù)匱乏問題。

(4)在多輪交互過程中,如何保證用戶行為的一致性、合理性,避免出現(xiàn)偏差的用戶動作。

(5)在系統(tǒng)運營角度,如何通過用戶模擬器訓(xùn)練的檢索引擎,對個性化用戶進(jìn)行相關(guān)論文推薦,以增加真實用戶使用率。

猜你喜歡
引擎動作用戶
動作描寫要具體
藍(lán)谷: “涉藍(lán)”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
畫動作
動作描寫不可少
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
非同一般的吃飯動作
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發(fā)
主站蜘蛛池模板: 亚洲高清在线播放| 亚洲综合18p| 国产成人精品无码一区二| 日韩国产亚洲一区二区在线观看| 国产高清又黄又嫩的免费视频网站| 亚洲第一在线播放| 伊人久久精品无码麻豆精品| 久久久久久尹人网香蕉 | 成年A级毛片| 香蕉久久国产超碰青草| 午夜高清国产拍精品| 亚洲成a人片7777| 欧美亚洲欧美| 伊人久久大香线蕉影院| 亚洲一区波多野结衣二区三区| 国产成人精品一区二区| 国产精品久久久久婷婷五月| 婷婷五月在线视频| 国产主播在线一区| 久久综合伊人 六十路| 日韩亚洲高清一区二区| 超清无码一区二区三区| 成人福利在线视频| 国产人成乱码视频免费观看| 久精品色妇丰满人妻| 中文字幕永久在线看| 在线欧美日韩| 国产麻豆精品久久一二三| 毛片网站在线看| 精品精品国产高清A毛片| 亚洲美女AV免费一区| 素人激情视频福利| 国产99精品久久| 91精品网站| 在线观看亚洲国产| 欧美伦理一区| 免费看黄片一区二区三区| 毛片在线区| 国产国拍精品视频免费看 | 欧美成人A视频| 亚洲永久精品ww47国产| 午夜三级在线| 欧美精品亚洲日韩a| 国产丝袜第一页| 中国黄色一级视频| 国产在线91在线电影| 极品国产一区二区三区| av尤物免费在线观看| 亚洲综合色区在线播放2019| 日韩成人午夜| 全部无卡免费的毛片在线看| 久草美女视频| 香蕉久久国产超碰青草| 久久人与动人物A级毛片| 久久激情影院| 久久久亚洲色| 欧美色图第一页| 亚洲精品在线91| 岛国精品一区免费视频在线观看| 国产中文在线亚洲精品官网| 五月激情婷婷综合| 国产中文一区a级毛片视频 | 国产一区二区三区在线精品专区| 伊人天堂网| 国产第二十一页| 国产屁屁影院| 欧美精品成人一区二区视频一| 91在线播放免费不卡无毒| 久久这里只有精品23| 无码有码中文字幕| 欧美色综合网站| 日韩小视频网站hq| 亚洲人成影院在线观看| 五月天久久婷婷| 在线精品亚洲国产| 亚洲欧美日韩成人高清在线一区| 日本欧美成人免费| 亚洲国产精品一区二区第一页免| 欧美不卡视频一区发布| m男亚洲一区中文字幕| 国产亚洲精品91| 高清无码一本到东京热|