999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

限定領域口語對話系統中超出領域話語的協處理方法

2015-04-21 10:41:29王俊東黃沛杰林仙茂徐禹洪李凱茵
中文信息學報 2015年5期
關鍵詞:分類用戶信息

王俊東,黃沛杰,林仙茂,徐禹洪,李凱茵

(華南農業大學 數學與信息學院,廣東 廣州 510642)

?

限定領域口語對話系統中超出領域話語的協處理方法

王俊東,黃沛杰,林仙茂,徐禹洪,李凱茵

(華南農業大學 數學與信息學院,廣東 廣州 510642)

領域外話語的開放性、口語化以及表達多樣性,使得現有的限定領域口語對話系統不能很好地處理超出領域話語。該文提出了一種限定領域口語對話系統協處理方案,基于人工智能標記語言AIML,設計一套理解開放語義用戶話語的理解模板,并對未匹配話語基于話語相似度進行理解模板分類,進而采用擴展有限狀態自動機處理模式,結合對話流程上下文的狀態及信息,實現理解模板到應答模板的轉換,改變了單純模板匹配方法在對話流程控制方面的相對缺失。中文手機導購領域的測試表明,該文所提出的協處理方法能有效地輔助口語對話系統完成限定領域完整對話流程,得到更好的用戶滿意度。

超出領域話語;協處理;AIML;有限狀態自動機;口語對話系統

1 引言

口語對話系統(spoken dialogue system)指的是通過自然語言和人交流的計算機系統,主要研究如何能讓計算機理解并生成人們日常所使用的語言,對人向計算機提出的問題,通過對話的方式,用自然語言進行回答。研究對話系統的目的是讓人同計算機的交流更方便,讓計算機具有類似人類的思維從而幫助人們完成更多的工作,從這個角度看,能勝任某一專業領域工作的面向任務(task-oriented)的限定領域(restricted domain)對話系統[1-8],比開放領域(open domain),如面向聊天(chat-oriented)的對話系統[9-10]更有研究意義和應用價值[11]。然而,當使用自然語言對話時,即使用戶了解某對話系統的限定領域,例如: 醫療信息咨詢、導航或者導購,用戶在對話流程中仍然不可避免會使用一些超出領域(out-of-domain,OOD)話語(utterance),如問候、個人問題、表態等。事實上,OOD話語的現象很常見,如AT&T的“How may I help you”系統[2],以及BTaxeCT和Lucent Bell合作開發的“OASIS call-steering”系統[5],大約有20%的用戶問題是OOD的。盡管這些限定領域對話系統從完成任務角度上看只需要專注于自己預定義的業務功能,但是,如果能較為妥善地處理好OOD話語,而不僅僅是提示用戶話語超出領域,將會有效地提高用戶體驗[12]。

目前已有的限定領域對話系統,如導航系統[4, 8]、導游系統[7]和信息查詢系統[1-3, 5-6]等,基于語義和語法相結合的技術,并結合近年來逐漸成為熱點的意圖追蹤[13]和對話管理[14-16],能有效地理解和處理領域內語義的話語。然而,面對OOD話語的開放性、口語化以及表達多樣性,現有的限定領域口語對話系統在處理OOD話語時仍然存在一定困難。不少研究人員開始進行關于限定領域對話系統OOD話語問題的研究,例如,Lane等人[17]開發的機器輔助對話系統和Tür等人[18]開發的虛擬個人助理系統使用基于SVM(support vector machine)主題分類方法計算源話語在領域內各子領域的分類置信度,再使用置信度向量訓練一個線性判斷模型,并檢測源話語是否超出領域,若超出領域,系統可以提示用戶當前系統無法處理該任務并引導用戶回到領域可處理范圍。Celikyitmaz等人[19]也提出了使用LDA(latent dirichlet allocation)主題模型對多領域問題做主題聚類并檢測OOD情況。Reichel等人研究的汽車導航領域口語對話系統[8],將在多領域內切換過程中出現錯誤且不能被任何子領域接受的話語歸為OOD情況,并返回給用戶做領域選擇。但這些工作主要集中在OOD話語的檢測識別,并根據檢測結果簡單響應用戶,而缺少對OOD話語的有效處理方法。

面向聊天的開放領域對話系統,如國外的ELIZA[20]、PARRY[21]和ALICE[9, 22],國內的清華大學圖書館的“小圖”[23]、機器人小I[24]等,由于設計初衷就是開放領域,在覆蓋多領域的語料庫的支持下,一定程度上滿足了話語開放性、口語化和表達多樣性的要求。這些系統可以與用戶進行基于自然語言話語的交互,并已被廣泛應用到機器助理比如反恐支持平臺[25]、計算機輔助英語學習[26]和健康咨詢[27]等。然而,這些面向聊天的對話系統幾乎都是基于完全精確匹配或者很弱的模糊匹配的模板來搜索回答[28],并沒有真正地“理解”用戶的問題,并且難于掌控對話流程的系統狀態和信息。這類對話系統不能單獨應用到復雜任務的限定領域對話。此外,語料庫的構建是此類系統的瓶頸,盡管有一些關于語料庫自動建設[12, 29]、超出詞匯處理[10]等的研究,如Banchs[29]和Ameixa等人[12]分別采用電影劇本和電影字幕來構建語料庫,但其話語覆蓋程度仍然遠遠不足以應用于限定領域對話系統中OOD話語的處理。此外,單純模板匹配方法由于對話上下文及對話狀態方面的缺失,難以真正提高OOD話語回答的針對性。

本文提出一種限定領域口語對話系統中處理OOD話語的協處理方案,主要貢獻包括:

(1) 根據基于模板匹配方法適合開放語義、口語化話語以及表達多樣性的特點,基于人工智能標記語言AIML(artificial intelligence markup language)[30],設計一套用于理解OOD話語的理解模板,并采用基于話語相似度的分類方法,將未匹配話語分類到相應的理解模板,從某種程度上解決了語料庫一次性完備構建的困難。

(2) 采用擴展有限狀態自動機(extended finite-state machine,EFSM)處理模式,結合對話上下文信息及對話狀態,實現理解模板到應答模板的轉換,并給出不同應答模板相應的處理程序,改變了單純模板匹配方法在對話流程控制方面的相對缺失。

本文的方案被應用到我們開發的手機導購對話系統[31],應用測試結果表明,能有效地輔助系統完成限定領域對話流程,得到更好的用戶滿意度。本文后續部分安排如下:第二節簡要介紹協處理方案的系統框架及處理流程;第三節詳細介紹了協處理方案;第四節給出了測試驗證結果;最后,第五節總結了本文的工作并做了簡要的展望。

2 系統框架

圖1是我們開發的限定領域口語對話系統的系統框架,目前應用于手機導購領域,加粗部分是本文提出的協處理方案。

在這個框架里,“主處理器”基于自然語言處理技術,完成攜帶領域語義信息的話語的處理。語義提取、語法分析等技術被應用于口語語言理解。活躍信息表象征著對話系統的“記憶”,目前保持了三種活躍信息,包括商品屬性值、對話的上下文以及已推薦商品列表。其中,商品屬性值是一般對話系統具有的對話語義框(dialogue frame)[32-33]中的槽信息(slot)。

而“協處理器”,顧名思義,就是主處理器的協處理機制,并不單獨完成導購服務,僅在主處理器中的OOD話語檢測模塊識別不到有效領域語義信息時接收主處理器傳來的用戶輸入話語,并協助完成該對話步驟。協處理方案包括一套有三個模塊的協處理機制和三個信息庫,其中,AIML語料庫支持對OOD話語到理解模板的映射,模板類別語料庫支持未匹配話語的理解模板分類,EFSM支持模式轉換。基于AIML和EFSM的協處理流程是:首先加載AIML語料庫到內存并初始化需要的數據,用戶話語進入話語理解模塊后匹配上AIML中的理解模板或者在未匹配時通過模板分類算法得到理解模板;接著通過模式轉換模塊,完成系統模式的轉換和理解模板到應答模板的映射,轉移條件中的上下文信息來自活躍信息表;最后是對應答模板進行分類處理,得到相應的應答并返回主處理。

圖1 限定領域口語對話系統的系統框架

3 AIML和EFSM相結合的協處理方案

3.1 基于AIML的話語理解模板

AIML[30]是經典聊天機器人ALICE[9, 22]所采用的一種XML的人工智能標記語言,定義了一整套具有特定含義的標簽。由包含和標簽對的知識單元構成,前者表示用戶輸入需要進行匹配的模板,后者代表匹配成功后用于回答的模板。AIML除了能夠處理精確匹配,還能夠處理模糊匹配以及優先匹配。

通過對AIML語料庫的回答模板(