教育領(lǐng)域多輪對話機器人的算法設(shè)計與實現(xiàn)

2021-04-06 04:04:19閆曉宇彭蘇婷

軟件工程 2021年2期

關(guān)鍵詞：教育

閆曉宇彭蘇婷

摘? 要：隨著自然語言處理技術(shù)的發(fā)展，對話機器人以節(jié)省人工和易于嵌入等特點受到業(yè)界青睞。為了滿足在線教育的需求，本文提出的教育領(lǐng)域多輪對話機器人具備和用戶針對知識點進行深入對話的能力。本文介紹了此對話機器人的實現(xiàn)全流程：采取用戶模擬器生成教育領(lǐng)域語料，使用意圖識別和槽位填充實現(xiàn)自然語言理解，通過對話狀態(tài)追蹤和對話策略設(shè)計多輪對話邏輯。這為學(xué)生提供了答疑解惑的新渠道，為線上教育的智能創(chuàng)新帶來更多選擇。

關(guān)鍵詞：教育;對話機器人;多輪對話

Abstract： With the development of Natural Language Processing （NLP） technology， chatbots are favored for their advantages of labor saving and easy embedding. In order to meet the needs of online education， this paper proposes to design multi-turn chatbots with ability to conduct in-depth dialogue with users on knowledge points in the field of education. This paper introduces a lifecycle of realizing multi-turn chatbot： adopting user simulator to generate educational corpus， using intention recognition and slot filling to realize natural language understanding， and designing multi-turn dialogue logic through dialogue state tracking and dialogue policy. This chatbot provides students with a new way to solve their puzzles and brings more choices for intelligent innovation in online education.

Keywords： education; chatbot; multi-turn dialogue

1? ?引言（Introduction）

在傳統(tǒng)的教育模式中，學(xué)生會遇到層出不窮的學(xué)習(xí)難點，理想的情況是他們可以得到及時準確的幫助，但需要教師投入大量的時間與精力。教師在講授某門課程時需要解答的問題是有限的，這意味著他們的工作存在很大重復(fù)性。幸運的是隨著互聯(lián)網(wǎng)教育的興起，人工智能技術(shù)已經(jīng)滲透教育行業(yè)的多個領(lǐng)域。目前，市場急需具備線上教學(xué)能力的產(chǎn)品來填補空白，既可以隨時為學(xué)生答疑解惑，又可以節(jié)省教師勞動力的對話機器人不失為一個好的選擇。

現(xiàn)今已上線的對話機器人有很多，從功能上大致可以分為兩類：非任務(wù)導(dǎo)向型對話機器人和任務(wù)導(dǎo)向型對話機器人。非任務(wù)導(dǎo)向型機器人以小冰為代表，旨在和用戶在開放域，即開放的話題空間中閑聊互動。任務(wù)導(dǎo)向型機器人以小度為例，旨在和用戶在封閉域，即有限的話題空間中完成特定任務(wù)，比如播放歌曲、查詢天氣等。任務(wù)導(dǎo)向型機器人多出現(xiàn)在生活領(lǐng)域，通過語音、文字等方式控制家居產(chǎn)品等，給用戶帶來智慧生活的體驗。但令人遺憾的是，這類機器人卻極少出現(xiàn)在教育領(lǐng)域。

雖然一些平臺和軟件也嵌入了簡單的對話機器人，但其任務(wù)設(shè)定較為簡單，大多只能完成單輪對話，即其僅能對用戶發(fā)出的最后一句話做出回應(yīng)。此類對話機器人只具備問答功能而非對話功能，這顯然是不夠智能的。

本文提出的對話機器人具有多輪對話功能，它可以根據(jù)用戶對話歷史和當(dāng)前的對話信息與用戶產(chǎn)生互動。另外，此對話機器人服務(wù)于教育領(lǐng)域，是一個可以在教育領(lǐng)域完成多輪對話的機器人，可以和用戶深入探討關(guān)于知識點的各種問題。它可以實時回答學(xué)生的問題，為學(xué)生減輕負擔(dān)，同時避免教師的重復(fù)勞動，更可以為學(xué)校和其他教育機構(gòu)提供新鮮的學(xué)習(xí)方法，帶來新的學(xué)習(xí)選擇。

實現(xiàn)這一機器人的技術(shù)挑戰(zhàn)主要有三個：一是缺乏語料庫，獲得符合預(yù)期的教育領(lǐng)域語料庫是很困難的;二是設(shè)計合理清晰的多輪對話邏輯;三是大體量預(yù)訓(xùn)練語言模型的工業(yè)部署。

2? ?相關(guān)工作（Related work）

要實現(xiàn)任務(wù)導(dǎo)向型機器人，學(xué)界和業(yè)界公認的經(jīng)典方法是一種流水線（Pipeline）方法，該方法通過集成三個組件的功能使機器人完成對話，組件按順序分別是自然語言理解（NLU）、對話管理（DM）和自然語言生成（NLG）。

自然語言理解將用戶輸入的非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化信息，這一組件的功能實現(xiàn)經(jīng)歷了漫長的技術(shù)演變。繼有限狀態(tài)機（FSM）、隱馬爾可夫模型（HMM）等方法之后，目前在特定的封閉域內(nèi)實現(xiàn)自然語言理解具體可分為兩個關(guān)鍵任務(wù)：一個是意圖識別，判斷用戶語句的意圖;另一個是槽位填充，提取語句中的關(guān)鍵文本信息。

意圖識別屬于文本分類問題，在深度學(xué)習(xí)中這類技術(shù)產(chǎn)生了快速的更新迭代，包括基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取[1]、上下文機制[2]、記憶存儲機制[3]、注意力機制[4]。槽位填充就是命名實體識別（NER），它的本質(zhì)是一個序列標注問題，即給文本中每一個字符打上標簽，提取文本中的槽值。其中槽是人為設(shè)定好的詞槽（例如鬧鐘時間），槽值是文本中出現(xiàn)的詞槽對應(yīng)的值（例如上午十點）。深度學(xué)習(xí)中頗為經(jīng)典的結(jié)構(gòu)是論文[5]提出的兩種結(jié)構(gòu)，一種是LSTM-CRF，另一種是Stack-LSTM。

意圖識別和槽位填充既可以作為兩個單獨的任務(wù)處理，也可以聯(lián)合處理。由于兩個任務(wù)之間存在較大的相關(guān)性，因此聯(lián)合建模的效果一般會更好。而2018年BERT[6]等預(yù)訓(xùn)練模型出現(xiàn)以后，我們可以更方便地聯(lián)合處理意圖識別和槽位填充任務(wù)，本文的對話機器人同樣應(yīng)用了這種方法。

根據(jù)對話歷史和當(dāng)前輪次對話信息，對話管理組件記錄對話狀態(tài)并決定對話機器人生成何種回復(fù)，其包含兩個子組件：對話狀態(tài)追蹤（DST）和對話策略（DP）。對話狀態(tài)追蹤的任務(wù)是追蹤記錄用戶的對話歷史信息，有兩種實現(xiàn)方法可供選擇：一種是選取用戶的近幾輪對話信息，將其拼接后統(tǒng)一做自然語言理解，提取出意圖和槽值[7];另一種是根據(jù)自然語言理解每一輪的結(jié)構(gòu)化信息作對話狀態(tài)的更新。對話策略的核心目標是根據(jù)DST的結(jié)果決定當(dāng)前輪次如何回應(yīng)用戶。其傳統(tǒng)的實現(xiàn)方法是基于規(guī)則設(shè)計，這在特定封閉域內(nèi)的效果很好，但是缺乏通用性，在新的域內(nèi)泛化能力差，故多領(lǐng)域的對話機器人需要手工設(shè)計大量規(guī)則使對話策略完備。雖然學(xué)術(shù)界有很多大膽的嘗試，不乏使用強化學(xué)習(xí)來替代基于規(guī)則的對話策略模型的算法，但其結(jié)果的穩(wěn)定性和可解釋性仍待進一步研究。

自然語言生成將對話管理返回的結(jié)果用自然語言表達出來，是由結(jié)構(gòu)化文本生成非結(jié)構(gòu)化文本的過程。雖然現(xiàn)在生成式算法層出不窮，但業(yè)界仍然更青睞基于模板和規(guī)則的方法來保證任務(wù)驅(qū)動型對話機器人輸出文本的穩(wěn)定性，本文的對話機器人也采用了這樣的方法。

3? ?提出的方法（Proposed method）

本文提出的教育領(lǐng)域多輪對話機器人的算法設(shè)計本質(zhì)是工程問題，它采用了經(jīng)典的流水線方法，其組件包括自然語言理解、對話管理和自然語言生成三部分。為了保證在知識點封閉域中回答的嚴謹性，自然語言生成組件僅用有限的模板就可以達到理想的效果，故本文不做過多介紹。

3.1? ?語料準備

雖然目前面向自然語言處理技術(shù)的開源語料庫很多，但滿足教育領(lǐng)域和多輪對話兩個條件的語料庫幾乎沒有。這為對話機器人工程實現(xiàn)帶來了巨大的困難，冷啟動是需要首先解決的問題。

解決這一問題的主流方法有兩個：通過眾包平臺獲取語料或者構(gòu)建用戶模擬器生成模擬語料。眾包方法獲得的語料是由人工生成的，最符合自然語言處理的期望，但其成本造價較高，并且我們的機器人面向教育領(lǐng)域，眾包得到的語料還面臨內(nèi)容不嚴謹、數(shù)據(jù)回流周期長和不滿足模型快速迭代需求的風(fēng)險。因此我們選擇通過構(gòu)建用戶模擬器來獲得語料。我們的用戶模擬器對每一次完整的對話會首先生成一個總體目標，這保證模擬器可以生成上下文連貫的用戶動作。這個用戶模擬器最終可以生成如圖1所示的語料，其展示了一個多輪的用戶對話。

教育領(lǐng)域的對話無非是圍繞知識點展開的，我們將知識點看作每個完整對話的討論主題，故我們設(shè)定對話將在知識點域這一封閉域中展開。我們將期望機器人能夠掌握的知識點列舉在一個知識點清單中，用戶模擬器的語料將圍繞這些知識點生成。基于專家知識，我們定義了四種意圖：告知、詢問、比較和問候。對應(yīng)于詞槽，我們賦予知識點七個屬性，包括名稱、定義、性質(zhì)、應(yīng)用、優(yōu)缺點、實現(xiàn)工具、優(yōu)化改進，用戶模擬器可以對知識點的這些屬性產(chǎn)生提問。

對于知識點域，設(shè)定用戶目標包括兩種詞槽類型：告知槽和詢問槽，這分別對應(yīng)告知意圖和詢問意圖。其中告知槽在語料中對應(yīng)有槽值，它是知識點的名稱，而知識點名稱也是我們在自然語言理解的槽位填充中需要識別出的實體，數(shù)據(jù)結(jié)構(gòu)形如[‘知識點域，‘Inform，‘名稱，‘二次規(guī)劃]。而詢問槽沒有槽值對應(yīng)，它對應(yīng)知識點的其他六個屬性，于是我們得到六種詢問槽，數(shù)據(jù)結(jié)構(gòu)形如[‘知識點域，‘Request，‘定義，‘]。另外，為了模擬現(xiàn)實生活中學(xué)生對知識點產(chǎn)生的疑問，我們增加了比較意圖，這使得用戶模擬器可以產(chǎn)生類似“二次規(guī)劃和支持向量機有什么聯(lián)系”的問題，其數(shù)據(jù)結(jié)構(gòu)是[[‘知識點域，‘Inform，‘名稱，‘二次規(guī)劃]，[‘知識點域，‘Compare，‘名稱，‘支持向量機]]。最后我們使用戶模擬器可以產(chǎn)生擬人的問候意圖，即生成一些簡單的問候語句，數(shù)據(jù)結(jié)構(gòu)為[‘General，‘Greeting，‘none，‘]。

針對每個完整的對話，依據(jù)意圖和詞槽的排列組合可以生成用戶模擬器的總目標，每輪對話都會從還沒被完成的總目標中挑選出一些子目標來完成該輪對話，直至所有的總目標都被完成后該完整對話結(jié)束。

此用戶模擬器的優(yōu)勢是可以根據(jù)需要生成任意數(shù)量的語料數(shù)據(jù)，并且可通過增加知識點清單中知識點的數(shù)量使機器人可以討論的知識點范圍擴大。我們共生成了7，000 條訓(xùn)練數(shù)據(jù)、2，000 條驗證數(shù)據(jù)和2，000 條測試數(shù)據(jù)，每條數(shù)據(jù)都是一個完整的對話，每個完整的對話都包含多輪的用戶對話信息。

3.2? ?自然語言理解

自然語言理解在任務(wù)流水線中的作用是把非結(jié)構(gòu)化文本轉(zhuǎn)化為結(jié)構(gòu)化信息。其中要完成兩個主要任務(wù)：意圖識別和槽位填充，其分別屬于文本分類和序列標注任務(wù)。早期的深度學(xué)習(xí)方法將這兩部分用兩個模型分別處理，例如用TextCNN和Attention做意圖識別，用BiLSTM和CRF做槽位填充。但這樣做有一些顯而易見的缺陷，兩個模型疊加可能使最終結(jié)果出現(xiàn)誤差的概率增大。

雖然一直有學(xué)者嘗試意圖識別和槽位填充兩個任務(wù)的聯(lián)合訓(xùn)練，但真正的突破出現(xiàn)在2018年BERT和GPT等預(yù)訓(xùn)練模型出現(xiàn)之后。以BERT為例，它的語料庫由維基百科等數(shù)據(jù)集構(gòu)成，網(wǎng)絡(luò)結(jié)構(gòu)上沿用了Attention機制的Encoder部分，由12個頭的Attention層組成，并且通過MASK機制和NSP（Next Sentence Prediction）方法使模型分別學(xué)習(xí)到語料的詞級別和句級別的知識。這樣的設(shè)計使BERT可以完成各個類型的自然語言處理下游任務(wù)，包括句子的分類任務(wù)、閱讀理解任務(wù)、問答任務(wù)和序列標注任務(wù)。

BERT有很多中文預(yù)訓(xùn)練版本，其中BERT-wwm[8]被廣泛使用，它努力保證了原BERT的訓(xùn)練條件和模型結(jié)構(gòu)，并針對中文詞匯特點做出改善，引入了wwm（whole word mask）方法，具體是BERT在MASK機制中不再遮蓋住單個中文字而是遮蓋整個中文詞組，這讓BERT學(xué)習(xí)到更多詞組的知識。基于BERT-wwm提出的BERTNLU模型[9]以用戶模擬器構(gòu)建的語料庫作為輸入，在模型的最后一層隱藏層后分別連接兩組不同的輸出層，兩個輸出層分別得到意圖識別和槽值填充的logist結(jié)果，經(jīng)過后處理就可以得到最終的結(jié)果。本文介紹的機器人也采用這種方法完成自然語言理解任務(wù)，槽位填充可以識別出語料中的知識點名稱，意圖識別可以判斷語料中包含的意圖是否存在告知、詢問、比較、問候中的一個或多個。在訓(xùn)練集上訓(xùn)練得到的模型在測試集上的F1值可以達到0.92，這表明我們的自然語言理解組件的性能是滿足預(yù)期的。

BERT模型效果固然好，但其上億的模型參數(shù)也為工程部署帶來了不可忽視的負擔(dān)。為了解決這個問題，出現(xiàn)了許多輕量化的BERT模型，它們對原始的BERT做剪枝或者蒸餾等處理，以期BERT參數(shù)大量減少的同時其精度不會有大幅下降，甚至有些許提升。其中基于知識蒸餾的TinyBERT[10]構(gòu)造十分精巧，效果也很顯著，遺憾的是該模型暫時只能處理英文文本。我們嘗試了可以處理中文文本的ALBERT[11]模型，它通過詞嵌入?yún)?shù)因式分解和隱藏層間參數(shù)共享的方法達到了BERT模型輕量化的目的，雖然模型的運算速度沒有提升，但其參數(shù)數(shù)量減少了十倍左右，并且模型精度在BLUE等數(shù)據(jù)集上沒有顯著下降。本文的機器人用ALBERT替代BERT來做預(yù)訓(xùn)練模型，并用相同的訓(xùn)練集訓(xùn)練模型后，在測試集上得到的F1值同樣可以達到0.9以上的分數(shù)。但在人工確認模型輸出效果時，我們發(fā)現(xiàn)基于ALBERT的模型在意圖識別任務(wù)上效果沒有明顯波動，但在槽位填充任務(wù)上的表現(xiàn)卻不及BERT，我們分析這可能是參數(shù)共享帶來的副作用，12層隱藏層共用一組參數(shù)不可避免地使模型更難識別語料中字詞的信息，從而導(dǎo)致序列標注能力下降。

3.3? ?對話管理

在得到結(jié)構(gòu)化的文本信息后，機器人要根據(jù)用戶對話歷史和當(dāng)前的對話狀態(tài)做出恰當(dāng)?shù)姆磻?yīng)。這一決策過程在對話管理組件中實現(xiàn)，因此對話管理可以被理解為對話機器人的大腦部件。更具體地來說，對話狀態(tài)追蹤組件記錄更新用戶的歷史對話狀態(tài)，對話策略組件決定提供何種反饋。

3.3.1? ?對話狀態(tài)追蹤

對話狀態(tài)追蹤通過不斷獲得用戶每一輪的對話信息，相應(yīng)更新維護用戶的對話狀態(tài)，基本的數(shù)據(jù)結(jié)構(gòu)為詞槽和槽值的組合。隨著深度學(xué)習(xí)的發(fā)展，學(xué)術(shù)界出現(xiàn)了一些對話狀態(tài)追蹤的端到端生成方法，例如TRADE算法以用戶歷史的幾輪對話信息作為模型輸入，輸出結(jié)果是用戶相應(yīng)多輪的歷史對話狀態(tài)。這樣的方法將自然語言理解和歷史對話狀態(tài)更新整合在一起，省去了基于專家知識面向?qū)υ挔顟B(tài)追蹤的規(guī)則設(shè)計，但模型的輸出結(jié)果不能保證穩(wěn)定可控的效果。而工業(yè)界多數(shù)采用穩(wěn)定且易于部署的基于規(guī)則的方法，首先設(shè)定好需要維護的狀態(tài)包含哪些字段，再由每一輪對話獲得的結(jié)構(gòu)化信息更新。這樣雖然需要一些人工來保證規(guī)則的完備，但在知識封閉域內(nèi)的工作量不會很大并且效果是顯著的。

3.3.2? ?對話策略

對話策略也經(jīng)歷了幾個階段的發(fā)展，由最初基于規(guī)則的方法，發(fā)展到基于部分可見馬爾可夫決策過程等基于統(tǒng)計的方法，最后是近期學(xué)術(shù)界青睞的強化學(xué)習(xí)等深度學(xué)習(xí)方法。

基于規(guī)則方法的ELIZA心理醫(yī)療聊天機器人就采用模板匹配的方法完成了對話策略，在當(dāng)時它的出現(xiàn)引起了轟動，由此可見其對話效果是出人意料的。但基于規(guī)則的對話策略有擴展性差、需要強人工干預(yù)等缺點，而可擴展性差主要體現(xiàn)在意圖識別和槽位填充結(jié)果的不穩(wěn)定性上。前面我們已經(jīng)提到過，自然語言理解會識別出用戶對話中的意圖和相應(yīng)詞槽對應(yīng)的槽值。但在現(xiàn)實應(yīng)用中，尤其是當(dāng)對話機器人需要處理多個封閉域甚至是開放域的任務(wù)時，用戶的意圖、詞槽和對應(yīng)的槽值是很難窮舉的。即用戶的對話中會出現(xiàn)自然語言理解組件識別不了的意圖和詞槽，例如當(dāng)用戶和機器人在進行電影域內(nèi)的談話時，用戶突然提及了一個機器人訓(xùn)練集中沒出現(xiàn)過的電影名稱，這時機器人很難將這個電影名稱用槽位填充的方法識別出來，進而就不能和用戶產(chǎn)生關(guān)于該部電影的互動。為了解決這個問題，前文提到的TRADE算法利用拷貝網(wǎng)絡(luò)，提升了對不可窮舉的詞槽的識別能力。

部分可見馬爾可夫決策過程等基于統(tǒng)計的方法也取得了不錯的效果，此類算法摒棄了人工設(shè)計決策規(guī)則，但是面對較為復(fù)雜多變的狀態(tài)時無法獲得很好的效果。

與強化學(xué)習(xí)相關(guān)的一些算法也在學(xué)術(shù)界取得了進展[12]，但強化學(xué)習(xí)應(yīng)用到自然語言處理任務(wù)中還是較為困難的，因為語言的復(fù)雜性，我們很難設(shè)定合適的獎勵函數(shù)，所以這方面仍需學(xué)者們更進一步探索。

因為本文介紹的機器人被應(yīng)用在教育領(lǐng)域，用戶的意圖和詞槽的槽值是可能窮舉的，尤其是僅針對某一門課程來設(shè)計機器人時。因此我們選用基于專家知識的模板設(shè)計，通過如圖2所示的邏輯架構(gòu)使機器人可以進行多輪對話。對話策略組件首先會根據(jù)用戶的當(dāng)前對話判斷其提供的信息是否完整，若完整則執(zhí)行查詢數(shù)據(jù)庫等操作，若不完整則需要用澄清話術(shù)對需要填充的詞槽做出提問。而在知識點域信息完整性的判斷方法是知識點的告知槽和需求槽都不為空。

本文機器人的流水線設(shè)計舍棄了自然語言生成的部分，因為機器人的對話輸出為：當(dāng)機器人查詢到用戶對話相應(yīng)結(jié)果時，直接返回該結(jié)果;當(dāng)查不到時則輸出澄清話術(shù)，這是可以枚舉的，故不需要額外的自然語言生成組件來形成輸出結(jié)果。當(dāng)然，如果期望機器人可以產(chǎn)生多樣化的輸出，采用自然語言生成可以帶來更智能的效果。

4? ?實驗效果（Experimental results）

為了展示本文介紹的教育領(lǐng)域多輪對話機器人的對話效果，以下將舉例說明。假設(shè)用戶在一句話中就完整表達出他想了解的信息，例如，“你知道二次規(guī)劃和支持向量機的關(guān)系是什么嗎？”此時無須多輪對話功能，機器人根據(jù)這些信息就可以在數(shù)據(jù)庫中查詢到相應(yīng)的答案反饋給用戶。

但在現(xiàn)實的人際交往中，對話雙方往往會省略一些他們談?wù)撨^的歷史信息。例如，A：“今天天氣真好啊”，B：“的確，太陽光暖融融的”，A：“是啊，昨天也是這樣呢”。這里A所說的“昨天也是這樣呢”，其實想要表達的完整意思是“昨天的太陽光也暖融融的”。我們的對話機器人在教育領(lǐng)域也可以用多輪對話技術(shù)達到這樣具有歷史記憶的效果。例如，用戶在第一輪詢問“二次規(guī)劃的定義是什么”，而后又問“那么它的應(yīng)用和優(yōu)化改進是什么呢”，此時機器人會自動補全對話信息，分別去數(shù)據(jù)庫查詢“二次規(guī)劃的應(yīng)用”和“二次規(guī)劃的優(yōu)化改進”這兩個問題并返回結(jié)果。另外，如果用戶提問“這和支持向量機有什么聯(lián)系呢”，機器人會補全信息，在數(shù)據(jù)庫中查詢“二次規(guī)劃和支持向量機的聯(lián)系”并返回答案。進一步地，如果用戶想要轉(zhuǎn)換提問的知識點“那么隨機森林呢”，此時機器人會識別出用戶想要比較新的知識點“隨機森林”和二次規(guī)劃的區(qū)別，因此會查詢“隨機森林和二次規(guī)劃的聯(lián)系”，最后將答案返回給用戶。

5? ?結(jié)論（Conclusion）

本文介紹了一種應(yīng)用在教育領(lǐng)域的多輪對話機器人，在線上教育風(fēng)行的今天，它可以和學(xué)生在學(xué)習(xí)方面進行人機互動，這樣既保證了及時為學(xué)生解惑，也為教師減輕了教學(xué)壓力。并且本機器人還可以被泛化在各門課程，普適性較強。在未來的工作中我們希望可以讓此機器人具有雙語甚至多語對話的功能，同時更智能完備的邏輯結(jié)構(gòu)和更自然的交互模式也需要我們繼續(xù)探索。

參考文獻（References）

[1] Wang Shiyao， Minlie Huang， Zhidong Deng. Densely Connected CNN with Multi-scale Feature Attention for Text Classification[C]. IJCAI， 2018：4468-4474.

[2] Smith J， Adamczyk J， Pesavento J. Context manager and method for a virtual sales and service center[P]. U.S. Patent No.6，064，973， 2000.

[3] 華冰濤，袁志祥，肖維民，等.基于BLSTM-CNN-CRF模型的槽填充與意圖識別[J].計算機工程與應(yīng)用，2019，55（09）：139-143.

[4] 胡文妹.基于任務(wù)導(dǎo)向型多輪對話系統(tǒng)的意圖識別研究[D].北京：北京郵電大學(xué)，2019.

[5] Lample G， Ballesteros M， Subramanian S， et al. Neural Architectures for Named Entity Recognition[C]. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies， 2016：260-270.

[6] Devlin J， Chang M W， Lee K， et al. BERT： Pre-training of Deep Bidirectional Transformers for Language Understanding[C]. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies， Volume 1 （Long and Short Papers）， 2019：4171-4186.

[7] Wu C S， Madotto A， Hosseini-Asl E， et al. Transferable Multi-Domain State Generator for Task-Oriented Dialogue Systems[C]. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics， 2019：808-819.

[8] Cui Y， Che W， Liu T， et al. Pre-Training with Whole Word Masking for Chinese BERT[DB/OL]. [2019-06-19]. https：//arxiv.org/pdf/1906.08101.pdf.

[9] Zhu Q， Huang K， Zhang Z， et al. CrossWOZ： A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue Dataset[DB/OL]. [2020-02-27]. https：//arxiv.org/pdf/2002.11893.pdf.

[10] Jiao X， Yin Y， Shang L， et al. Tinybert： Distilling bert for natural language understanding[DB/OL]. [2019-11-23]. https：//arxiv.org/pdf/1909.10351.pdf.

[11] Lan Z， Chen M， Goodman S， et al. Albert： A lite bert for self-supervised learning of language representations[DB/OL]. [2019-11-26]. https：//arxiv.org/pdf/1909.11942v6.pdf.

[12] Abel D， Salvatier J， Stuhlmüller A， et al. Agent-agnostic human-in-the-loop reinforcement learning[DB/OL]. [2017-01-15]. https：//arxiv.org/pdf/1701.04079.pdf.

作者簡介：

閆曉宇（1995-），女，碩士，初級研究員.研究領(lǐng)域：自然語言處理，對話系統(tǒng).

彭蘇婷（1995-），女，碩士，初級研究員.研究領(lǐng)域：人工智能，自然語言處理.