關(guān)鍵詞: 人工智能 人機交互 智能對話 口語教學
1 技術(shù)發(fā)展現(xiàn)狀與可用模塊
自然語言處理是人工智能領(lǐng)域的重要分支。自然語言處理匯集了包括語言學、數(shù)學、計算機科學、生物神經(jīng)學等在內(nèi)的多學科研究成果,在自動分詞、詞性標注、句法分析、文本分類、信息抽取、文字校對、語音識別、語音合成、機器翻譯、自然語言生成、自動摘要等方面均取得了顯著進展。
迄今為止,自然語言處理的發(fā)展共經(jīng)歷了3 個關(guān)鍵階段,即基于規(guī)則的方法(1950—1970 年)、基于數(shù)學模型和統(tǒng)計的方法(1970—2008 年)以及基于深度神經(jīng)網(wǎng)絡(luò)的方法(2008 年至今)[1]。1950 年,阿蘭·圖靈提出了著名的“圖靈測試”,這一般被認為是自然語言處理的開端。在這個時期人們認為自然語言處理的過程和人類學習認知一門語言的過程是類似的,并依據(jù)這個觀點而采用了基于規(guī)則的方法,即在認知語言學的基礎(chǔ)上制定了一系列的規(guī)則,通過計算機編程技術(shù)實現(xiàn)語言處理的相關(guān)問題。但后續(xù)的發(fā)展證明基于規(guī)則的方法具有明顯的缺陷:首先,規(guī)則不能覆蓋所有語句,無法“觸類旁通”;其次,這種方法對開發(fā)者的要求極高,開發(fā)者不僅需要精通計算機,還要精通語言學。因此,這個階段無法從根本上將自然語言理解實用化,這個階段也被稱為理性主義思潮。20 世紀70 年代以后,隨著豐富的語料庫成為現(xiàn)實以及計算機硬件設(shè)備不斷提升,自然語言思潮從理性主義過渡到經(jīng)驗主義,基于數(shù)學模型和統(tǒng)計的方法逐漸取代了基于規(guī)則的方法,并取得了實質(zhì)性的突破。語音識別率從70% 跨越式提升到90%,宣告語言模型技術(shù)從實驗室走向?qū)嶋H應用。從2008 年開始,計算機深度學習技術(shù)再次崛起,并且在計算機視覺、語音識別、機器翻譯等領(lǐng)域明顯超越其他技術(shù)。人們也開始將深度學習引入自然語言處理研究應用中,并且在機器翻譯、閱讀理解、智能對話等領(lǐng)域取得了巨大的成果。
實現(xiàn)智能化的英語口語交互教學系統(tǒng)需要具備的核心技術(shù)包括語音識別、語義識別、對話管理、自然語言生成和語音合成。其中,語音識別讓機器人具備“聽”的能力,語義識別讓機器人具備“理解”的能力,對話管理讓機器人具備“思考”的能力,自然語言生成和語音合成讓機器人具備“說話”的能力。目前,自然語言處理中的突破性成果都是基于深度神經(jīng)網(wǎng)絡(luò)的方法實現(xiàn)的。例如:Facebook 最新公開的基于卷積神經(jīng)網(wǎng)絡(luò)的語音識別模型wav2letter++準確率超過95%,毫秒級的響應時間;Google 公開的語言模型BERT 及其衍生版本ALBERT 和XLnet 在BooksCropus 和英文維基百科共有超過33 億個詞的語料數(shù)據(jù)集上,用包含超過3 億個參數(shù)量的深度神經(jīng)網(wǎng)絡(luò)訓練而成,最新發(fā)布的模型在斯坦福大學的問答數(shù)據(jù)集(SQuAD)上達到EM 超過87 分、F1 超過89.5 分的評測結(jié)果,均超過人類表現(xiàn)的86.831 分(EM 評測)和89.452 分(F1 評測)。亞馬遜基于深度學習的語音合成技術(shù)Polly 可以生成幾十種逼真語音,在如仿真新聞主播、智能客服系統(tǒng)等項目上都有很成熟的應用。這些數(shù)據(jù)表明智能交互口語教學具備較為成熟的技術(shù)條件。
2 設(shè)計思想和特點
2.1 設(shè)計思想
人工智能的效率和作用可以取代教師在英語教學中某些特定領(lǐng)域的地位和功能。例如:在教學管理方面,可以實現(xiàn)輔助備課、備教材、設(shè)計課堂活動、布置和提醒作業(yè)、發(fā)送通知、記錄考勤;在學習內(nèi)容方面,基于龐大的數(shù)據(jù)庫,練習的部分完全可以由人工智能技術(shù)來完成[2]。口語練習就是其中的重要一部分,現(xiàn)階段的人工智能可以評估學習者的語言能力,并且給予評分和反饋。
此交互系統(tǒng)的設(shè)計思想是通過整合目前已公開的深度神經(jīng)網(wǎng)絡(luò)模型作為該機器人的核心技術(shù)骨干,搭建出一個具備“聽”“理解”“說話”能力的智能對話系統(tǒng)。此系統(tǒng)有別于普通智能問答,須兼?zhèn)浣虒W性,可根據(jù)教學需求設(shè)計相關(guān)的對話場景,如預定餐館、對興趣愛好的討論等,并針對對話場景建設(shè)語料數(shù)據(jù),隨后將語料數(shù)據(jù)提供給對話系統(tǒng)完成訓練,實現(xiàn)“說話能力”。使用者可以選擇在不同的場景下和經(jīng)過訓練的機器人進行對話,并且由機器人進行評估和反饋。
2.2 基本特點
2.2.1 性能可靠的智能對話系統(tǒng)
采用已經(jīng)公開并廣泛應用的深度神經(jīng)網(wǎng)絡(luò)模型,其優(yōu)點是模型已經(jīng)經(jīng)過海量數(shù)據(jù)的預訓練,可以即插即用并節(jié)約大量的計算資源和實施成本。對于特殊定制的需求,可以在預訓練的基礎(chǔ)上通過自有數(shù)據(jù)的遷移學習對模型進行迭代。文章采用Google Recognizer進行語音識別,采用RASA 進行自然語言理解、智能對話流程管理和對話生成,采用Amazon Polly 技術(shù)完成語音合成,得益于這些成熟的單點技術(shù),通過整合可以搭建出一個性能可靠的智能對話系統(tǒng)。同時,基于深度學習的開放領(lǐng)域?qū)υ捪到y(tǒng)的關(guān)鍵問題在于回復的多樣性、話題控制、引入外部知識、融入情感、個性化回復等[3]。
2.2.2 具備多場景對話能力
為了實現(xiàn)教學功能,該機器人需要具備豐富的場景對話能力。例如:針對商務(wù)英語口語學習的需求,機器人需要就“電話預約”“商務(wù)參觀”“客戶接待”“會議交流”等各種和商務(wù)溝通相關(guān)的話題進行對話;對于少兒英語口語學習的需求,機器人需要就“旅行”“乘坐交通工具”“禮儀問候”等有關(guān)的話題進行對話。文章設(shè)計的機器人,是根據(jù)教學需求進行語料設(shè)計然后訓練機器人來豐富它的場景對話能力,這個過程不需要修改程序,不僅維護便捷、擴充靈活,其方法就是針對每一個對話場景做專門的語料設(shè)計,然后由機器人對數(shù)據(jù)進行學習后學會某一個話題的對話能力。
2.2.3 智能評估和反饋
智能評估和反饋是該機器人具備的重要教學功能,包括整體對話能力評估、發(fā)音檢測和語法檢測。當練習者選擇一個場景與該機器人進行對話時,練習者是否能夠完成該場景的對話目標可以作為練習者在該主題中對話能力的重要評估依據(jù)。根據(jù)這個思想,設(shè)計一種整體對話能力評估的標準化方法:為每個對話場景設(shè)置“打卡任務(wù)”,這些“任務(wù)”包含了完成一個特定場景對話所必須要進行的對話,單個場景完成“任務(wù)”的數(shù)量將決定練習者在該場景中的對話能力分數(shù),即與該機器人進行的場景對話越多,越能反映該練習者英語口語的綜合水平。
在每個回合的對話中,機器人還會對發(fā)音和語法進行評測并反饋糾正意見,但不進行評分,目的是幫助練習者提升表達的準確性,進行更地道的英語對話。需要說明的是,這一設(shè)計思想側(cè)重于關(guān)注練習者的整體口語能力,因此僅將此項進行評分作為練習者英語口語水平的判斷依據(jù)。
口語自動評分系統(tǒng)最核心的技術(shù)是特征參數(shù)的提取,評分特征參數(shù)的提取大致可分為語音特征和內(nèi)容特征。前者包括發(fā)音、音調(diào)、語速、停頓、流利度等參數(shù);后者包括詞匯相關(guān)性、語法、搭配、語言準確性和內(nèi)容相關(guān)性等參數(shù)[4]。智能評分技術(shù)也是當前教育人工智能技術(shù)的研究熱點,目前國外已開發(fā)出較為成熟的作文評分系統(tǒng),但是口語自動評分技術(shù)發(fā)展略顯滯后,主要有兩種方法:一種是題型設(shè)計(如朗讀等),避開對自然交際話語識別的難題,用來預測考生的口語能力,如e-rater 評分系統(tǒng);另一種是采用交際性口語任務(wù)直接考查考生的交際能力,如SpeechRater 系統(tǒng)[5]。文章采用的第二種方法,即設(shè)置交際任務(wù),通過特征參數(shù)的提取,直接對考生的交際能力進行評分。
2.2.4 科學分類,滿足個性化學習需求
文章將對話場景按難度和主題進行分類。通過設(shè)定規(guī)則將各種對話場景進行分類,結(jié)合對話能力評估方法可以對練習者的綜合口語能力、專項口語能力(例如商務(wù)類、生活類等)、特定場景交流能力這3 個維度進行評估。與機器人進行的對話越多,數(shù)據(jù)積累越多,機器人就會越了解練習者的學習需求和水平,從而實現(xiàn)滿足個性化學習的教學功能。此機器人是一種以輔助英語口語教學為目的而專門設(shè)計的,在智能技術(shù)的基礎(chǔ)上滿足教學功能。正如上文所強調(diào),它和AI 助手、聊天機器人或者智能客服系統(tǒng)是有本質(zhì)區(qū)別的。
3 技術(shù)框架
用于實現(xiàn)交互教學系統(tǒng)(機器人)的技術(shù)架構(gòu)共分為4 層,包括基礎(chǔ)平臺環(huán)境、后端服務(wù)、通信接口和交互前端。
3.1 基礎(chǔ)平臺環(huán)境
采用AWS 亞馬遜云作為基礎(chǔ)平臺環(huán)境,主要原因是實現(xiàn)的機器人應用于英語環(huán)境,使用AWS 與各種英語自然語言處理模型的整體兼容性會更優(yōu),除此之外,還因為AWS 是目前最成熟的云計算平臺之一。
3.2 后端服務(wù)
后端服務(wù)是架構(gòu)的核心,負責實現(xiàn)機器人的語音識別、說話、理解、學習、分類、測評、數(shù)據(jù)分析等功能,如同機器人的大腦。本文將后端服務(wù)按功能劃分為三大模塊,分別是智能對話模塊、測評模塊和管理模塊。
智能對話模塊代替真人扮演英語對話時“交互對象”的角色,而測評模塊和管理模塊就像一個站在幕后的英語口語老師,它默默地旁聽每一句對話,并通過記錄和分析數(shù)據(jù)來了解學習者。
智能對話模塊是對目前已成熟應用的深度神經(jīng)網(wǎng)絡(luò)模型的整合應用,采用Google Recognizer 進行語音識別,采用RASA 進行自然語言理解、智能對話流程管理和對話生成,采用Amazon Polly 技術(shù)完成語音合成。
測評模塊的核心是基于“對話任務(wù)完成率”算法,系統(tǒng)會將每次對話的評估反饋給練習者并且保存在數(shù)據(jù)庫中,這是一個創(chuàng)新且簡潔易于執(zhí)行的評價方法,區(qū)別目前普遍采用的單詞級別的發(fā)音檢測,它的意義是可以從整體對話級別上更真實地反映練習者的口語水平。
管理模塊負責將對話場景按照規(guī)則進行分類,對練習者對話數(shù)據(jù)和測評數(shù)據(jù)進行分析來了解學習者,發(fā)揮個性化學習推薦的功能。管理模塊通過對話數(shù)據(jù)分析可以了解練習者的學習需求,如在職練習者更傾向于進行商務(wù)英語對話、大學生更傾向于專業(yè)英語對話、寒暑假等旅游旺季練習者傾向于旅游英語對話等。
此外,管理模塊還通過測評數(shù)據(jù)分析了解練習者的對話水平。結(jié)合內(nèi)容分類、練習者學習需求定位和能力水平測評,系統(tǒng)就可以實現(xiàn)個性化學習。
3.3 通信接口
通信接口的功能是實現(xiàn)交互前端和后端服務(wù)的數(shù)據(jù)交互。練習者每一句對話會從前端傳到后端,由后端進行處理并生成機器人要回應的對話,然后再由后端傳到前端,是系統(tǒng)最主要、最頻繁調(diào)用的通信內(nèi)容。這是一個必要而且常規(guī)的系統(tǒng)組件,技術(shù)上通過普遍采用的HTTP 技術(shù)實現(xiàn)。
3.4 交互前端
交互前端本質(zhì)上是一個載體,這個載體負責將練習者的語音傳到后端進行處理、將機器人“想說的話”以語音的形式播放出來。在標準化通信接口的支持下,可以搭建各種不同形式的交互前端,文章列舉了常用的前端包括微信小程序、App 應用、Web 網(wǎng)頁,覆蓋了手機端和PC 端。
4 消息處理機制
智能對話模塊采用管道(pipeline)的方法,將多個自然語言處理深度神經(jīng)網(wǎng)絡(luò)模型以組件的形式整合起來,實現(xiàn)對話過程的流水線式處理。管道(pipeline)的方法是目前實現(xiàn)“任務(wù)型”智能對話系統(tǒng)的主流方案,本文引入這種方法來實現(xiàn)基于場景的智能對話,并按照以下流程對消息進行處理。具體敘述如下。
(1)練習者的一條口語語音數(shù)據(jù)從前端傳到后端,并由后端負責語音識別的組件Google Recoginzer 將語音轉(zhuǎn)成英語文本。
(2)由RASA 中負責自然語言處理的組件對上述轉(zhuǎn)換后的文本進行語義解析,確定意圖(intent)和實體(entities),讓計算機理解對話的語義。需要說明的是,系統(tǒng)是在使用標注過的語料數(shù)據(jù)對模型進行訓練后,具備特定場景對話中的意圖和實體識別能力的。意圖分類是特殊的文本分類問題,傳統(tǒng)的分類集中于特征工程、特征選擇和使用不同的機器學習算法模型這3個方面。而近期的研究表明,神經(jīng)網(wǎng)絡(luò)的效果遠勝于傳統(tǒng)的方法[6]。
(3)將完成語義解析后的意圖和實體等信息傳給RASA 中負責管理對話狀態(tài)的組件,該組件會記錄諸如本輪對話的進度、已完成的對話任務(wù),并將信息繼續(xù)向后傳遞。
(4)對話策略組件負責決定系統(tǒng)在本輪對話中做何響應。通過上面?zhèn)鬟f來的信息,決策組件知道的信息包括練習者想要預定餐館的意圖和通過解析獲得的實體信息——“就餐人數(shù)”,因此不必再做出詢問就餐人數(shù)這樣的響應,而是按照順序系統(tǒng)決定做出詢問口味偏好的響應,并將決策向下傳遞。回復響應機制可通過檢索與生成相結(jié)合的方法。基于檢索的對話回復是人的真實話語,語料質(zhì)量高,是目前的主流技術(shù)。而基于生成的對話系統(tǒng)由于其創(chuàng)造性和主題任意性,也逐漸成為關(guān)注的熱點[3]。
(5)生成響應組件根據(jù)決策信息生成對話文本“Which cuisine do you prefer?”。
(6)由Amazon Polly 將對話文本生成語音數(shù)據(jù)。
(7)最終,語音數(shù)據(jù)由服務(wù)后端經(jīng)過通信接口發(fā)送到交互前端,于是練習者聽到了機器人的詢問“Which cuisine do you prefer?”。
5 結(jié)語
文章以實現(xiàn)口語對話教學的智能化為目標,創(chuàng)新性地提出一種基于場景的智能對話機器人和對應的綜合對話能力評估方法,很大程度上改善了目前各種英語口語應用只能在詞句級別跟讀和測評的局限性。具體體現(xiàn)在兩方面的創(chuàng)新:(1)通過一個能夠“學習說話”的智能機器人代替真人作為英語口語學習中必要的“交互對象”,練習者可以與機器人進行基于主題場景的仿真對話;(2)文章提出一種稱為“對話任務(wù)完成率”的標準化評估方法,可以從整體上更有效、更真實地反映練習者的口語水平,并結(jié)合數(shù)據(jù)分析滿足個性化學習需求。人工智能還在不斷的發(fā)展中,它在英語口語教學中必定發(fā)揮越來越多的作用,讓更多的人在技術(shù)的幫助下擺脫“聾啞英語”的問題。