張 博 董瑞海
(1. 華東師范大學教育信息技術(shù)學系,上海 200062;2. 都柏林大學計算機學院,愛爾蘭,都柏林,D4)
自然語言處理(Natural Language Processing, NLP)于20世紀50年代末興起。“圖靈測試”的出現(xiàn)被認為是自然語言處理發(fā)展的開端。60年代,人工智能領(lǐng)域的第一次發(fā)展高潮出現(xiàn),孕育出自然語言處理和人機對話技術(shù)。70年代開始,基于統(tǒng)計的方法逐漸代替了基于規(guī)則的方法。90年代中期以來,計算機的運行速度和存儲量大幅度增加,為自然語言處理技術(shù)的飛速發(fā)展提供了硬件基礎。同時,隨著互聯(lián)網(wǎng)商業(yè)化和網(wǎng)絡技術(shù)的發(fā)展,基于自然語言的信息檢索、提煉,以及語言翻譯和理解的需求日益增加,這些都促使語音和語言處理技術(shù)逐漸產(chǎn)品化并被廣泛應用。到了21世紀,自然語言處理技術(shù)的突破進展,已經(jīng)使人工智能(Artificial Intelligence,AI)系統(tǒng)的語音能力、語言能力等得到前所未有的提高,并開始對全球發(fā)展產(chǎn)生重要的經(jīng)濟影響。
人工智能尤其是自然語言處理技術(shù)的快速發(fā)展給教育領(lǐng)域帶來了巨大的機遇(Alhawiti, 2014),并衍生出人工智能+教育。人工智能教育,又稱智能教育(Artificial Intelligence in Education, AIED),是人工智能技術(shù)對教育的賦能,具體是指通過人工智能技術(shù)在教育領(lǐng)域的運用,來實現(xiàn)輔助、優(yōu)化教與學過程,甚至是替代教師完成一些機械性工作,以提升教育質(zhì)量,實現(xiàn)個性化學習等目標(吳永和,劉博文,馬曉玲,2017)。作為人工智能最重要的一部分,自然語言處理的快速發(fā)展,對教育實現(xiàn)智能發(fā)展具有關(guān)鍵的促進作用。鄭南寧指出自然語言處理技術(shù)有望幫助教師從簡單重復的教學工作中解放出來,比如,降低教師作業(yè)批改的工作量,使他們有更多時間專注學生全面長遠的發(fā)展(鄭南寧,2019)。其次,自然語言處理技術(shù)可以促進傳統(tǒng)教學方法、教學環(huán)境的變革,比如提供更多元化的教學材料、更豐富的交互方式、更加個性化的教育模式等(清華大學人工智能研究院,2020)。未來教師將不僅僅是知識的傳授者,也將成為智能化滿足學生個性化學習需求的教學實踐者。本文旨在通過對國內(nèi)外AI科學家近幾年公開發(fā)表的訪談、演講、會議報告、論文等數(shù)據(jù)進行分析,梳理自然語言處理關(guān)鍵技術(shù)的發(fā)展趨勢,探討其賦能教育智能發(fā)展的現(xiàn)狀,以及在未來智能教育發(fā)展中的應用趨勢與挑戰(zhàn)。
人工智能的持續(xù)發(fā)展離不開AI科學家的不斷探索和創(chuàng)新,他們是技術(shù)持續(xù)發(fā)展的推動者,是技術(shù)應用趨勢的預測者,他們會在各種重要場合(例如,訪談、演講、國際會議等)發(fā)表最新的研究,以及對人工智能未來發(fā)展趨勢的看法。AI科學家樂觀預測自然語言處理技術(shù)將進一步發(fā)展成熟,并在未來被應用到更多領(lǐng)域,尤其是教育領(lǐng)域。2019年,劉群在知乎專訪中提到自然語言處理讓機器變得善解人意(知乎,2019)。沈向洋在公開演講時表示,下一個十年人工智能的突破在自然語言的理解方面(清華大學,2020)。2017年,吳達恩在斯坦福的人工智能年度報告中提出,隨著深度學習的快速發(fā)展及其在自然語言處理領(lǐng)域的廣泛應用,自然語言處理技術(shù)正在經(jīng)歷關(guān)鍵的革命時刻,這將促進新應用程序的繁榮(例如,教育機器人),并為其他領(lǐng)域的發(fā)展帶來創(chuàng)新(Shoham, Perrault, Brynjolfsson, & Clark,2017)。2020年,Stuart Jonathan Russell在展望未來5—10年人工智能對人類社會的影響時強調(diào),如果AI智能系統(tǒng)能更精確地理解人類語言,其將在人類日常的學習與生活中扮演更重要的角色,并認為未來十年將迎來語言理解的重大突破(Russell, 2020)。在2020年中國人工智能學會(Chinese Association for Artificial Intelligence,CAAI)的特約專欄中,宗成慶提出,自然語言處理最終要解決的是人類語言的理解問題,是可以使智能系統(tǒng)實現(xiàn)更精準的性能水平,是可以滿足個性化用戶需求,甚至讓機器做到像人一樣理解自然語言的問題(宗成慶,2020)。因此,了解自然語言處理技術(shù)的發(fā)展歷程及其賦能教育智能發(fā)展的現(xiàn)狀,探究其對未來智能教育發(fā)展的影響,是本研究的重點。
本文以自然語言處理的技術(shù)發(fā)展及其在智能教育領(lǐng)域中的應用與實踐為主題,收集了44位AI科學家發(fā)表的相關(guān)觀點與研究,旨在探討AI科學家視角下自然語言處理技術(shù)賦能教育智能發(fā)展的現(xiàn)狀。在收集到的數(shù)據(jù)中,國外AI科學家23名,主要來源于美國人工智能協(xié)會(the Association for the Advancement of Artificial Intelligence,AAAI);國內(nèi)AI科學家21名,主要來自中國人工智能學會(Chinese Congress on Artificial Intelligence,CAAI)。
數(shù)據(jù)顯示,本研究所涉及的AI科學家中,男性36人,占總樣本的82%;女性8人,占總樣本的18%,如圖1 (a)所示。其次,AI科學家的工作單位所在國家分布情況如圖1 (b)所示,中國科學家最多,占總樣本的48%,美國科學家占39%,其余科學家分布在英國、愛爾蘭、加拿大、智利、泰國和巴基斯坦。數(shù)據(jù)結(jié)果從側(cè)面印證,中國和美國是目前全球研究自然語言處理及其在教育領(lǐng)域應用方面的兩個主要國家(戴靜 & 顧小清,2020)。

圖1 AI科學家分布情況
自然語言處理主要研究人與計算機之間用自然語言進行有效交流的各種理論和方法。自然語言是指漢語、英語等人們?nèi)粘J褂玫恼Z言,而語言是人類學習的重要工具。自然語言處理技術(shù)可以廣泛應用于師生教與學的活動過程中,自然語言處理是教育智能發(fā)展的基礎。由于自然語言處理技術(shù)涉及多種不同的任務,基于AI科學家的視角,我們可以從四個層次對自然語言處理的定義進行理解:
一是對文本進行處理,包括對自然語言進行分句、分詞、詞性標注(將文章中的每個詞標注為名詞、動詞、形容詞等)、命名實體識別 (識別出文本中的時間、地點、組織等)等。2019年,周明在全球人工智能與機器人峰會上提出,自然語言處理就是用計算機對人類語言進行處理,包括對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等,以使得計算機具備人類的聽、說、讀、寫能力(微軟亞洲研究院, 2019)。
二是對自然語言的理解。在對文本進行處理的基礎上,自然語言處理技術(shù)會理解文本包含的意義,比如表達意圖、情感、情緒等理解過程。劉群解釋,自然語言處理的研究對象是人類語言,如詞語、短語、句子、篇章等。通過對這些語言單位的分析,計算機不但可以理解語言所表達的字面含義,還可以理解人類語言所表達的情感以及語言所傳達的意圖(知乎,2019)。
三是交互,即人類通過自然語言與計算機進行交流對話,例如,人機問答-教育機器人、瀏覽器搜索、智能電子設備的信息溝通等。Dan Jurafsky認為,自然語言處理是實現(xiàn)人與計算機之間用語言進行有效通信的方法,是了解人類心理和態(tài)度的最佳途徑(Dan,2017)。Dragomir Radev認為,自然語言處理可應用于人機問答、情感分析、機器翻譯、語義分析、拼寫糾錯等教育活動,但是話語意圖分析、習慣性表達、語義相關(guān)等方面的語言理解使得自然語言處理發(fā)展遇到挑戰(zhàn)(Dragomir, 2017)。
四是創(chuàng)新,即計算機可以通過語言理解進行智能創(chuàng)作,包括寫作輔助、圖文自動生成等。例如,2021年,IIya Sutskever宣布,語言模型將開始了解視覺世界,通過自然語言的輸入,系統(tǒng)可以智能生成各種具有創(chuàng)造性的圖像(OpenAI, 2021)。
何曉東認為,自然語言處理作為人工智能的核心技術(shù),主要用于連接人類和計算機世界的交流(何曉東,2019)。從自然語言處理定義的四個層次可以看出,基于自然語言處理技術(shù)可以開發(fā)出具有互動性、創(chuàng)新性、個性化的智能工具來賦能教育的智能發(fā)展。AI科學家期望隨著自然語言處理技術(shù)的不斷優(yōu)化,相關(guān)智能工具的性能會被不斷提高,并為未來的智能教育帶來更好的體驗。
隨著自然語言處理技術(shù)的快速發(fā)展,它在教育領(lǐng)域的應用取得了突破性的進展,越來越多的智能工具與系統(tǒng)逐漸被廣泛地應用于教學活動中。然而,這些突破性的進展離不開一系列關(guān)鍵技術(shù)的涌現(xiàn)。為了更好地理解自然語言處理的一些技術(shù)原理,基于AI科學家的研究進展,本節(jié)對自然語言處理發(fā)展過程中涌現(xiàn)的關(guān)鍵技術(shù)進行詳細討論。例如,隨著新詞嵌入方法的出現(xiàn),計算機對自然語言的理解更加精準與高效,隨著大規(guī)模語料庫預訓練模型的不斷發(fā)展,多種自然語言處理任務的性能得到顯著提高。這些自然語言處理關(guān)鍵技術(shù)的進步是智能教育不斷發(fā)展的重要基石。
依據(jù)上文的描述,計算機在基于自然語言處理學習讀懂自然語言的過程中,最先開始學習的是文本中詞匯的理解與表達。在深度學習出現(xiàn)之前,在自然語言處理問題的機器學習方法中,我們一般采用一種高維但稀疏的向量來表達詞匯,比如 One-hot Encoding。然而這種方式不僅帶來計算空間的浪費,還會影響系統(tǒng)模型的性能,因為系統(tǒng)不能理解單詞之間的相關(guān)性。其次,早期的基于奇異值分解的LSI/LSA(Latent Semantic Indexing/Latent Semantic Analysis) (Hofmann, 1999)、基于概率分布的LDA(Latent Dirichlet Allocation)(Blei, Ng, & Jordan, 2003)等系統(tǒng)模型在對單詞的語義理解上取得較大進步,但這類模型計算比較耗時,并需要對不同語料庫的主題與數(shù)量進行合理的選擇。2003 年Bengio等人提出神經(jīng)語言模型(NNLM),使深度學習開始應用于自然語言處理(Bengio, Ducharme, Vincent, & Janvin,2003);2013 年,Mikolov 等人構(gòu)建CBOW和Skip-Gram模型,通過觀察共現(xiàn)詞匯并引入負采樣等可行性措施,實現(xiàn)了高密度詞向量的表達方式(Mikolov, Chen, Corrado, & Dean, 2013)。GloVe(Pennington,Socher, & Manning, 2014)也是生成詞向量的有效方法,它是一種基于詞統(tǒng)計的模型,可使詞向量擬合預先基于整個數(shù)據(jù)集計算得到的全局統(tǒng)計信息,從而能高效地學習詞的表征。
其次,隨著遷移學習技術(shù)的進步(莊福振, 羅平, 何清, & 史忠植,2015),AI科學家嘗試構(gòu)建多語言統(tǒng)一的詞向量 (Multilingual Word Embedding, MWE) 方式(Ruder, Vulic, & S?gaard, 2019),也就是在統(tǒng)一詞向量空間中表示來自多種語言的詞匯。AI科學家嘗試采用無監(jiān)督的MWE方法來獲得統(tǒng)一的詞嵌入表達,與傳統(tǒng)的監(jiān)督方法相比,這一方法可以利用近似無限的未標注語料庫,從而為低資源語言(應用范圍比較小,缺乏標注的數(shù)據(jù))開辟了許多新的可能性(Conneau, Lample, Ranzato, Denoyer, & Jégou,2017; Zhang, Liu, Luan, & Sun, 2017)。
隨著計算機對單詞表達能力的提升,如何提取文本(例如句子、篇章)中的高級語義信息,是實現(xiàn)自然語言處理任務的關(guān)鍵,例如,基于文本信息的情感分析、問答系統(tǒng)、機器翻譯等任務。隨著文本提取技術(shù)的不斷創(chuàng)新發(fā)展,自然語言處理的任務性能得到顯著提高。早期的詞袋(Bag of Words)模型忽略了語句中詞語之間的依賴關(guān)系。比如,在詞袋模型中,“我喜歡蘋果,不喜歡鴨梨”和“我喜歡鴨梨,不喜歡蘋果”兩個句子是相同的表達。深度學習技術(shù)對語境和序列信息的捕獲能力為語義的理解帶來了變革。卷積神經(jīng)網(wǎng)絡(CNN)是早期被采用對自然語言詞匯序列進行特征提取的模型,其擅長捕獲局部語境信息,然而CNN無法滿足語言序列長期記憶性的要求。因而,循環(huán)神經(jīng)網(wǎng)絡(RNN)被廣泛應用。RNN的執(zhí)行思路是通過系統(tǒng)中共享的參數(shù)進行序列信息的處理(Cho, et al, 2014)。原始的RNN模型容易出現(xiàn)梯度消失和爆炸的問題。因而,經(jīng)過改良,LSTM和GRU模型(RNN的升級版)開始被廣泛應用于各種自然語言處理任務中,它們通過門控制技術(shù)極大地提高了各種任務的性能。
此外,注意力機制(Attention)被提出并被應用到機器翻譯的任務中,不僅改善了翻譯的性能,還增強了模型的可解釋性(Bahdanau, Cho, & Bengio, 2014)。2017年,Ashish Vaswani團隊擴展了注意力機制,首次提出Transformer模型結(jié)構(gòu)(Vaswani, et al, 2017)。Transformer模型完全去除了編碼中的循環(huán)和卷積,僅依賴多頭注意力機制和位置編碼來分析語義信息,使翻譯、解析等任務的訓練時間大幅縮短。同時,注意力機制的Transformer模型是基于大規(guī)模語料庫訓練的預訓練語言模型的重要基石之一,為自然語言處理技術(shù)的進一步發(fā)展帶來重大突破。
隨著基于大規(guī)模語料庫的預訓練語言模型的出現(xiàn)與不斷創(chuàng)新,自然語言處理獲得了跨越性發(fā)展,它可以實現(xiàn)的任務越來越多元化,并且任務性能更加精確與高效。Sebastian Ruder在2021年公開發(fā)表的報告中,對2018年到2020年自然語言處理預訓練語言模型的發(fā)展進行了總結(jié)(Sebastian, 2021),如圖2所示,預訓練語言模型的發(fā)展越來越趨于大規(guī)模化。2018年,Alec Radford團隊發(fā)布了GPT(Generative Pre-training Transformer)語言模型,這是一套人工智能的生成網(wǎng)絡模型,可以通過文字、圖片、音樂、一段程序或者數(shù)據(jù)分析結(jié)果來智能化生成新的內(nèi)容。2018年,基于Transformer,Jacob Devlin團隊發(fā)布了BERT (Bidirectional Encoder Representations from Transformers)預訓練語言模型(Devlin, Chang,Lee, & Toutanova, 2018)。2019年,OpenAI發(fā)布GPT-2無監(jiān)督的轉(zhuǎn)化語言模型,它可以基于一個特定的線索,自動編寫出文本內(nèi)容。2020年,Tom Brown團隊提出GPT-3語言模型,可以將學習能力轉(zhuǎn)移到同一領(lǐng)域的多個相關(guān)任務中,既能做組詞造句,又能做閱讀理解(Brown, et al., 2020)。2021年,William Fedus團隊首次提出一個1.6萬億參數(shù)的自然語言處理模型——稀疏激活專家模型(Switch Transformer)(Fedus, Zoph, & Shazeer, 2021)。Switch Transformer 模型的突破在于,它可以在使用相同計算資源的情況下使預訓練速度提高7倍以上,同時保證模型質(zhì)量得到30%的提升。

圖2 自然語言處理近期模型規(guī)模發(fā)展史
由此可知,隨著這些自然語言處理關(guān)鍵技術(shù)的不斷優(yōu)化,自然語言處理任務逐漸被簡化,并實現(xiàn)應用的通用化,這對各領(lǐng)域尤其是智能教育領(lǐng)域的發(fā)展產(chǎn)生了重要的影響。數(shù)據(jù)顯示,隨著BERT以及BERT衍生模型的快速發(fā)展,自然語言處理任務在閱讀理解、文本分析、語言翻譯、情感分析等應用上都迎來了突破和創(chuàng)新(Matthew, 2020)。這些關(guān)鍵技術(shù)的優(yōu)化發(fā)展對開發(fā)可以應用在教育領(lǐng)域的智能工具至關(guān)重要,因為智能工具可以實現(xiàn)教育系統(tǒng)中各環(huán)節(jié)要素的自動分析,實施精準干預,支持規(guī)模化教學與個性化學習等機制(彭紹東,2021)。因此,自然語言處理技術(shù)的快速發(fā)展會促進教育領(lǐng)域智能工具的開發(fā),而這些智能工具在學、教、管、評的教育活動中不斷創(chuàng)新優(yōu)化與實踐的過程,就是自然語言處理賦能教育智能發(fā)展的過程。
在過去近40年,自然語言處理領(lǐng)域逐漸出現(xiàn)10個研究熱度較高的技術(shù)話題,包括情感分析、機器翻譯、問答、語言模型、神經(jīng)網(wǎng)絡模型、語義表示、知識圖譜、詞對齊、條件隨機場和詞義消歧(清華大學,2020),如圖3所示。其中,2003 年以后,情感分析的研究熱度迅速增長,其基于自然語言處理的數(shù)據(jù)挖掘技術(shù)被應用于提取和分析用戶生成語言中的主觀信息,而機器翻譯、問答系統(tǒng)等技術(shù)研究熱度也一直保持上升態(tài)勢。何曉東預測,自然語言處理技術(shù)在未來可能會從文本分析、文本創(chuàng)作、情感智能、機器翻譯、智能對話(例如語音助手、聊天機器人)等方向取得重大突破;而這些技術(shù)方向的發(fā)展都與智能教育的未來發(fā)展密切相關(guān)(何曉東,2019)。具體來說,智能教育也是基于多元化的教育數(shù)據(jù)進行分析,以了解師生教與學過程中的各種需求,然后提供評估反饋和智能化的解決方案,并應用于“教、學、評、測、練”五大環(huán)節(jié)(前瞻產(chǎn)業(yè)研究院,2020)。結(jié)合上文中介紹的自然語言處理關(guān)鍵技術(shù)的原理知識,本節(jié)將基于AI科學家的研究實例,深入探討五種在教育領(lǐng)域被廣泛應用的自然語言處理技術(shù),以及這些技術(shù)賦能教育智能發(fā)展的實踐與創(chuàng)新。

圖3 自然語言處理領(lǐng)域技術(shù)研究發(fā)展趨勢
目前,基于自然語言處理的情感分析技術(shù)逐漸應用于教育領(lǐng)域。情感分析(Sentiment Analysis)是指利用自然語言處理的文本挖掘技術(shù),對帶有情感色彩的文本進行抽取、分析和處理,從而發(fā)現(xiàn)潛在的問題以用于預測或改進(Yang, Cunningham, Zhang, Smyth, & Dong, 2021)。鄭耀威在2020年的AAAI會議上,提出了新的分析方法,使用語法信息增強了語句多方面情感分類的效果(Zheng, Zhang,Mensah, & Mao, 2020)。情感分析在教育領(lǐng)域的應用是,通過對學生的課程反饋、教師評價、課程論壇評論等文本信息進行分析,智能化預測學生對學校教育教學現(xiàn)狀的態(tài)度,評估教師授課質(zhì)量,等等。例如,Heather Newman等人使用情感分析工具VADER分析學校教與學的評價信息,以研究學習環(huán)境對改善學生學習的體驗,以及對教師教學的體驗(Newman & Joyner, 2018)。Quratulain Rajput等人基于情感分析指標,對某課程結(jié)束后學生提交的反饋報告進行多種方法的文本分析,使教師教學評估更加高效(Rajput, Haider, & Ghani, 2016)。因此,分析學生對學校政策、教學活動等事件的反饋與態(tài)度,可以使教育組織更加了解學生的需求,不斷提高教學質(zhì)量,提供更具個性化的教育環(huán)境。
而情緒分析(Emotioin Analysis)主要是分析用戶的狀態(tài)、情緒等(比如高興、沮喪、失落、抑郁等)(Koelstra, et al., 2011)。情緒分析在教育領(lǐng)域逐漸被應用于學校輿情監(jiān)督、心理觀察等方面。例如,利用自然語言處理系統(tǒng)模型監(jiān)督學校論壇上的評論、留言等信息,可以實時分析學生情緒,在觀測到學生感到沮喪失落的時候,學校可以及時做出安撫和應對措施。Angelina Tzacheva等人基于計算機科學課程學生反饋的評估數(shù)據(jù),通過為每個文本注釋創(chuàng)建多個標簽,自動檢測學生反饋中的情緒以了解學生對課堂教學模式的感受,從而幫助教師改善教學(Tzacheva, Ranganathan, & Jadi, 2019)。
文本分類是自然語言處理在教育領(lǐng)域應用的另一個重要模塊,它旨在通過分配不同的標簽對文本信息(例如句子、段落)進行分類。文本信息可以有不同的來源,包括電子郵件、論壇留言、社交媒體、教學評價、教學材料等。自然語言處理的文本分類技術(shù)廣泛應用于教育領(lǐng)域的不同任務中,包括問題解答、個性化學習推薦、圖書館內(nèi)容管理、新聞分類、內(nèi)容審核等(Minaee,et al., 2021)。隨著技術(shù)的發(fā)展,文本分類技術(shù)的研究也在不斷進步。2020年,阿里云推出的智能文本分類服務,可以按照給定的類目體系對用戶提供的文本進行自動分類(阿里云,2020)。邱錫鵬團隊提出的多尺度注意力的文本分類方法使語言的理解結(jié)果更優(yōu)化(Guo, Qiu, Liu, Xue, & Zhang, 2020)。隨著文本分類模型系統(tǒng)性能的提升,相關(guān)的智能工具性能也在不斷優(yōu)化,并被廣泛應用于閱讀等級分類、作文自動批改等方面。
閱讀等級分類是衡量閱讀難度的標準之一,文本可讀性對于閱讀教學材料、教材編排等有重要意義。自然語言處理在教育文本閱讀方向的一個重要應用是閱讀分級。閱讀分級測評體系通過計算機對大量的文本、書籍進行自動處理并分析其難度,然后為不同水平的學習者提供不同難度的學習資料。例如,藍思(Lexile)閱讀測評體系(Ardoin,Williams, Christ, Klubnik, & Wellborn, 2010)基于書籍難度和讀者閱讀能力兩個指標進行分級,使學習者可以輕松選擇適合自己的書籍。迷霧指數(shù)(The Gunning FOG Index)(Swieczkowski & Ku?acz, 2021)是一種針對英語文本的可讀性測試,該模型系統(tǒng)可從詞數(shù)、難度、完整思維的數(shù)量、平均句長等方面考察一篇文章的閱讀難度,并評估出適合閱讀此文章的閱讀者的正規(guī)教育年限,比如,當讀物的迷霧指數(shù)為12時,閱讀者大概需要相當于高中生的閱讀水平。2020年,唐玉玲等人提出結(jié)合語言難度特征的句子可讀性計算方法,構(gòu)建了規(guī)模更大的漢語句子可讀性語料庫,提高了評估準確率,優(yōu)化了漢語材料的可讀性應用(Tang & Yu, 2020)。
作文的自動批改評測是智能化對英語寫作進行評分、糾錯和指導的技術(shù),是自然語言處理與語言教學結(jié)合的一個成熟應用。E-rater是一款成熟的智能英文寫作評分軟件,具有識別英文寫作能力的功能,其評分水平與人工評分水平非常接近。校寶在線的1Course是基于人工智能技術(shù)開發(fā)的語言教學輔助測評系統(tǒng),可以對寫作等語言材料自動化批改、評測,并且給出學習總結(jié)與建議。2017年,許悅婷團隊對E-rater、1Course等智能評測系統(tǒng)的性能進行對比時發(fā)現(xiàn),E-rater性能仍然處于較高水平(Xu et al., 2016)。科大訊飛研發(fā)的RealSkill是針對雅思托福考試的智能批改軟件。測試數(shù)據(jù)顯示,Real-Skill的評分與考官評分一致率達96.91%,智能批改準確率達到92.64%,手寫文字識別率達到95%(德勤,2020)。董瑞海團隊提出了一種新型的、基于自然語言處理和深度學習技術(shù)的自動作文評分系統(tǒng),并證明該系統(tǒng)在成績預測方面達到了最先進的性能(Wang, Liu, & Dong,2018)。可見,自然語言處理的文本分類技術(shù)已經(jīng)為師生的教與學過程提供了成熟的智能評價、測試、糾正、練習等應用。
隨著智能機器人逐漸被應用于教育領(lǐng)域,問答與對話系統(tǒng)的性能(例如,準確度、智能化、個性化)優(yōu)化一直受到AI科學家的關(guān)注。問答系統(tǒng)(Question Answering System,QA System)是用來回答用戶提出問題的系統(tǒng),其設計思想是由計算機負責解析并理解由用戶提出的自然語言(問題),并從當前收集的所有問答集中檢索出最適合的答案返回給用戶。目前,基于自然語言處理的問答系統(tǒng)任務的準確性已經(jīng)可以超越人類水平的基準線,并逐漸達到專家水平。例如,基于斯坦福問答數(shù)據(jù)集(Stanford Question Answering Dataset,SQuAD)的文本理解挑戰(zhàn)賽,就是檢驗計算機閱讀理解水平的權(quán)威測試。2018年,Pranav Rajpurkar團隊提出SQuAD 2.0,該數(shù)據(jù)集可以測試模型系統(tǒng)回答閱讀理解類問題的準確度(Rajpurkar,Jia, & Liang, 2018)。基于SQuAD2.0官網(wǎng)數(shù)據(jù),本文整理了從2018年到2021年,問答系統(tǒng)模型執(zhí)行能力的變化趨勢。如圖4所示,隨著模型系統(tǒng)的不斷升級,一些模型系統(tǒng)獲得的精確匹配度(Exact Match,EM)和準確度(F1)分值不斷提高,逐漸超越人類水平的基準線(EM 86.831,F(xiàn)1 89.452),并達到了前所未有的新高度(EM 90.871,F1 93.183)(SQuAD2.0, 2021)。劉知遠團隊提出,基于Babel-Net(一種多語言的百科全書詞典)為多種語言建立統(tǒng)一的義位知識庫(Qi, Chang, Sun, Ouyang, & Liu,2020),可優(yōu)化知識庫的構(gòu)建。2021年,嚴睿團隊提出的檢查模型優(yōu)化了回答閱讀理解問題的答案生成響應效能(Chen,et al., 2020)。這說明自然語言處理任務在智能化地執(zhí)行閱讀理解和問答測試方面的技術(shù)越來越成熟,這些技術(shù)衍生的智能工具可以在教育系統(tǒng)中幫助師生提高教與學的效率。

圖4 基于SQuAD 2.0的測試結(jié)果
此外,對話系統(tǒng)屬于多輪次對話的問答系統(tǒng)(例如,聊天機器人)。不同對話系統(tǒng)具有不同的復雜程度,有簡單的單行響應對話系統(tǒng)(基于人工模板的聊天機器人),也有復雜的多輪次對話系統(tǒng)(數(shù)字語音助手)。現(xiàn)有的檢索式對話系統(tǒng)可能會出現(xiàn)忽略上下文相關(guān)性而只能回答簡單問題的情況,而嚴睿團隊提出的基于預訓練語言模型的文本-回復匹配模型,可以顯著改善這個問題(Xu et al., 2020)。車萬翔團隊開發(fā)的目標管理模型使開放式對話能夠獲得更連貫且更有趣的多輪對話(Xu, Wang, Niu, Wu, &Che, 2020)。在個性化對話系統(tǒng)的創(chuàng)新中,張亦馳提出的一種基于多動作數(shù)據(jù)增強的學習框架,可以有效學習到多樣化的對話策略(Zhang, Ou, & Yu, 2020)。黃民烈團隊提出的個性化對話生成模型,可以在對話生成的時候控制回復中所展現(xiàn)的個性化屬性(Zheng, Zhang, Huang, & Mao, 2020)。而隨著自然語言處理中對話系統(tǒng)的不斷創(chuàng)新與發(fā)展,AI科學家開始將智能對話系統(tǒng)實現(xiàn)在教育機器人領(lǐng)域。例如,麻省理工學院媒體實驗室(MIT Media Lab)的Cynthia Breazeal團隊設計的“社交機器人”,是可以與人合作的社交、情感智能機器,能滿足從孩子到老年人各年齡段新技能的學習和情感需求(Cynthia,2019)。余勝泉團隊開發(fā)的一個新穎實用的對話系統(tǒng),專門幫助教師和家長為學生解決德育方面的困擾,可以精確理解用戶的問題并實時推薦適合的解決方案(Peng, et al., 2019)。2021年,陳鵬鶴團隊設計并創(chuàng)建了一個名為PBAdvisor的智能助手,它可以幫助沒有心理學專業(yè)知識的老師和家長輕松地就學生的問題行為找到合適的解釋方案,并解釋問題行為形成的原因(Chen, Lu, Liu, & Xu, 2021)。同年,盧宇團隊開發(fā)了新型智能輔導系統(tǒng) RadarMath,以支持智能化的、個性化的數(shù)學學習教育。該智能輔導系統(tǒng)可以為學習者提供自動評分、個性化學習指導等服務(Lu, Pian, Chen, Meng, & Cao, 2021)。這些智能對話系統(tǒng)可以在不同的教學環(huán)境中提供人性化的交互方式和個性化的智能輔導與教學,可見,基于自然語言處理技術(shù)的教育機器人展示了其在未來智能教育發(fā)展中巨大的應用前景。
機器翻譯是另一個廣泛應用于教育領(lǐng)域的自然語言處理技術(shù)。機器翻譯(Machine Translation,MT)是利用計算機將一種自然語言(源語言)轉(zhuǎn)變成另一種自然語言(目標語言)的自動翻譯(Russell &Norvig, 2002)。隨著技術(shù)的不斷發(fā)展,神經(jīng)網(wǎng)絡機器翻譯(Neural Machine Translation, NMT)于2013年被提出(Kalchbrenner & Blunsom, 2013)并迅速發(fā)展,它在文本翻譯、對話系統(tǒng)和文字概括方面的性能不斷得到優(yōu)化和提升。在機器翻譯任務中,雙語互譯質(zhì)量評估輔助工具(bilingual evaluation understudy,BLEU)是非常重要的指標。2002年,Kishore Papineni首次提出BLEU指標,其設計思想是機器翻譯結(jié)果越接近專業(yè)人工翻譯的結(jié)果,模型系統(tǒng)的效果就越佳(Papineni, Roukos, Ward, & Zhu, 2002)。依據(jù)2018年斯坦福發(fā)布的人工智能年報,如圖5所示,在2008年到2018年期間,模型系統(tǒng)在將新聞從英語翻譯成德語的BLEU分數(shù)是2008年的3.5倍,而從德語翻譯成英語的BLEU分數(shù)是2008年的2.5倍(Shoham, et al., 2018),這表明了機器翻譯性能在過去十年的快速發(fā)展。

圖5 新聞稿翻譯——WMT競賽
在2020年的AAAI會議上,馮洋團隊提出了增強機器翻譯的評估方法,對生成的譯文從流利度和忠實度兩個方面進行評估,以鼓勵模型生成與譯文有關(guān)聯(lián)的單詞(Shao, Zhang, Feng, Meng, & Zhou,2020)。除此之外,劉知遠團隊提出一種多通道反向詞典模型,此模型在中英兩種語言的數(shù)據(jù)集上都實現(xiàn)了當前最佳的性能,并首次實現(xiàn)了中文、英文跨語言反向查詞的功能(Zheng, et al., 2020)。劉宇宸團隊則提出一種基于交互式學習的方法,該方法能夠在一個模型中實現(xiàn)同步語音識別和語音翻譯任務,并且效果顯著(Liu, et al., 2020)。隨著這些機器翻譯模型系統(tǒng)的不斷進步與創(chuàng)新,它們對智能教育的發(fā)展產(chǎn)生了新的影響,例如,翻譯狗、谷歌翻譯等工具被廣泛應用于學生的英文寫作與語言學習中(Bin Dahmash, 2020; Tsai, 2020)。Marco Cancino表示,當教師能夠意識到在線翻譯的局限性,并在學生使用它們時提供足夠的指導,那么智能在線翻譯工具可以成為有效的教學工具(Cancino & Panes, 2021)。不僅如此,研究表明,使用谷歌翻譯進行寫作的實驗組其寫作質(zhì)量更高,例如,句法復雜性和準確性得分更高(Cancino & Panes, 2021)。Angkana Patanasorn的研究也發(fā)現(xiàn),谷歌翻譯對高水平學術(shù)論文摘要翻譯的可理解性和可用性均處于中上等水平(Tongpoon-Patanasorn & Griffith, 2020)。
通過以上分析可以發(fā)現(xiàn),應用于教育領(lǐng)域的自然語言處理技術(shù)仍在快速發(fā)展,并不斷賦能智能教育的發(fā)展與創(chuàng)新。隨著智能工具的普及與成熟,越來越多的學生開始自主選擇適合自己的智能學習工具,以滿足個性化的學習需求。學校教師也開始在教學中應用智能批改、智能搜索、虛擬現(xiàn)實、智能學情分析等智能技術(shù)輔助備課、教學以及對學生的評估與管理,以增強課堂的趣味性、有效性和個性化。然而,自然語言處理技術(shù)賦能未來智能教育發(fā)展的過程中,機遇與挑戰(zhàn)是共存的。
基于上文的討論,自然語言處理儼然已經(jīng)成為智能教育未來發(fā)展過程中最重要的人工智能技術(shù)。同時,自然語言處理正在結(jié)合其他人工智能技術(shù),給智能教育的未來發(fā)展帶來新的機遇,同時也給傳統(tǒng)的教育方法帶來了新的挑戰(zhàn)。
走向多模態(tài)智能化教學 自然語言處理技術(shù)正在與其他人工智能技術(shù)相結(jié)合來一起推動未來智能課堂的建設,實現(xiàn)實體互動課堂、VR/AR課堂、全息課堂等(清華大學,2020)。未來的課堂教學將在傳統(tǒng)課堂的基礎上,利用視頻系統(tǒng)、語音系統(tǒng)、智能終端等多模態(tài)智能技術(shù)更高效地進行智能互動。其次,由智能技術(shù)支撐的課堂將以學生為中心進行互動教學,這能更好地激發(fā)學生興趣、提升教學質(zhì)量,以適應新時代的教育目標。未來的智能化教學,將基于人臉識別、語音識別、動作識別、情緒識別、眼球識別等多模態(tài)技術(shù)構(gòu)建智能課堂輔助系統(tǒng),并做到課程全覆蓋,既能對學生的考勤、課堂表現(xiàn)及專注度進行監(jiān)測分析,也能對教師的教學質(zhì)量進行智能評估,即時生成課堂評估報告并快速反饋,教師可及時調(diào)整授課內(nèi)容和方式,以保證高質(zhì)量的課堂體驗,從而形成課上有行為、行為有識別、識別有分析的完整監(jiān)課閉環(huán)(清華大學,2020)。基于人工智能技術(shù),尤其是自然語言處理技術(shù),未來的學習材料將更多元化,文本、語音、圖像、視頻識別等多模態(tài)學習材料將替代單一的文字類產(chǎn)品。教師教學的輔助產(chǎn)品將不僅僅局限于文字類題庫,不同媒介(例如音、視、VR、AI、AR等)的產(chǎn)品都可以輔助教學,使智能測評提供不同題型,使教學風格更多樣化,從而激發(fā)學生的學習興趣(德勤,2020)。
邁向大規(guī)模個性化教育 個性化教育是智能教育時代變革的必然趨勢。《教育信息化十年發(fā)展規(guī)劃(2011—2020年)》指出要為每一名學習者提供個性化學習的信息化環(huán)境和服務。通過本文的討論可以發(fā)現(xiàn),基于自然語言處理技術(shù)的智能工具可以為師生的教與學提供智能化、個性化的解決方案。未來的個性化教育,將主要建立在師生充分交互的大數(shù)據(jù)獲取基礎上。通過對這些教育數(shù)據(jù)的統(tǒng)計分析,可實現(xiàn)學生個性化評估反饋、以學定教、自動化輔導與答疑,并智能化推薦適合學生的學習內(nèi)容,以提升學習效率與質(zhì)量,從而實現(xiàn)大規(guī)模因材施教。其次,基于自然語言處理技術(shù)的智能推薦系統(tǒng)將更精確地對師生的教與學活動進行賦能,將標準化、專業(yè)化的傳統(tǒng)教育逐漸轉(zhuǎn)型為個性化、多樣化的智能化教育。
教育智能化的戰(zhàn)略布局 2020年以來,疫情的蔓延加速了線上線下融合教學模式的普及:以學生為中心,通過智能技術(shù)連接線上和線下、虛擬和現(xiàn)實的學習場景,形成智能化教育場景生態(tài),為實現(xiàn)個性化教學新樣態(tài)提供了基礎。在智能時代,教育組織、技術(shù)型企業(yè)機構(gòu)以及社會相關(guān)部門應該密切溝通,相互合作,在分析人工智能最新技術(shù)范式和理念的基礎上,明確教育智能化的發(fā)展方向,系統(tǒng)審視其應用場景,助力我國教育智能化建設。基于國家對智能時代教育發(fā)展的政策支持,結(jié)合我國國情,跨領(lǐng)域的合作應該從實踐層面分析人工智能與教育系統(tǒng)各要素融合的路徑,闡釋智能教育理念下未來教育的體制機制、服務模式和治理體系,并形成有中國特色的人工智能教育發(fā)展戰(zhàn)略布局。
完善智能教育理論體系 與傳統(tǒng)教育不同,智能教育時代的教學方法、評價模式等都需要進行改進,以建設與智能時代相適應的教育觀念與理論。伍紅林曾表示,在智能技術(shù)支持下,教育學的學科形態(tài)和使命都將發(fā)生轉(zhuǎn)變,例如,一些新的跨學科分支將產(chǎn)生,并有可能成為研究主流(伍紅林,2020)。人工智能的快速發(fā)展正在逐步推動教育學基本理論研究的新變化,而教育存在形態(tài)的變化可能引起教育學原有研究領(lǐng)域和理論內(nèi)涵的轉(zhuǎn)換與更新,這將迫使教育學主動對其他學科進行吸收與轉(zhuǎn)化。因此,隨著人工智能技術(shù)的快速發(fā)展,我們應該對傳統(tǒng)教育學理論進行完善,抓緊建構(gòu)適應人工智能時代的教育學理論體系。
加強教育數(shù)據(jù)治理 隨著智能教育系統(tǒng)中自然語言處理技術(shù)的不斷應用,教育數(shù)據(jù)的積累已經(jīng)在一定程度上實現(xiàn)了教與學的自動化和智能化,然而,這其中也潛藏著風險。近年來,智能技術(shù)倫理、教育數(shù)據(jù)安全方面的一些問題受到很多關(guān)注,比如,個人數(shù)字信息的過分暴露可能會對教師與學生的隱私、安全等造成嚴重的負面影響(清華大學,2020)。因此,加強智能教育時代的數(shù)據(jù)治理研究已經(jīng)刻不容緩。數(shù)據(jù)治理的能力決定著未來教育發(fā)展的水平和布局,所以教育組織應該:(1)搭建智能化數(shù)據(jù)資產(chǎn)平臺,建立數(shù)據(jù)收集、整合、治理、存儲的常態(tài)化監(jiān)控體系;(2)建立有效的數(shù)據(jù)共享、管理與保障體系,通過對師生行為數(shù)據(jù)進行梳理,建立全局數(shù)據(jù)字典,完成數(shù)據(jù)的標準化和治理化;(3)建設跨校區(qū)統(tǒng)一支撐平臺,加強統(tǒng)一身份認證、課程認證、學分認證、教師角色定位等問題的治理,保障數(shù)據(jù)的隱私性。因此,搭建智能教育數(shù)據(jù)資源及管理平臺,構(gòu)建智能教育大數(shù)據(jù)的治理體系,是人工智能時代未來智能教育建設的關(guān)鍵路徑。
進一步優(yōu)化教育智能技術(shù) 沈向洋曾表示:“人工智能要真正達到人類思維水平,特別是在認知方面,還有很長的路要走。”(沈向洋,2018)盡管人工智能依靠深度學習取得了快速的發(fā)展,卻仍需要依賴大規(guī)模標注的數(shù)據(jù)進行監(jiān)督訓練,因此,要實現(xiàn)真正的人類智能,計算機還需要掌握大量的常識性知識,以人的思維模式和知識結(jié)構(gòu)來進行語言理解、視覺場景解析和決策分析。劉群曾指出,關(guān)于自然語言處理模型系統(tǒng)的學習問題,盡管很多知識點的邏輯推理對人類來說不是問題,但是計算機理解起來卻有困難;同時,自然語言處理還面臨著標注數(shù)據(jù)資源貧乏的問題,例如,小語種的機器翻譯、特定領(lǐng)域?qū)υ捪到y(tǒng)、多輪問答系統(tǒng)等,都將使自然語言處理在教育領(lǐng)域的應用面臨挑戰(zhàn)(知乎,2019)。在2021年麻省理工學院的人工智能會議上,Lex Fridman提出希望自然語言處理在未來智能教育的發(fā)展過程中可以使常識推理與語言模型相結(jié)合,通過上下文信息實現(xiàn)從有限的句子智能寫作到包含數(shù)千個詞語的段落篇章寫作(Lex, 2021)。關(guān)于其他新興智能技術(shù),例如,智能教學機器人、腦機接口改善學習能力等,則還需要進一步成熟與優(yōu)化,并加快應用于教育的智能發(fā)展。