

[摘 要] 近年來,智能技術逐漸運用到國際中文教育領域,在語音識別、文本生成、知識圖譜、虛擬現實、大數據分析等技術的賦能下,國際中文教育領域正涌現出越來越豐富的產品及應用。本文綜述了國際中文教育智能處理的相關技術,通過智能技術賦能教學資源研發、賦能教學實踐與測試、賦能教學平臺開發等三大維度,梳理了技術在國際中文教育領域的實踐與開發。提出了國際中文教育和智能技術深度融合的新基建、新業態、新模式,進一步總結并歸納出技術賦能國際中文教育數字基礎設施,推動國際中文教育轉型,催化漢語國際教育產學研結合的發展趨勢。
[中圖分類號] H195.3 " [文獻標識碼] A " "[文章編號] 1674-8174(2025)01-0009-13
1. 引言
推進教育數字化是加快建設教育強國的重要內容。黨的二十大報告提出“推進教育數字化,建設全民終身學習的學習型社會、學習型大國。”習近平(2023)指出“教育數字化是我國開辟教育發展新賽道和塑造教育發展新優勢的重要突破口。”教育部制定了“教育信息化推動教育高質量發展,以高水平教育信息化引領教育現代化”的發展目標。②
具體到國際中文教育領域,馬箭飛(2022)提出了“堅持標準引領、強化支撐能力、完善資源供給、加強多方協同”的國際中文教育信息化建設發展方向。崔希亮(2023)認為技術改變了傳統的語言教學模式,現代教育技術可以幫助我們實現多元化教學的目標。趙楊(2023)指出隨著人工智能等技術的發展,移動技術與語言學習深度融合引發了語言教學的變革,新技術與外語教學深度融合將不斷催生出更具創新性的教學方法,基于大數據的移動教學工具將更具個性化。劉利(2023)提出以ChatGPT為代表的人工智能技術在變革教學模式、實施個性化教學、建設高質量教學資源、打造高水平師資隊伍、實現科學評價、提升教育管理效率、助力本地化發展等方面發揮重要作用,不斷促進“教師—學生—技術”之間的良性互動。
為了更清晰地展現技術發展的脈絡,本文將從教學資源、教學實踐與測試、教學平臺開發三個方面綜述智能技術在國際中文教育中的應用和影響。
2. 智能處理相關技術
教育技術是指運用現代科學技術手段改進教育過程和提高教育質量的一門綜合性學科。隨著信息技術的發展和教育需求的變化,教育技術也從傳統的多媒體技術轉型到了智能技術。目前,常用于國際中文教育的智能處理技術主要包括人工智能技術、知識圖譜技術、數字化交互技術。①
2.1 人工智能技術
智能技術從算法發展和技術應用角度劃分,大致經歷了程序模型、概率模型和深度模型三個階段。劉玉屏、歐志剛(2022)指出,在程序模型和概率模型階段,人工智能以計算機輔助教學、計算機輔助學習等形式服務于教育行業,以程序化處理、結果反饋以及簡單推理等為特征。進入深度模型階段后,隨著算法模型的改進和計算能力的突破,人工智能在系統化、智能化方面極大增強,能夠勝任復雜推理任務,其在教育行業的應用不斷深化。人工智能正在改變教育行業,為教育發展提供動力,減輕教師負擔,提升學習效果,提高教育教學的質量和效率。
(1)自然語言處理(Natural Language Processing,NLP)是以語言為對象,利用智能技術分析、理解和處理自然語言的一門學科,在智能技術的支持下對語言信息進行定量化的研究,并提供可供人與計算機之間能共同使用的語言描寫。
(2)生成式AI技術使用生成式預訓練變換模型(GPT-3)和基于人類反饋的強化學習(RLHF)來生成類似人類撰寫的文本。其采用的大規模預訓練模型有豐富的語義信息,具有代碼分析和編寫能力、條件建模能力和推理能力。袁羲、吳應輝(2023)總結了生成式AI技術在國際中文教育領域能夠發揮的多方面作用,如:
a. 生成式AI技術可強化學生中文自學能力,優化以學習者為中心的教學模式。
b. 生成式AI技術可提升教師數字能力,助推國際中文教師專業發展。
c. 生成式AI技術可推動國際中文教學資源建設。
d. 生成式AI技術可加速國際中文教學智能產品升級。
當然,生成式AI技術也存在一些局限和風險,如生成不準確或不合適的內容、影響學習者的自主性和批判性思維、引發一些倫理和法律的爭議等。因此,使用生成式AI技術時需要辯證地看待和運用,遵循一定的原則和規范,保障中文教育的質量和安全。
(3)自動化項目生成指根據開發者要求,在項目生成算法的指導下,自動地生成符合參數的項目。早期的自動項目生成主要采取項目模型法,即指將經過檢驗且指標良好的項目作為模板,通過改變和替換與問題解決難度無關的描述,組合形成多個新項目的過程,常被用于智能中文測試等領域。如謝小慶、許義強(1999)探索了基于HSK題庫的試卷生成系統。近年來自動化題目生成(AIG)、計算機自適應測試(CAT)等新技術被陸續引入,如通過結合自動化題目生成(AIG)與計算機自適應測試(CAT)的詞匯評估新策略構建了一個平衡的自動生成題目的題庫,并實施了一個三參數的計算機自適應測試(Zhou et al., 2019)。
2.2 知識圖譜技術
劉嶠等(2016)指出,知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系。其基本組成單位是“實體—關系—實體”三元組,以及實體及其相關屬性—值對,實體間通過關系相互聯結,構成網狀的知識結構。知識圖譜主要技術包括知識獲取、知識表示、知識存儲、知識建模、知識融合、知識計算、知識運維等七個方面。②通過這些技術的綜合運用,能夠幫助實現學習者個性化學習。
知識圖譜技術在國際中文教育中的應用主要包括以下幾個方面:
中文教育知識圖譜的構建:通過從各種數據源(如教材、詞典、語料庫、網絡等)抽取和整合中文教育相關的實體、屬性、關系和概念,形成一個覆蓋中文語言、文化、歷史等方面的知識圖譜,為后續的應用提供知識支持。如曹鋼等(2023)基于《國際中文教育中文水平等級標準》構建了詞匯知識圖譜并用于建設詞匯自適應學習平臺。
基于知識圖譜的中文教育問答系統:通過將自然語言問題轉換為知識圖譜上的查詢,利用知識圖譜的語義信息和推理能力,為中文學習者提供準確和豐富的答案,同時也可以生成相關的反饋和建議,幫助學習者提高中文水平。如盧宇等(2020)將教育知識圖譜中的認知地圖應用于“智慧學伴”機器人的開發。
基于知識圖譜的中文教育認知診斷和個性化推薦:通過分析學習者的學習行為、能力、興趣等數據,結合知識圖譜的結構和內容,對學習者進行認知診斷和評估,發現學習者的優勢和不足,以及潛在的學習需求和目標,然后根據學習者的個性化特征,從知識圖譜中推薦合適的學習資源、路徑和策略,實現因材施教和精準教育。如孫飛鵬等(2021)以HSK三級詞匯為例進行了基于知識圖譜的漢語詞匯學習資源推薦研究。萬海鵬等(2022)嘗試使用知識圖譜作為數據模型之一,精準定位學生的學習狀態。
基于知識圖譜的中文教育作文批改和生成:通過利用知識圖譜提供的豐富的語言知識和背景知識,對學習者的中文作文進行自動評分、錯誤檢測、修改建議等功能,同時也可以根據給定的主題、要求和素材,從知識圖譜中選擇合適的內容和表達方式,生成符合標準和規范的中文作文,為學習者提供參考和啟發。
2.3 數字化交互技術
(1)多模態(Multi-modal learning)技術是綜合利用多種感知模式(如文本、圖像、視頻、語音等)進行信息獲取、處理和應用的技術。葉軍(2021)指出,對語言學習來說,多模態資源加強了感官刺激,豐富了情感體驗,提高了語言學習的趣味性;多模態資源的不同模態之間具有互文性,有助于學習者更加準確地把握語境信息、理解文化背景,提高對語言形式的敏感度;借助多模態資源不同模態的互補性,在不減少文本內容信息的前提下降低資源中文本的比重和難度,可以降低學習者(尤其是初學者)參與中文真實交際的門檻,增加其在交際中提升中文運用能力的機會。
(2)虛擬現實(Virtual Reality,簡稱VR)技術是一種先進的人機計算機接口技術,它利用計算機生成一種高度逼真的、模擬人在現實環境中進行視、聽、動等行為的虛擬環境,并通過多種傳感設備,使人投入該環境中,實現人與該環境間的自然交互。①
(3)增強現實(Augmented Reality,簡稱AR)技術是在虛擬現實的基礎上發展起來的技術,是指通過將計算機生成的虛擬場景、文字注釋等信息實時、精確地疊加到使用者所觀察到的真實世界景象中,對人的視覺系統進行延伸和擴充。增強現實技術具有虛實結合的特性,契合了當前第二語言習得理論強調本地化、上下文學習和與現實世界的有意義聯系的新思想。增強現實技術能夠為學習者提供各種擬真的認知場景,提高學習效率,為學習者提供個性學習的發揮空間;在增強現實技術搭建的學習場景中,學習者不僅可以同其中的學習對象互動,也可以同其他學習者實時互動,交流經驗(Cheng et al., 2012)。
3. 智能技術賦能教學資源研發
智能技術賦能教學資源研發是指利用人工智能、大數據、云計算等新技術,提高教學資源的開發、利用、評價和管理的效率和質量,為教育教學提供更多的可能性和創新性。
3.1 數據統計技術助力核心資源建設
基于數據統計的國際中文教育資源構建是指利用數據統計技術和方法,從各種類型和規模的語料庫中提取、整理、分析和呈現國際中文教育所需的語言知識和語言材料,為國際中文教育的教學、研究和評估提供有效的支持和服務。
王治敏、俞士汶(2019)通過從語料庫中統計、篩選、分級和分類國際中文教育常用或專業的詞匯,構建出符合國際中文教育需求和特點的詞匯表。首先通過設計季度時點,過濾出未連續出現在歷時語料中的過時詞語,發現常用的新詞語,同時通過常用度提取模型,對詞表中的名詞進行了計算,賦予其統計信息和常用屬性特征,建立了詞語與歷時語料的關聯,發現詞語的分布特點和穩定性度量。該項資源為國際中文教育的詞匯教學和學習提供參考和指導。
劉華(2022)基于現有中醫漢語類教材、中醫專業類教材、中醫網站三大語料來源,建設中醫漢語語料庫;利用詞語聚類算法和圖式語義場理論,形成中醫漢語內部主題分類詞簇,構建了中醫漢語主題分類詞表體系。
3.2 數字化交互技術構建沉浸式學習環境
隨著教學理念的革新和智能技術的發展,“交互型”學習資源成為新的發展趨勢。學習者與學習內容的交互通常被理解為學習者瀏覽閱讀各種類型的學習材料的過程。當學習材料中的內容能夠觸發學生的評論和表達,根據學生的反饋對教學內容做出修改、補充或更新,就實現了學習者與學習內容的交互。
為了建設“交互型”學習資源,需要首先實現知識點的結構化管理、組織和跳轉。在知識庫技術和語義標注技術的支持下,通過改變傳統紙質教材的線性結構表現方式,從教材文本中自動識別出包含的知識特征,并根據教材知識本體和教學論自動標注學習內容,能夠建立全新的知識組織形式,從而根據學習的目標和學習內容自動生成學習計劃,實現個性化的學習內容(武法提、牟智佳,2015)。
數字化交互技術中,虛擬現實技術和增強現實技術是未來探索和發展的重要方向。
周曉軍、馬君(2004、2006)基于VRML技術,綜合多媒體技術,設計了情景模擬教學;此后又進行了基于VRML的遠程對外兒童漢語教學課件設計,但受限于當時的軟硬件條件,這些研究只對虛擬現實技術用于國際中文教育進行了初步的探索和展望。從2015年起,逐漸有研究嘗試運用國外成熟的虛擬現實環境進行教學實驗。自2018年起,隨著虛擬現實技術在軟硬件方面都取得了較大突破,國內虛擬現實技術在國際中文教育中的應用正逐步回歸基本,腳踏實地和具體的學習科目相結合,取得了一定的研究成果,但研究成果以碩士論文為主,實用化程度仍有待提高。
相比國內,國外對虛擬現實技術的研究開展更早、發展水平也更高。得益于研究機構先進的軟硬件設備,有能力引入較為前沿的電子設備。倫斯勒普通話項目這樣較大規模的項目已經開始使用如360°全景屏幕、無標記運動跟蹤傳感器陣列等先進技術(Allen et al., 2019)。部分研究已逐漸開始形成較為完善的技術流程,前述倫斯勒普通話項目就將基于虛擬現實的沉浸式教學所需要的智能技術歸納為以下三個方面:
(1)智能系統。包括語音管道和手勢識別。語音管道記錄和轉錄學生的話語,并對從轉錄文本中檢測到的意圖進行標記。由骨骼跟蹤設備和自定義手勢識別軟件啟用的手勢流,提供有關用戶做出哪些手勢的輸入。
(2)多模式推理。個體模態交互包括話語的音調分析和手勢識別。從組合模態推斷的交互包括解釋指示性話語,并結合指向手勢識別意圖。
(3)多模式演示。合成語音、環境音頻、特效和沉浸式游戲視覺效果在前端呈現系統響應,以完成多模式通信循環。
倫斯勒普通話項目這種結合工程化、提高基于虛擬現實的沉浸式教學的工業化水平的研究方向值得國內國際中文教育界加以重視。
相比于虛擬現實技術,國際中文教育領域對增強現實技術的引入時間更晚。只有在移動設備硬件得到足夠發展后,才有將增強現實技術引入課堂教學的技術基礎。焦燕(2018)提出了基于增強現實技術的對外漢語立體化教材建設,Daria Sinyagovskaya等則基于增強現實技術開發了一款發音訓練應用程序(Sinyagovskaya, 2021:403-408)。
除將增強現實技術用于教學資源建設外,也有不少研究嘗試增強現實技術用于教學實踐。溫韞利用基于增強現實的漢字組合游戲輔助小學生協作漢字學習,表明了引入增強現實技術能有效提高初學者(特別是漢語水平較低的學生)的漢字拼寫知識學習(Wen,Y., 2020)。張勝蘭通過為期三周的課程,實踐了將增強現實融入基于任務的主題語言教學單元,通過與學校商店的合作,引導學生探索發現可供交互的神秘商品和任務,教授與購物、服裝、色彩等相關的中文詞匯和句子結構(Zhang,2021)。陳雅音(2023)進行了基于增強現實技術的漢語詞匯教學行動研究。
目前,增強現實技術已經在國際中文教育領域的教學資源建設方面取得了一定的成果,但在教學活動方面仍存在較大的研究空間。由于增強現實技術涉及與真實世界的互動,將其用于課堂之外的教學實踐需要多方配合才能構建出合適的教學環境。
4. 智能技術賦能教學實踐及測試
4.1 智能技術輔助教學分析
以大數據技術為代表的智能技術為記錄和描寫課堂教學提供了條件,使得教學系統運行過程中產生的海量數據得以保留,這些信息記錄了教學發生、發展及變化的全過程。對這些數據進行挖掘和利用,所得的量化研究結果為創新國際中文教學帶來了強大的驅動力。
智能技術輔助下的教學分析需要經歷如下幾個階段:對研究問題進行分析,數據采集和數據診斷,數據特征收集和模型發現,對特征或模型進行分析和解釋。鄭艷群等(2020)通過智能技術輔助下的教學分析和教學計算,對漢語閱讀教學、聽力教學、口語教學、寫作教學、綜合課教學等課程的教學結構進行了分析,并針對教學過程建立了理論模型和應用模型。
未來,智能技術輔助下的教學分析和教學計算可以將教師的教學行為進行量化,提高教學質量評測的精準度和客觀性,使個性化且全面的教學質量評價與反饋落到實處。
4.2 智能技術輔助教學糾偏
4.2.1 口語發音糾偏
口語發音作為語言學習中的一個重要環節,在國際中文教育中面臨著學習者“中文難”的心理障礙問題。其中口語部分尤其難在聲調,在沒有環境條件的情況下,難以實時指出和發現讀音中哪個音標、音調、聲韻母讀錯、誤讀等情況,不能發現字、詞、句、篇章哪一句話讀得標準。通過AI技術,能夠診斷聲、韻、調等典型錯誤,糾正發音問題。這涉及語音預處理、評測聲學模型自適應、評測特征提取及評分映射等多個環節。
計算機輔助發音訓練系統的核心模塊主要有發音自動評價和發音偏誤檢測。發音自動評價指對發音人的發音進行正面打分,適合評估學習者的整體發音水平;發音偏誤檢測識別學習者的錯誤發音,并給出改進建議,對學習者在之后的學習中改善錯誤發音有積極的影響。
目前主流的發音偏誤檢測系統都是基于自動語音識別的框架。深度神經網絡近些年在自動語音識別應用中取得了較大的成功,顯著降低了語音識別錯誤率,相比高斯混合模型,深度神經網絡采用拼接幀作為輸入,同時具有深層結構,比淺層結構的高斯混合模型具有更強的模型表達能力。張勁松等(2016)應用深度神經網絡進行聲學建模,比較Mel頻率倒譜系數、感知線性預測分析系數和Mel濾波器組系數3種聲學特征參數,并利用網格聯合技術整合3種聲學特征得到候選網格,進而實現對語音的表達。
全連接深度神經網絡參數多,需要大量樣本進行訓練。帶標注的發音偏誤樣本過少容易引起深度神經網絡過擬合,因此,有學者嘗試通過卷積神經網絡來解決這些問題。如甘振業等(2020)利用深度全序列卷積神經網絡和鏈接時序分類技術,建立了一種用于發音偏誤檢測和診斷任務的端到端語音識別方法;楊龍飛等(2017)應用卷積神經網絡進行聲學建模,通過實驗證明卷積神經網絡比之全連接深度神經網絡檢測正確率相當,雖有稍高的錯誤拒絕率,但是獲得了更低的錯誤接受率。
工程應用方面,科大訊飛開發了FiF評分系統,實現了產業化應用。該系統共包含3個模型:(1)語音識別模型,用于識別被試的話語;(2)標準發音模型,用于判斷發音準確度;(3)通用分數映射模型,通過收集大量按照題型區分的口語測試數據提取評分維度特征,并聘請專家對口試錄音進行評分,基于SVM(Support Vector Machine)分類器和非線性回歸映射算法,實現維度特征到人工評分的高精度映射(包括特征到單項分的映射)。該系統可以從發音準確度、重音、流利度、內容完整度四個維度給學生的口語表現打分,每個維度又包含若干所提取的評分特征。
4.2.2 漢字書寫糾偏
計算機輔助漢字書寫教學技術的任務是借助各種數字手寫設備,綜合利用漢字信息處理、計算機圖形學、數字圖像處理、人工智能、文字學等領域的相關知識,研究漢字書寫規范性的智能化、自動化評判方法以及可視化的用戶反饋形式。它的關注點在于評判內容(各種書寫錯誤及書寫規范)的全面性和準確性,反饋效果的直觀性和啟發性,最終實現學習者在無人值守的情況下進行漢字書寫的自由練習。
在智能技術的協助下,目前計算機輔助漢字書寫教學已從初期的單向數字化演示逐漸轉向漢字書寫規范性的智能評判,即標明用戶在書寫過程中的錯誤和缺陷并予以糾正反饋。其關鍵技術環節包括字形匹配和反饋指導。
字形匹配是指建立手寫字與模板字之間的筆畫對應關系。近年來,針對字形匹配技術的研究有很多成果。例如,Hu Zhihui等(2008)首先將漢字的筆畫位置關系表示為屬性關系圖(Attributed Relational Graph),然后通過將筆段投射到坐標軸上實現書寫信息的裁剪,最終建立起模板字和手寫字之間的匹配關系(Hu et al., 2008:344-355);Chen Guey-Shya等(2007)根據斜率將手寫字的筆畫進行歸類,然后與模板漢字進行匹配(Chen et al., 2007);Will W.W. Tang等(2014)使用動態規劃算法進行字形匹配(Tang et al., 2014:273-276);荀恩東等(2015)提出了一種針對脫機手寫字圖像的字形匹配方法;安維華等(2011)提出了一種基于最優化模型的聯機手寫漢字字形匹配方法(An et al., 2011:283-288);吳嘉偉(2017)提出了基于松弛匹配的字形匹配算法:首先定義筆段之間的相似性和筆段之間的相容度,然后利用筆段之間的相容度對筆段相似性進行迭代調整,便可得到最大化的匹配結果。
如何從適當的粒度(筆畫、部件、整字)出發進行錯誤反饋和書寫指導,是智能漢字書寫糾偏仍有待解決的課題。馬樂慧(2018)提出了一種基于字形相對中心的事后評判算法,通過對各種筆畫參數的差異性進行聚類分析,達到了定位手寫漢字中關鍵書寫缺陷的目的,在一定程度上實現了無人值守的評判目標。
未來的計算機輔助漢字書寫教學技術,將以漢字書寫規范性評判和水平評測為研究重點,以全面化、精確化和智能化為主要目標,并且拓展更多的應用場景。
4.3 智能技術輔助中文測試
語言測試是測量學習者語言能力、評估語言教學效果的重要手段。傳統的紙筆測試基于經典測量理論,所有的考生無論其語言水平差異有多大,都必須在相同的時間內完成由相同題目構成的定長測驗。語言水平較高的考生在回答難度較低的部分題目時無法獲得有效的分數差異,而語言水平較低的考生面對難度較高的部分題目時則無法提供有效的測量信息;同時,答對相同題目數量的考生被視為具有同等語言能力,這忽視了題目難易的差別。而基于項目反應理論、借助計算機技術和網絡技術實現的計算機自適應測試,則能夠克服上述缺點,從而達到更高的信度。
北京語言大學謝小慶教授等從2003年開始研究計算機化HSK自適應性考試,并開發了模擬HSK考試系統和練習系統。謝小慶(1999)討論了采用計算機自適應測試技術后,不同難度題目測試分數的等值問題,提出了共同組等值、共同題等值和分半組合等值三種方法。柴省三(2014)從理論上解釋了計算機自適應測試的原理,并設計了計算機自適應測試邏輯過程。
胡韌奮等(2019)嘗試了同時運用自動化項目生成技術和計算機自適應性測試技術構建詞匯考試系統。通過使用多種自然語言處理(NLP)方法從大規模語言資源中自動提取屬性值構建詞匯知識庫,制定了選詞題、發音題和搭配題的具體生成流程,最后將生成的題庫用于計算機自適應性測試實驗。該項目表明這兩項技術的結合可以有效地構建測試項目并顯著降低測試成本。此外,計算機自適應性測試的測試結果可以為自動化項目生成算法提供有價值的反饋。
盡管國際中文教育在智能測試方面起步較早,但總體而言進展緩慢,目前的研究局限于理論研究和模擬測試,缺少能夠落地的真實應用場景。如何將理論探索轉化為工程實踐仍有待進一步努力,智能測試的深入研究也需要更多的實證研究與真實測試場景提供支持。相信在未來,通過獲取真實教學大數據、結合《國際中文教育中文水平等級標準》等教學大綱提出的知識內容和認知能力目標,綜合運用多項智能技術的智能測試系統將有能力最大程度地自動化生成適合真實教學環境與測試場景的高質量評測項目。
4.4 智能技術輔助句法診斷
近年來面向英語學習者的作文自動批改技術發展迅速,成為語言信息處理領域應用研究的新熱點,也引起了國際中文教育界的關注,并嘗試開展面向漢語作為第二語言學習者的中文句法錯誤自動診斷。早期的中文句法錯誤自動診斷一般運用統計機器學習技術、規則分析方法或將兩者結合。在引入深度神經網絡方法后,中文句法錯誤自動診斷獲得了快速發展。由于其效果要明顯好于傳統的統計建模方法,當前幾乎所有的中文句法錯誤自動診斷研究都選擇了基于深度神經網絡的方法。CNN-LSTM模型(LEE, 2017:919-921)、策略梯度LSTM模型(Li, 2018:77-82)、BiLSTM-CRF模型(Liu, 2018:188-193)等技術紛紛被用于中文句法錯誤自動診斷,不同程度地提高了中文句法錯誤自動診斷的準確率和召回率。
近期,Transformer-based network architectures(如BERT,RoBERTa,XLNe,ELECTRA)在很多自然語言處理任務中取得了良好的表現,這一技術也被引入了中文句法錯誤自動診斷。李琳等(2022)對基于Transformer架構的雙向編碼表示轉換模型(Bidirectional Encoder Representations from Transformers,BERT)進行了實驗研究,發現池化策略對模型性能有顯著提高,抽取某個編碼層進行池化的效果要好于多個編碼層拼接在一起進行池化的效果。李龍豪等將基于對抗性學習的ELECTRA模型用于中文句法錯誤自動診斷,在實驗中取得了很好的效果(Lee et al., 2021:111-113)。
深度神經網絡方法大大促進了中文句法錯誤自動診斷的發展,但中文句法錯誤自動診斷仍面臨著缺乏足夠語料的困難。目前中文句法錯誤自動診斷最主要的語料來源是北京語言大學所構建的HSK動態作文語料庫與臺灣師范大學所構建的TOCFL華語文作文語料庫,所能提供的語料數量較為有限且增長緩慢,難以支撐深度神經網絡模型對訓練數據的規模要求。因此,學者們嘗試利用數據增強技術生成訓練文本。例如:韓楊超(2021)嘗試通過基于簡單文本增強法(EDA)的數據增強方法自動合成語法偏誤數據集,取得了一定的效果。
中文句法錯誤自動診斷的進一步發展是主觀題中文作文批改技術。主觀題中文作文批改技術提供包括異常檢測、多維度批改、總評與分項評語等一體化的語文作文自動評閱解決方案,還包括針對諸如文本通順、文采、立意分析、篇章結構等難度較高的維度進行探索。科大訊飛通過語法錯誤診斷、篇章結構質量評估、優美表達識別等不同層面的深度語言分析拓展了傳統作文自動評分系統考察的評分維度,提高評分模型的鑒賞判別能力和評分準確性,并為評分提供了更好的可解釋性,減輕閱卷人力、財力負擔,促進自動批改在課堂教學場景落地,輔助教師課堂教學。
5. 智能技術賦能教學平臺開發
21世紀伊始,國內學者就開始關注基于互聯網的國際中文線上教學。早期的線上教學軟件/網站功能單一、教學效果一般。隨著智能技術的發展,國際中文教育行業發揮多模態技術、虛擬現實技術、人工智能技術、自然語言處理技術和大數據技術的優勢,逐步衍生出全新教學形式,各種中文教學APP和國際中文教育教學平臺快速發展,極大地滿足了國際中文線上教學的需求。
5.1 中文教學APP
教學應用資源主要指國際中文教育類APP。郭晶等(2021)從內容角度出發將現有的漢語學習APP分為語言要素類、語言技能類、專項內容類、專項功能類和其他五大類。其中,綜合類APP最多,可為學習者提供拼音、詞匯、課文學習資源,并可就聽、說、讀、寫各技能維度進行訓練。詞典APP是近年來開發較多的學習平臺,學習者可通過檢索詞匯,通過結構、例句、圖片、書寫漢字等方法學習詞匯。專項內容類APP多面向商務、新聞等具體領域,可在學習者閱讀文本資源時為其提供詞匯等級、筆記等功能信息。專項功能類APP多面向口語、漢字和拼音學習,可為學習者提供專門的語言技能訓練。此外,網絡技術的發展也使得APP的研發逐漸走向智能階段。語音識別技術、文字識別技術、深度學習技術等在中文學習APP中實現越來越豐富的應用。
目前中文學習APP各具特點,從呈現方式來看,中文學習APP有文本、圖片、音頻、視頻、動畫、注釋、故事、游戲、對話等形式,呈現方式總體上較為豐富。從頁面設計來看各具特色,很多APP設計中融入了中文傳統文化元素,如熊貓、書法等。從功能上來看,大部分APP設置了練習測試,學習者針對某一主題或專項學習后,對學習內容進行檢測。部分APP中設置了一定的獎勵機制,激勵學習者提高軟件學習使用率,如“Chinese skill”“Super Chinese”等。一些APP注重用戶的情感體驗功能,如通過社交互動提高用戶體驗,但是現有APP中只有少部分設計了互動功能,交互功能的呈現以批改作業為主,提供問答互動的APP數量較少。另外,只有少量APP設計了評測功能。詳見表1。
從技術應用方面來看,當前語音識別技術在中文學習APP中應用廣泛,如Hello Chinese、正音萬里行、Hello Daily、嗨中文、e學中文、Chinese Skill等APP都可以實現學習者錄音、評測功能。語音合成技術是人機交互的關鍵,在APP中的應用如Chinese skill等。文字識別技術在中文學習APP中的應用也逐漸成熟,Pleco、Skritter、Art of Chinese等漢字學習APP基本已具備文字識別功能,且準確率較高。深度學習技術在APP中的應用尚不廣泛,Super Chinese和SPK Chinese采用了深度學習技術,根據大數據和學習者自身情況,實現個性化的學習方案的制定。
5.2 中文教學平臺
有別于過去的對外漢語教學網站,目前主流的國際中文教學平臺在研發和構建時普遍都遵循著整體性原則、靈活性原則、個性化原則和資源集成原則。整體性原則指的是國際中文教學平臺普遍覆蓋了“課前、課中、課后”完整的教學環節并擁有集“教、學、測、評、管”等于一體的功能。靈活性原則指的是國際中文教學平臺在設計時充分考慮了教師和學生主體之間的需求差異。個性化原則是指國際中文教學平臺可以根據教師和學習者的不同需求,為其提供一系列精細化網絡教學工具或針對性地為學習者推送學習知識和練習題目,盡可能地提高教學效率和學習效率。資源集成原則指的是國際中文教學平臺除了實現“教”與“學”的功能外,還致力于為教師和學生兩大教學主體提供豐富多樣的教學資源和學習資源,最大可能地滿足教師的教學需求和學生的學習需求。
通過對人工智能技術、大數據技術和知識圖譜技術的綜合運用,目前國際中文教學平臺正逐步朝著滿足學習者定制化、自適應學習的需求,提高課堂教學智慧化程度的方向發展,可以輔助老師全面了解每個學生的中文學習現狀,便于提供更精準的教學指導,提升教學效率。其主要過程包括:
(1)對初次使用平臺的學習者從學科能力維度、主題語境維度、書面表達維度建立新用戶畫像,更好地掌握學習者情況;
(2)在平臺使用過程中對中文學習者的學習記錄進行統計分析,形成漢語語言上的學科能力維度、主題語境維度、書面表達維度、閱讀能力考點維度、語言知識點維度等方面的全息個人畫像,進而為學習者制定符合其自身學習特征的學習路徑、學習內容和測評內容,幫助學習者以最優路徑達成學習目標。
(3)結合大數據處理技術和統計學分析方法,在學習者學習、測驗過程中預設數據采集點,通過聽說讀寫等幾個維度反復練習,跟進判斷學習者水平等級;根據用戶使用習慣和學習路徑,對用戶使用的資源和產生的數據進行數據標注,形成因子圖,產生學習和知識的推理;
(4)根據教學知識圖譜,進行學習路徑拓展,進而對其進行個性化資源推薦。
目前正在運營的國際中文教學平臺有全球中文學習平臺①、中文聯盟(網絡孔子學院)②、唐風漢語國際教育云平臺③、長城漢語智慧云平臺④、國際中文智慧教學系統⑤等。此外,近年來許多國內教育科技類公司紛紛布局國際中文教育產業,創建了包括哈兔中文網絡學院⑥、悟空中文⑦、Lingo Ace⑧、Lingo Bus⑨、PPtutor⑩、Chinlingo11等一系列網絡在線中文教學平臺。上述教學平臺的基本信息見表2。
6. 智能技術的未來趨勢
目前,智能技術正向漢語教學各相關領域內部滲透,教學和研究與技術的融合日趨加深。未來智能技術將從以下三個方面持續對國際中文教育產生巨大的影響。
6.1 新基建:智能技術賦能國際中文教育數字基礎設施建設
智能技術正在深刻而廣泛地改變著國際中文教育。在教學資源方面,智能技術改變了國際中文教學資源的面貌,豐富了教學資源的類型與模態;在教學實踐方面,智能技術加強了課堂教學的互動性和學生學習的自主性;在語料庫方面,人工智能、云計算、計算機自動標注等先進技術先后被運用到語料庫建設中,生成技術的應用為超大規模語料庫建設提供了可能;在綜合應用方面,應用多種智能技術手段的智慧教學平臺不斷發展,逐漸涵蓋課前、課中、課后各個環節,為管理者、教師、學生等多種身份的參與者提供更便捷的服務。
未來,國際中文教育必須做好頂層設計,做好國際中文教育相關數據和過程的標準化工作,以智能技術為驅動,加強建設國際中文教育數字基礎設施,打破國際中文教育在全球發展不平衡的局面,借助智能技術賦能在不同國家和區域實現國際中文教育資源共享。
ChatGPT為代表的智能語言大模型將對國際中文教育數字基礎設施提出更高的要求,如何構建國際中文教育領域數據集并與通用智能語言模型融合應用到國際中文教育實踐是國際中文教育高質量發展的關鍵所在。
6.2 新模式:智能技術推動國際中文教育數字化轉型
在未來的一段時間內,如何將國際中文教育與智能技術深度融合仍是一項重要的課題。進入“十四五”以來,國家相繼出臺了一系列建設“數字中國”、數字經濟、數字社會的規劃,旨在加快信息化、數字化與國民經濟的深度融合。在此背景下,中外語言合作交流中心于2021年12月發布了《國際中文在線教育行動計劃(2021—2025年)》,從標準與機制的構建、相關平臺建設、相關資源和課程資源建設等6個方面提出了遠景規劃,到2025年要基本實現國際中文教育數字化、智能化和泛在化的發展目標。①
從產業發展的角度而言,在智能技術發展的初期,業界重視算法的改進和本地數據訓練;但隨著智能技術的發展,對訓練數據量和工程開發提出了越來越高的要求,高昂的數據成本和開發成本推動智能技術出現平臺化的趨勢。如ChatGPT、百度“文心一言”、科大訊飛“星火”、瀾舟認知智能平臺等智能技術平臺都提供了企業化服務的API,為無力承擔智能技術高昂的訓練數據成本和開發成本的中小型服務商提供了引入智能技術的渠道。智能技術將極大促進國際中文教育的數字化轉型,為國際中文教育的高質量發展提供支撐。
6.3 新業態:智能技術催化國際中文教育產學研結合
隨著智能技術在國際中文教育領域的不斷深入,無論是基礎設施建設還是工程應用實踐都對軟硬件、人才、資金等各方面提出了越來越高的要求。基于此,我們認為國際中文在線教育建設應該繼續秉承“共建共享”的原則,倡導廣大高校、科研單位和社會力量齊發力,共同參與研發實踐;加快培養一批具有國際中文教育視野和掌握智能技術的復合型人才,為國際中文在線教育提供智力支持;統籌發展國際中文教育事業和國際中文教育產業,加強產學研互動,打造具有創新性和實用性的漢語國際教育產品,將語言教育與文化、技術、經濟進行深度的融合。
[參考文獻]
曹 鋼,董 政,徐 娟 2023 基于《國際中文教育中文水平等級標準》的詞匯知識圖譜與詞匯自適應學習平臺構建[J]. 國際漢語教學研究(1).
柴省三 2014 計算機自適應性語言測試的智能選題方法研究[J]. 中國教育信息化(8).
陳雅音 2023 基于增強現實技術(AR)的漢語詞匯教學行動研究[D]. 中央民族大學碩士學位論文.
崔希亮 2023 國際中文教育的十二個重點研究領域[J]. 國際中文教育(中英文)8(1).
付可鑫 2022 留學生漢語語言技能類APP學習平臺使用情況考察[D]. 華中師范大學碩士學位論文.
甘振業,周世華,曾 浩,楊鴻武 2020 基于DFCNN-CTC端到端的藏族學生普通話發音偏誤檢測[J]. 西北師范大學學報(自然科學版)(5).
郭 晶,吳應輝,谷 陵等 2021 國際中文教育數字資源建設現狀與展望[J]. 國際漢語教學研究 (4).
韓楊超 2021 基于管道方式的對外漢語語法偏誤自動診斷研究[D]. 鄭州大學碩士學位論文.
焦 燕 2018 基于增強現實技術的對外漢語立體化教材建設初探[A]. 載李曉琪等(編),數字化漢語教學[C]. 北京:清華大學出版社:367-373.
李 琳,董璐璐,馬洪超 2022 基于BERT的漢語作文自動評分研究[J]. 中國考試(5).
劉 嶠,李 楊,段 宏等 2016 知識圖譜構建技術綜述[J]. "計算機研究與發展(3).
劉 華,李曉源 2022 基于語料庫的中醫漢語主題詞表構建[J]. 華文教學與研究(2).
劉 利,周小兵,高雪松等 2023 “ChatGPT來了:國際中文教育的新機遇與新挑戰”大家談(上)[J]. 語言教學與研究(3).
劉玉屏,歐志剛 2022 本土化、多元化、均衡化:人工智能在國際中文教育中的應用探析[J]. 民族教育研究(1).
盧 宇,薛天琪,陳鵬鶴等 2020 智能教育機器人系統構建及關鍵技術——以“智慧學伴”機器人為例[J]. 開放教育研究(2).
陸儉明,崔希亮,李 泉等 2023 “新時代國際中文教育高質量發展與創新”多人談[J]. 云南師范大學學報(對外漢語教學與研究版)(4).
馬箭飛 2022 國際中文教育信息化建設成效及發展方向——在國際中文智慧教育工程成果發布會上的講話[J]. 世界漢語教學(3).
馬樂慧 2018 漢字書寫質量的事后評判與反饋技術研究[D]. 北京語言大學碩士學位論文.
孫飛鵬,于 淼,湯京淑 2021 基于知識圖譜的漢語詞匯學習資源推薦研究——以HSK三級詞匯為例[J]. 現代教育技術(1).
萬海鵬,王 琦,余勝泉 2022 基于學習認知圖譜的適應性學習框架構建與應用[J]. 現代遠距離教育(4).
王治敏,俞士汶 2019 基于大規模語料的漢語教學詞表更新研究——以《漢語國際教育用音節漢字詞匯等級劃分》名詞為例[J]. 辭書研究(5).
王治敏,楊爾弘 2012 面向漢語教學的常用動詞計量研究[J].語言教學與研究(1).
吳嘉偉 2017 計算機輔助漢字書寫教學的交互技術及關鍵算法研究[D]. 北京語言大學碩士學位論文.
武法提,牟智佳 2015 交互式電子教材寫作工具的關鍵技術與基礎技術框架[J]. 中國電化教育(4).
習近平 2023 扎實推動教育強國建設[J]. 求是(18).
謝小慶,許義強 1999 HSK(初、中等)題庫與試卷生成系統[J]. 世界漢語教學(3).
荀恩東,呂曉晨,安維華等 2015 面向書寫教學的手寫漢字圖像筆畫還原[J]. 北京大學學報(自然科學版)(2).
楊龍飛,解焱陸,張勁松 2017 基于卷積神經網絡的發音偏誤趨勢檢測[A] 載第十四屆全國人機語音通訊學術會議(NCMMSC)論文集[C]. 378-382.
葉 軍 2021 沒有萬能的課本,唯有萬有的資源——新時代國際中文教育資源建設的幾點思考[J]. 國際中文教育(中英文)(4).
袁 羲,吳應輝 2023 ChatGPT Plus給國際中文教育帶來的機遇、風險及應對策略[J]. 云南師范大學學報(對外漢語教學與研究版)(3).
張勁松,高迎明,解焱陸 2016 基于DNN的發音偏誤趨勢檢測[J]. 清華大學學報(自然科學版)(11).
張 蕊,鄭艷群 2020 漢語閱讀教學中圖式理論應用形式考察與分析[J]. 海外華文教育(1).
鄭艷群 2020 教學分析與教學計算:大數據時代漢語教學研究方法探新[J]. 國際漢語教學研究(2).
——— 1999 虛擬現實技術和語言教學環境[J]. 世界漢語教學(2).
鄭艷群,陸凱英 2020 初級漢語口語課教學結構和過程理論模型研究[J]. 云南師范大學學報(對外漢語教學與研究版)18(5).
鄭艷群,田晉華 2020 漢語聽力教學結構和過程理論模型研究[J]. 對外漢語研究(2).
鄭艷群,周夢圓 2020 漢語寫作教學結構和過程理論模型研究[J]. 華文教學與研究(3).
鄭艷群,朱世芳 2020 基礎漢語綜合課教學結構和過程理論模型研究[J]. 漢語學習(1).
周曉軍,馬 君 2004 一個基于VRML的對外漢語E-Learning場景設計[A]. 載張普等(編),數字化對外漢語教學理論與方法研究[C]. 北京:清華大學出版社:256-260.
周曉軍,馬 君,肖 靜 2006 基于VRML的兒童對外漢語遠程教學[J]. 系統仿真學報(S1).
Allen, D., R. R. Divekar, J. Drozdal, L. Balagyozyan, S. Zheng, Z. Song, H. Zou, J. Tyler, X. Mou, R. Zhao, H. Zhou, J. Yue, J. O. Kephart, amp; H. Su 2019 The Rensselaer Mandarin Project — A cognitive and immersive language learning environment[A]. In Proceedings of the AAAI Conference on Artificial Intelligence 33(1)[C]. Palo Alto: AAAI Press: 9845-9846.
An W. amp; C. Li 2011 Automatic matching of character strokes for computer- aided Chinese handwriting education[A]. In Proceedings of the International Conference on E-Education, Entertainment and E-Management[C]. IEEE: 283-288.
Chen G, Jheng Y, Lin L. 2007 Computer-based assessment for the stroke order of Chinese characters writing[A]. In Proceedings of the 2nd International Conference on Innovative Computing, Information and Control[C]. IEEE: 160-160.
Cheng, K.H. amp; C.C. Tsai 2012 Affordances of augmented reality in science learning: Suggestions for future research[J]. Journal of Science Education and Technology 22.
Hu Z., H. Leung amp; Y. Xu 2008 Automated Chinese handwriting error detection using attributed relational graph matching[A]. In Li, F. et al. (eds), Advances in Web Based Learning - ICWL 2008. ICWL 2008. Lecture Notes in Computer Science, vol 5145[C]. Berlin: Springer: 344-355.
Lee, L. H., B. L. Lin, L. C. Yu, Y. H. Tseng 2017 Chinese grammatical error detection using a CNN-LSTM models[A]. In Chen, W. et al. (eds.), Proceedings of the 25th International Conference on Computers in Education[C]. New Zealand: Asia-Pacific Society for Computers in Education: 919-921.
Lee, L. H., M. C. Hung, C. Y. Chen, R. A. Chen, amp; Y. H. Tseng 2021 Chinese grammatical error detection using adversarial ELECTRA transformers[A]. In Rodrigo, M. M. T. et al. (eds), 29th International Conference on Computers in Education Conference, ICCE 2021-Proceedings[C]. ICCE: 111-113.
Li, CL, Q. Ji 2018 Chinese grammatical error diagnosis based on policy gradient LSTM model[A]. In Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications[C]. Melbourne, Australia: Association for Computational Linguistics: 77-82.
Liu, YJ, HY, Zhang, MJ, Zhong, HC, Ma 2018 Detecting simultaneously Chinese grammar errors based on a BiLSTM-CRF model [A]. In Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications[C]. Melbourne, Australia: Association for Computational Linguistics:188-193.
Sinyagovskaya, D. amp; M. John T. 2021 Augmented reality in Chinese language pronunciation practice[A]. In 2021 IEEE International Symposium on Mixed and Augmented Reality Adjunct (ISMAR-Adjunct)[C]. IEEE: 403-408.
Tang, W. W.W., L. Hong Va, N. Grace amp; C. Stephen C.F. 2014 Detecting handwriting errors with visual feedback in early childhood for Chinese characters[A]. In Proceedings of the 2014 Conference on Interaction Design and Children (IDC '14)[C]. New York: Association for Computing Machinery: 273-276.
Wen, Y. 2020 An augmented paper game with socio-cognitive support[J]. IEEE Transactions on Learning Technologies 13(2).
Zhang, SL. Integrating 2021 Augmented reality into a task-based thematic language teaching unit[J]. Journal Of Technology And Chinese Language Teaching 12(2).
Zhou, W., H. Renfen, S. Feipeng, amp; H. Ronghuai 2019 An intelligent testing strategy for vocabulary assessment of Chinese second language learners[A]. In Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications[C]. Association for Computational Linguistics: 21-29.
Research on the application and trends of intelligent technologies in international
Chinese education
WANG Zhimin, WANG Yifan, XU Yue
Key words: language intelligent processing; international Chinese education; technology empowerment; digital transformation
Abstract: In recent years, intelligent technologies have gradually infiltrated the field of international Chinese education. Empowered by technologies such as speech recognition, text generation, knowledge graphs, virtual reality, and big data analysis, the field of international Chinese education has seen an increasing variety of products and applications. This paper provides a review of the relevant technologies in intelligent processing for international Chinese education. It explores three main dimensions: empowering the development of teaching resources, empowering teaching practice and testing, and empowering the development of teaching platforms, and organizes the practices and developments of these technologies in the field. The paper proposes new infrastructure, new business models, and new modes emerging from the deep integration of international Chinese education and intelligent technologies. It further summarizes and synthesizes trends in the development of digital infrastructure, the transformation of international Chinese education, and the promotion of the integration of industry, academia, and research in Chinese language education.
【責任編輯 劉文輝】
[收稿日期] 2024-08-04
[作者簡介] 王治敏,女,廣東外語外貿大學國際中文智慧教育研究院/中國語言文化學院,主要研究方向為國際中文教育、計算語言學、語言學及應用語言學,wangzm000@qq.com。王一帆,男,北京語言大學國際中文教育研究院,主要研究方向為文獻計量、國際中文教育,wangyifan@blcu.edu.cn。徐悅,男,北京語言大學國際中文教育研究院,主要研究方向為國際中文教育、語料庫語言學,202221296108@stu.blcu.edu.cn。
[基金項目] 國家社科基金重大項目“國際中文教育數字化智慧教學平臺建設與應用研究”(24amp;ZD253)
① 此文為人工智能多語種處理白皮書(國際中文教育部分)改寫而成。由于作者人數所限,未能加入全部參與人。這里要感謝北京語言大學趙慧周副教授、天津師范大學楊冰冰博士、廈門大學袁亮杰博士的貢獻與付出。
② 教育部.以高質量發展推進學習型社會、學習型大國建設[EB/OL]. (2022-02-21).[2023-11-20]. http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/moe_1485/202202/t20220221_600942.html