










摘要:人工智能生成內容(AI Generated Content,AIGC)掀起了新一輪智能革命,也推動了教育行業的改革與發展。而國際中文教育數字化、智能化的發展,對國際中文教學資源的質量提出了高要求。對此,文章依托SOR理論,整合語音合成、文本翻譯、圖像生成等AIGC技術,構建了由需求分析、智能生成和質量管控三個模塊組成的人工智能多模態教學資源生成框架。之后,文章依托此框架開展了人工智能多模態教學資源生成實踐,并從多角度進行了評價,結果顯示:AIGC技術生成的多模態教學資源具有較好的音頻質量和圖像質量;教師對多模態教學資源應用于教學抱有樂觀態度,并認為這些資源多數達到了可用狀態;學習者對多模態教學資源的使用體驗整體上偏積極,并認為這些資源能夠在多方面促進學習。文章應用AIGC技術生成人工智能多模態教學資源,有助于優化國際中文教學資源建設模式,推動國際中文教育的高質量發展。
關鍵詞:人工智能;AIGC;多模態教學資源;國際中文教育;教育數字化
【中圖分類號】G40-057 【文獻標識碼】A 【論文編號】1009—8097(2024)09—0037—11 【DOI】10.3969/j.issn.1009-8097.2024.09.004
近年來,教育數字化深入推進,人工智能技術越來越多地被應用于多模態教學資源建設,如人工智能助力多模態學科知識的識別與推薦、人工智能創建多模態教育知識圖譜等。而AIGC的出現掀起了新一輪智能革命,Transformer、ChatGPT、Stable Diffusion等生成式人工智能技術為自動、高效地創建多模態教學資源提供了可能。當前,全球學習中文、應用中文的人數持續增長,這就對中文教學資源提出了規模化需求。但是,現有的依靠傳統手工或作坊的資源創建方法不能滿足這種需求,資源建設的方法和手段有必要進行革新[1]。鑒于此,為加強國際中文教學資源建設的力度,本研究嘗試應用AIGC技術構建人工智能多模態教學資源生成框架,在此基礎上開展人工智能多模態教學資源生成實驗,并從多個方面對生成的資源進行評價,以期為國際中文教育創新教學資源建設模式提供技術應用思路。
一 文獻綜述
1 多模態資源與教學相關研究
O’Halloran綜合多位專家的觀點,將多模態定義為“綜合語言、視覺圖像、其他符號資源,開展紙質、數字媒體和日常生活文本、事物、事件的理論分析與實踐”[2]。此后,Stein[3]提出“多模態教學模式”的概念,并嘗試在教學實踐中應用此模式。在教學活動中,綜合運用視覺上的圖像信息和聽覺上的聲音信息,能顯著提升教學的質量和學生學習的能力。在國際中文教育領域,相關研究證實音頻、圖像、文本等多模態資源能夠刺激學生產生不同的模態感受,這些資源在中文聽力課堂中起到了積極作用[4]。但是,目前國際中文教育缺乏多模態教學材料,迫切需要通過創建和整合來提供視、聽、讀等多種感官輸入的資源,以此幫助中文學習者提高產出和表達[5],而AIGC技術的出現為解決這一問題提供了良好契機。
2 AIGC資源生成能力相關研究
從概念來看,AIGC是指通過人工智能算法生成內容,包括文本、音頻、圖像等。目前,AIGC已能滿足生成內容多樣性、可控性的進階需求[6]。由于國際中文教育領域已有教材中的字、詞、句子、篇章、語法等事實性知識是語言教學的核心,本研究直接使用已有的教學內容文本、考慮在給定教學文本情況下如何生成對應的音頻和圖像這一問題,重點對語音合成、文本翻譯、圖像生成等相關技術進行闡述。
①語音合成技術:指計算機根據文本內容生成語音內容,產生與人類朗讀文本一樣的聲音效果,廣泛應用于語音助手、自動客服、自動播放、對話機器人等場景。不同于繁瑣的傳統語音合成技術,人工智能技術步入神經網絡階段后,通過文本直接生成語音這種端到端方式即可實現語音合成。Google發布的Tacotron2模型是典型的端到端架構,減少了語言和聲學模塊,只需文本序列、語音聲譜圖即可實現音頻合成[7]。此外,微軟基于Uni-TTSv3推出了神經網絡文本轉語音功能,在有聲小說、短視頻社交等互聯網場景中得到了廣泛應用。
②文本翻譯技術:一般指利用計算機實現一種語言到另一種語言的文本轉換,是使用機器代替人工進行翻譯的技術。在現有的人工智能技術環境下,文本翻譯過程實質上是一種信息編碼、解碼過程,算法模型圍繞編碼器、解碼器進行創新和優化。近年來,多種注意力機制被應用于自然語言處理領域,其中基于多頭自注意力機制的Transformer模型表現十分突出[8],此模型以其優異的編碼、解碼能力使得端到端的文本翻譯在準確性方面更進一步。
③圖像生成技術:文本生成圖像的研究在2016年獲得關注,起初研究者借鑒的是生成對抗網絡(Generative Adversarial Network,GAN)、變分自動編碼器(Variational Auto-Encoder,VAE)這類生成式模型的思路,但這些模型在訓練穩定性、圖像多樣性等方面稍顯不足。自2020年以來,基于穩定擴散模型(Stable Diffusion Model)生成圖像成為研究熱點。相比其他模型,穩定擴散模型生成圖像時在穩定性和真實性方面表現更好。德國慕尼黑大學提出的潛空間擴散模型(Latent Diffusion Model)對正向和逆向擴散過程進行了改進,此模型采用預訓練感知壓縮、條件時序去噪、交叉注意力等技術[9],在提高圖像生成效率的同時也保證了圖像質量。
3 AIGC促進國際中文教育資源建設相關研究
從整體發展水平來看,國際中文教育尚處于智能教育的初級階段,需要構建多場景、多模態、多應用的數字資源庫[10]。同時,國際中文教育資源建設需與人工智能技術相適配,以支持探索新的教學模式和構建智慧學習環境[11]。此外,中國的傳統文化、當代文明成就、現代化建設經驗需以多模態的資源形式在世界范圍內進行展示,也要求充分應用人工智能技術拓展資源建設的渠道、拓寬資源建設的范圍[12]。AIGC區別于傳統人工智能技術的優勢,在于能夠自動生成內容,且能夠推動教育資源應用從“診斷-定制-分發”轉向“匯聚-加工-生成”[13]。因此,AIGC可作為資源內容質量進化的核心驅動力,穩步推進資源內容的質量提升[14]。鑒于AIGC具有大規模創建多模態資源的能力,國際中文教育有必要探索利用AIGC促進教育資源建設的新模式。在應用AIGC技術開展多模態教學資源建設實踐時,首先應立足于國際中文教育學科進行需求分析,并針對具體的教學內容和教學對象,對各類模態資源進行精心設計,以此保證資源的精確性和適應性[15]。其次,鑒于AIGC技術蘊含多模態知識加工的能力,能全面、靈活地進行內容創造[16],因此教學資源的創建工作可以通過AIGC技術驅動來完成。最后,AIGC生成資源時可能存在不符合國家法律法規、教育規范、學科標準等要求的情況,使得生成的資源出現一些有害信息、錯誤信息、重復信息等[17],因此對資源進行質量檢視、審查也必不可少。
二 人工智能多模態教學資源生成框架
“刺激-有機體-反應”(Stimulus-Organism-Response,SOR)理論由Mehrabian等[18]提出,系統地解釋了個體行為發生的起因、經過、結果以及這三者之間的關系。其中,刺激(S)是指某些影響有機體心理與認知活動的因素;有機體(O)通常指個體,刺激作用于個體,將使個體產生特定的情緒和認知狀態;反應(R)則是個體經過刺激后產生或表現出的行為反應。依托SOR理論,整合語音合成、文本翻譯、圖像生成等AIGC技術,本研究構建了包含需求分析、智能生成、質量管控三個模塊的人工智能多模態教學資源生成框架,如圖1所示。
①需求分析模塊:與刺激(S)相對應,是指中文教師要落實以學習者為中心的需求分析,達到聽力、口語、綜合課等的教學目標和教學要求。之后根據教學目標和教學要求,結合知識體系分析結果,選取或開發教學內容,獲得字、詞、句子、篇章等組成的中文教學文本。同時,根據AIGC技術中不同算法模型的要求,確定由知識、指令、參數等組成的模型輸入參數。這些參數作為智能生成模塊的輸入,驅動模型完成相應的內容生成。
②智能生成模塊:與有機體(O)相對應,是指接收刺激(S)的模型輸入參數通過AIGC模型的生成功能完成資源創建,創建的資源主要包括候選音頻和候選圖像。其中,候選音頻生成是應用語音合成技術實現文本轉音頻;候選圖像生成是先應用文本翻譯技術,實現輸入參數從中文到英文的轉換,然后應用圖像生成技術實現文本轉圖像,創建多個候選圖像。在上述處理過程中,無論是音頻還是圖像的生成任務都可根據需求調用云端模型或部署本地模型來完成。
③質量管控模塊:與反應(R)相對應,是對生成的候選資源(包括候選音頻、候選圖像)進行檢查和標注。在對候選音頻進行一致性檢查時,先通過編寫專門程序對生成的音頻進行語音識別,再用獲得的文本內容與初始文本進行比較,以確定合成的語音與文本是否一致。而AIGC生成的候選圖像有可能不滿足要求或者出現圖像與文本內容不相符的情況,這就需要對圖像進行質量管控,而最佳圖像常通過人工標注的方式從生成的多張圖像中選出,具體做法是先基于Web技術開發一個標注系統,然后標注人員在此系統上瀏覽候選圖像并從中選擇最佳圖像。經過對候選音頻一致性的檢查,可以得到每個文本的最佳發音音頻,以此作為聽覺模態形式的教學資源;而經過人工選擇,可以得到每個文本的最佳圖像,以此作為視覺模態形式的教學資源。
值得一提的是,人工智能多模態教學資源生成框架可以通過編程實現一鍵生成資源,具備了規模化創建教學資源的能力。盡管AIGC技術的發展速度較快,能夠提供服務的平臺也不少,但是使用者依然需要考慮一定的成本因素(如購買算力資源),這就要求根據當前的技術環境,適當選擇開源、免費使用的模型進行內容生成,常用的AIGC技術平臺如表1所示。
三 人工智能多模態教學資源生成實驗
考慮到在全球范圍內學中文、用中文的需求逐年增加,且在教學中培養學習者使用中文進行交際的能力非常重要,本研究開展了人工智能多模態教學資源生成實驗,旨在生成用于口語教學的多模態教學資源,以幫助教師培養學習者對句子的理解、鞏固已有字詞知識,并提高學習者的中文交際能力。
1 知識體系分析
實驗以國際中文教材《漢語900句》中的句子作為教學內容[19],生成音頻、圖像等多模態教學資源。該教材包含900句漢語,內容主要以話題形式呈現,圍繞話題以句子形式展開對話。全書包含見面、就餐、購物、出行、住宿、理財、看病、學習、娛樂、運動10個主話題,每個主話題下面又包含4~11個子話題,其中5個主話題的知識體系示如表2所示。
從表2顯示,學生的主要學習任務是鍛煉常用話題的語句聽說能力和在話題語句反映的社交場景中用語言進行交際的能力。實驗選擇的教材內容具有覆蓋話題數量多、社交場景多樣化等特征,因此簡單的文本材料不利于培養學習者的中文應用能力。而AIGC技術生成的多模態教學資源包含音頻和圖像,這些資源可為學習者的語言學習提供有力支持:
①產生多通道刺激,降低語言學習認知負荷。在實際的課堂教學中,音頻和圖像是一種可視化的教學資源,其內容通過“視覺表征+聽覺表征”的雙通道來表征,使得學習者在獲得最大信息量輸入的同時降低認知負荷[20]。具體而言,音頻可以提高學習者對中文音節、聲調等要素的學習效率,提高聽力水平;圖像可以讓學習者對中文詞語、句子獲得更直觀的理解。
②具象描述話題場景,加強基于知識的理解、聯想和記憶。在漢語口語教學中,話題任務是內容,但學習者經常在課堂上能夠學會語句、在現實場景中卻想不出該說什么。而AIGC技術可以把語言和文化知識從抽象的文本符號轉變為具象的聲音和圖像符號,能夠貼切地展現話題內容所代表的語言交際場景,使得學習者在語言學習時能夠產生興趣、提高開口率。
③使用方式靈活,促進個性化學習和人機協作學習。多模態教學資源使用便捷,作為數字化資源構成課前、課中、課后的學習材料,學習者可以根據自己的需求反復使用資源、自行糾錯、鞏固所學知識,以此達到個性化學習的目的。AIGC擁有人類無法比擬的知識儲備,使用得當能夠生成具有創造性、想象力的音頻或圖像資源,有利于培養學習者的想象力和創新思維。
2 實驗過程
在開展實驗時,本研究從《漢語900句》話題內容中隨機選取40個句子用于音頻生成和圖像生成。依托人工智能多模態教學資源生成框架,經過生成實驗后每個句子獲得一個音頻和一個圖像,兩者組合成一個完整的多模態教學資源,總計40個。
①音頻生成:本研究使用微軟Azure神經網絡文本轉語音服務(Azure Neural TTS),實現從中文文本到語音的生成[21]。這需要先設置合成參數,包括選擇“Yunxi(Neural)-云希”聲音模版,說話風格選擇“General”,角色扮演選擇“Default”,語速設置為1.05,音調設置為1.05,輸入文本獲得合成音頻。以“對面是個公園”文本為例,本研究使用Praat 6.3.01軟件提取該文本對應的國際中文教師真人發音和機器發音的語圖并進行對比,結果如圖2所示。
圖2表明,國際中文教師的真人發音和機器發音在語圖表現上有較高的相似度;無論是元音、輔音的發聲特點還是整體的音高走勢,人機表現都有相同之處;盡管真人發聲語圖和機器發聲語圖略有差別,但從語圖展示的聲學特征來看,生成的音頻可以達到人類發聲對文本感知與理解的效果。另外,在生成音頻時,可以通過調用人工智能服務商提供的接口對生成的語音進行識別,計算獲得的文本與原始文本的相似度,以此評估語音和文本的相符程度——當相似度在90%以下時,說明生成內容存在一定的問題,需要重新生成音頻,直至滿足標準。
②圖像生成:考慮到圖像生成的效果、模型成熟度、是否免費使用等因素,本研究采用英文生成圖像的間接方法,由Hugging Face和GitHub提供的預訓練模型實現。首先,使用中文翻譯成英文的預訓練模型[22],實現中文文本翻譯成英文文本;之后,使用基于Latent Diffusion Model的預訓練模型生成圖像[23];為了生成滿意的圖像文件,每個文本內容重復8次推理步驟,生成8張圖像;最后進行人工判斷,選取最佳圖像。為了提高標注效率、實現規模化選取,本研究利用HTML5、HTTP接口和數據庫技術,通過編程構建圖像標注系統,使標注人員能以可視化的方式進行操作。以“我們想買一個小冰箱”為例,標注結果如圖3所示,可以看出:圖像生成模型通過大規模語料學習,獲得了創建圖像所需要的特征數據,句子關鍵詞“小冰箱”幾乎在所有圖像中都得到了刻畫,但大部分冰箱的展示形象不佳。由此可見,通過人工選擇最符合文本內容的圖像很有必要,示例中的圖g從內容及其與文本的關聯度來看應為最佳圖像。通過圖像標注系統,本研究實現了對全部40個文本對應圖像的標注,并以結構化的方式存儲到數據庫,形成了一個多媒體教學資源庫。
四 人工智能多模態教學資源評價
生成式人工智能的本質是基于概率計算創建內容,生成的內容具有不確定性,需要從多角度進行評價,如資源角度的生成質量評價、教師角度的可用性評價、學習者角度的反饋評價。對此,本研究從生成的40個多模態教學資源中隨機選取5個作為評價對象,依次命名為R1~R5,每個資源都包含文本對應的音頻(A1~A5)和圖像(P1~P5)。
1 生成質量的評價
(1)音頻生成評價
音頻生成評價主要衡量AIGC生成的音頻是否達到一定標準、能否被人類所感知。在實踐中有很多方法進行音頻質量評估,常用的是平均意見打分法(Mean Opinion Score,MOS),此方法由人類專家對音頻文件進行打分,具有一定的主觀性。另外,也可以通過計算機進行評分,如語音質量知覺評估法(Perceptual Evaluation of Speech Quality,PESQ),此方法是一種客觀評價方法。隨著計算機和人工智能技術的發展,還出現了基于深度神經網絡建模的新式評估方法,即不依賴原始音頻,由計算機基于算法模型自動計算分數。在采用此方法評估語音質量的解決方案中,比較典型的是Gabriel Mittag開發的無參考語音質量評價(Non-intrusive Speech Quality Assessment,NISQA)程序。此程序可評估的指標包括語音整體質量、噪聲、音色、連貫性、響度等[24],各指標的分值范圍取0~5分,分值越高,說明相應指標反映的語音質量越好。由于本研究評價文本生成的音頻,并沒有原始音頻可作對比,另外考慮到評分的客觀性要求,本研究采用NISQA評估程序進行評價,得到AIGC生成的語音質量得分,如表3所示。表3顯示,音頻A1、A3、A5各指標的分值介于4~5分,說明這3條音頻的語音質量較好。需注意的是,語音合成模型在生成音頻時,文本音素、聲調等會影響生成的音頻質量。5個音頻中A2、A4各指標的分值較低,原因主要在于A2對應文本的音素數量和聲調數量相對較少,而A4對應文本的音素數量和聲調數量相對較多。因此,如果生成的音頻質量不佳,可以在不影響教學效果的前提下適當調整文本內容進行多次生成,再從這些音頻中選用最佳音頻。
表3" AIGC生成的語音質量得分
(2)圖像生成評價
本研究采用圖像生成技術創建圖像資源,在進行評價時要注意:①通常來說,圖像質量評價分為有參考和無參考兩類。其中,有參考是指在有參考圖像的情況下將參考圖像與生成圖像進行比較,主要的方法有峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)分析法、結構相似性度(Structural Similarity,SSIM)指數分析法等;無參考是指在沒有原始參考圖像的情況下通過算法進行圖像質量評估,主要有自然圖像質量評估(Natural Image Quality Evaluator,NIQE)方法、視覺信息保真度(Visual Information Fidelity,VIF)分析法等。②考慮圖文對齊,即圖像是否反映文本描述的內容。這通常依托訓練好的模型來評估圖像表示的內容是否與文本內容相匹配,常用的有CLIP Score(Contrastive Language-Image Pre-training Score)方法。此方法主要用于評估圖像標題與圖像內容之間的相關度,也可用于文本生成圖像的圖文對齊一致性評價[25],評估取值范圍為0~100分,越接近100分,說明圖文一致性越高。
鑒于本研究是從文本到圖像的生成、沒有可作比較的原始圖像,故本研究在評價圖像質量時采用NIQE方法、在評價圖文對齊時采用CLIP Score方法,得到AIGC生成的圖像質量得分,如表4所示。其中,NIQE方法是通過一定算法來計算圖像的自然度、失真程度等,取值范圍為0~100分,分值越低,說明圖像質量越好。表4中5個圖像的NIQE得分介于17~23之間,說明采用NIQE方法進行評價得到的生成圖像質量得分較好。在圖文對齊方面,采用CLIP Score方法進行評價的結果表明生成的圖像與文本的相關度一般(CLIP Score得分介于26~32之間),說明圖文一致性較低。鑒于CLIP Score在不同的圖文場景進行評價時存在差異,故在得分不夠理想的情況下,可在具體的實踐中將人工評估的方式作為補充來進行圖像生成評價。
2 教師對多模態教學資源可用性的評價
在課堂中,教師通過融合使用多模態教學資源的方式進行教學。例如,在口語課中對于同一個句子,教師可以播放語音讓學生跟讀,也可以讓學生看著圖像重復語音或自由發言。因此,可將語音、圖像視為一個整體來進行可用性評價。本研究參考美國北卡羅來納州公共教學部門聯合其他機構開發的數字資源選擇標準[26],編制了“國際中文人工智能多模態教學資源可用性評價”調查問卷,其維度、指標與題項設置如表5所示。問卷中一個指標對應設置一個題項,共9個題項。各題項的內容與指標含義保持一致,采用李克特五點量表計分,從“基本不同意”到“非常同意”記為1~5分。由于每個多模態教學資源都設有這9個題項,故資源R1~R5共設有45個題項。問卷整體的Cronbach’s α系數值為0.973,說明問卷的信度良好。
2022年11月,本研究以國際中文教育公派教師、國際中文教育志愿者教師、海外本土中文教師等組成的一線國際中文教師為調查對象,開展了線上問卷調查。在填寫問卷前,教師需先完成文本閱讀、音頻聆聽、圖像瀏覽等操作,再按照問卷題項進行資源可用性評價。調查結束后,本研究共收回問卷108份,去除無效問卷后,得到有效問卷94份。采用Jamovi 2.3.16對有效問卷數據進行整理、統計,本研究得到多模態教學資源可用性評價的平均得分,如表6所示。
從表6可以看出:①資源方面,5個多模態教學資源的均值都超過了3.50分,其中R3、R5的均值都超過了3.80分,說明教師普遍對AIGC生成的多模態教學資源應用于教學抱有樂觀態度。②指標方面,“設計”維度的3個指標均值都超過了3.80分,說明教師普遍認為多模態教學資源在激勵學生的學習積極性、清晰地展現知識內容、降低資源的使用門檻等方面有積極作用;在“內容”維度,教師更看重恰當性(均值為3.82),即多模態教學資源對文本內容的還原性是否達到應有水平;而在“技術”維度,教師更看重目標性(均值為3.81),即資源能否加強教學內容、支持教學活動。
熵權法(Entropy Weight Method,EWM)可以按照指標的熵值進行排序,篩選出具有較好區分度的指標,具有精度高、客觀性強、適用性好等特點[27]。本研究采用熵權法計算每個指標的權重,使用熵值來描述指標的離散程度——熵值越小,離散程度越大,說明指標在評價體系中越重要。本研究對調查問卷數據進行重整,按每份問卷5個資源、每個資源對應94個樣本計算,共獲得470個樣本,而每個樣本包含9個指標值,由此形成形狀為(470, 9)的樣本得分矩陣。本研究首先對得分矩陣進行標準化,接著計算各指標的信息熵,然后計算各指標的權重,最后根據公式(1)計算每個資源的評價得分。其中,k=94,a∈[0, 4],r0~r4依次表示R1~R5資源的評價得分,Sab表示第a個資源中第b個樣本的評價得分。基于熵權法的資源評價結果如表7所示,可以看出:5個多模態教學資源可應用于教學的評價得分都超過了3.50分,其中R3、R5的評價得分都超過了3.80分,換算成百分值,即教師認為多模態教學資源的可用性程度超過了70%。
公式(1)
3 基于學習者感受的反饋評價
本研究依據《漢語900句》教材使用5個多模態教學資源進行教學設計并開展課堂教學實踐,教學實踐任務由教育部中外語言交流合作中心派至英國孔子學院的志愿者教師完成。本研究以英國某孔子學院中文水平為初中級的精品小班學習者為實驗對象,根據受訪者意愿,對其中的兩名學習者進行了訪談。其中,學生A認為文本、音頻和圖像融合在一起能更容易地學習詞語和句子,并表示“學習新知識時圖像讓自己記憶深刻”“在手機上同時使用音頻和圖像進行學習,也是非常好的體驗”“圖像使學習更有趣,提高了自己聯想、思考的積極性”。而學生B認為“圖像有助于自己理解相應文本表達的含義”“看著圖像說句子這樣的學習方式對于培養語言能力幫助較大”。另外,兩位學生都覺得AIGC語音比教師語音的語速更快,且節奏缺少變化,但如果語音聽起來很流利就能夠促進學習。總的來說,學習者對多模態教學資源的使用體驗整體上偏積極,并認為這些資源能夠在多方面促進學習。
五 結語
本研究聚焦于國際中文教育,構建了包含需求分析、智能生成、質量管控三個模塊的人工智能多模態教學資源生成框架,開展了人工智能多模態教學資源生成實驗,并從資源角度、教師角度和學習者角度進行了人工智能多模態教學資源評價。應用AIGC技術生成的多模態教學資源賦能國際中文教學實踐,不僅能夠支持教師開展教學活動,而且能夠在多方面促進學習者的學習。更重要的是,AIGC技術的應用拓展了教學資源建設的廣度和深度,推動了國際中文教學資源數字化、智能化的轉型升級,其生成的人工智能多模態教學資源能夠在優化國際中文教學資源建設模式、促進國際中文教育的高質量發展方面發揮積極作用。
參考文獻
[1]鄭艷群.漢語教學資源研究的新進展與新認識[J].語言文字應用,2018,(3):106-113.
[2]O’halloran K L. Inter-semiotic expansion of experiential meaning: Hierarchical scales and metaphor in mathematics discourse[A]. From Language to Multimodality: New Developments in the Study of Ideational Meaning[C]. London: Equinox, 2008:231-254.
[3]Stein P. Rethinking resources: Multimodal pedagogies in the ESL classroom[J]. TESOL Quarterly, 2000,(2):333-336.
[4]趙春輝.多模態教學在對外漢語聽力課中的應用與研究[D].錦州:渤海大學,2017:30-34.
[5]鐘英華,勵智,丁蘭舒.“表達驅動”教學理念與國際中文教學資源建設[J].天津師范大學學報(社會科學版),2022,(6):1-7.
[6]中國信通院.京東探索研究院.人工智能生成內容(AIGC)白皮書[OL].
lt;http://www.caict.ac.cn/sytj/202209/P020220913580752910299.pdfgt;
[7]Shen J, Pang R, Weiss R J, et al. Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions[OL].
lt;https://arxiv.org/pdf/1712.05884.pdfgt;
[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[OL]. lt;https://arxiv.org/pdf/1706.03762.pdfgt;
[9]Rombach R, Blattmann A, Lorenz D, et al. High-resolution image synthesis with latent diffusion models[OL].
lt;https://arxiv.org/pdf/2112.10752.pdfgt;
[10]馬箭飛,梁宇,吳應輝,等.國際中文教育教學資源建設70年:成就與展望[J].天津師范大學學報(社會科學版),2021,(6):15-22.
[11]梁宇,劉晶晶,李諾恩,等.內涵式發展之“內涵”:國際中文教育教學資源建設的維度[J].天津師范大學學報(社會科學版),2023,(1):38-44.
[12]劉玉屏,歐志剛.本土化、多元化、均衡化:人工智能在國際中文教育中的應用探析[J].民族教育研究,2022,(1):162-169.
[13]吳砥,李環,陳旭.人工智能通用大模型教育應用影響探析[J].開放教育研究,2023,(2):19-25、45.
[14]杜修平,王崟羽,陳子堯.AIGC賦能“中文+職業教育”資源智能生成與質量進化——內涵、機理與模式構建[J].電化教育研究,2024,(5):121-128.
[15]王祖嫘.論美國中文沉浸式教學的多模態話語[J].民族教育研究,2016,(4):124-129.
[16]胡泳,劉純懿.UGC未竟,AIGC已來:“內容”的重溯?重思與重構[J].當代傳播,2023,(5):4-14.
[17]童莉莉,曾佳,底穎.AIGC視域下數字教育產品的四維風險矩陣與治理框架[J].現代遠程教育研究,2024,(2):12-19.
[18]Mehrabian A, Russell J A. An approach to environmental psychology[M]. Cambridge: The MIT Press, 1974:1-266.
[19]李朋義.漢語900句[M].北京:外語教學與研究出版社,2006:20-100.
[20]鄭世玨.對外漢語可視化教學方法論[M].北京:清華大學出版社,2013:20-21.
[21]Microsoft Azure.文本轉語音——真實AI語音生成器[OL].
lt;https://azure.microsoft.com/zh-cn/products/ai-services/text-to-speech/gt;
[22]Liam168. liam168/trans-opus-mt-en-zh·Hugging face[OL].
lt;https://huggingface.co/liam168/trans-opus-mt-en-zhgt;
[23]InvokeAI. Invoke AI - Generative AI for professional creatives[OL]. lt;https://github.com/invoke-ai/InvokeAIgt;
[24]Mittag G. NISQA: Speech quality and naturalness assessment[OL]. lt;https://github.com/gabrielmittag/NISQAgt;
[25]Hessel J, Holtzman A, Forbes M, et al. CLIP Score: A reference-free evaluation metric for image captioning[OL].
lt;https://arxiv.org/pdf/2104.08718.pdfgt;
[26]North Carolina Department of Public Instruction, Friday Institute at NC State University. Quality review tools for digital learning resources[OL]. lt;https://www-data.fi.ncsu.edu/wp-content/uploads/2021/03/03115828/content_quality_review_tools.pdfgt;
[27]翟雪松,朱雨萌,張紫徽,等.高校教育信息化治理能力評價:界定?實踐與反思[J].開放教育研究,2021,(5):24-33.
Generation and Evaluation of Artificial Intelligence Multimodal Teaching Resources
——Based on the Application of AIGC in International Chinese Language Education
OU Zhi-Gang"" "LIU Yu-Ping[Corresponding Author]"" "QIN Ke"" "WANG Yi" ""LI Xin-Yi
(College of International Education, Minzu University of China, Beijing, China 100081)
Abstract: Artificial intelligence generated content (AIGC) has sparked a new round of intelligence revolution and also promoted the reform and development of the education industry. The digital and intelligent development of international Chinese language education has put forward high requirements on the quality of international Chinese language teaching resources. Therefore, relied on stimulus-organism-response (SOR) theory, this paper integrated AIGC technologies such as speech synthesis, text translation, image generation, etc., and constructed the generation framework of AI multimodal teaching resources that consisted of three modules of requirements analysis, intelligent generation, and quality control. After that, based on this framework, the paper carried out the generation practice of AI multimodal teaching resources and evaluated it from multiple perspectives. The results showed that the multimodal teaching resources generated by AIGC technologies had better audio quality and image quality; teachers were optimistic about the application of multimodal teaching resources in teaching and believed that most of these resources had reached the usable state. On the whole, learners had a positive user experience with multimodal teaching resources, and regarded that these resources could facilitate learning in various aspects. The application of AIGC technologies to generate AI multimodal teaching resources can help optimize the construction model of international Chinese language teaching resources and promote the high-quality development of international Chinese language education.
Keywords: artificial intelligence; AIGC; multimodal teaching resource; international Chinese language education; education digitization
*基金項目:本文為世界漢語教學學會全球中文教育主題學術活動計劃項目“AIGC國際中文多模態教學資源的生成與評估研究”(項目編號:SH23Y33)的階段性研究成果。
作者簡介:歐志剛,在讀博士,研究方向為國際漢語教學、人工智能,郵箱為ouzhigang@139.com。
收稿日期:2024年4月30日