999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多模態(tài)大模型驅(qū)動(dòng)的學(xué)科知識(shí)圖譜進(jìn)化及教育應(yīng)用*

2023-12-20 01:21:52羅江華張玉柳
現(xiàn)代教育技術(shù) 2023年12期
關(guān)鍵詞:模態(tài)模型教育

羅江華 張玉柳

多模態(tài)大模型驅(qū)動(dòng)的學(xué)科知識(shí)圖譜進(jìn)化及教育應(yīng)用*

羅江華 張玉柳

(西南大學(xué) 西南民族教育與心理研究中心,重慶 400715)

當(dāng)前,以GPT-4為代表的多模態(tài)大模型正在促進(jìn)通用人工智能向多模態(tài)融合的方向發(fā)展。受益于多模態(tài)思維鏈、涌現(xiàn)能力和提示工程等應(yīng)用技術(shù),學(xué)科知識(shí)圖譜能夠更好地形成一種將抽象的符號(hào)概念和多模態(tài)的數(shù)據(jù)加以關(guān)聯(lián)的智能擴(kuò)展范式,有效解決現(xiàn)有圖譜構(gòu)建中存在的諸多不足,進(jìn)一步推動(dòng)多模態(tài)學(xué)科知識(shí)圖譜的創(chuàng)生,為智慧教育服務(wù)的發(fā)展提供有力的支持。基于此,文章首先解構(gòu)多模態(tài)大模型與學(xué)科知識(shí)圖譜的關(guān)系;然后,文章探析了多模態(tài)大模型對(duì)學(xué)科知識(shí)圖譜的驅(qū)動(dòng)前提,從進(jìn)化角度探討多模態(tài)學(xué)科知識(shí)圖譜的基本內(nèi)涵和構(gòu)建框架;最后,文章提出多模態(tài)學(xué)科知識(shí)圖譜的四大教育應(yīng)用場景,包括推動(dòng)教育資源多元聚合、助力智能教學(xué)產(chǎn)品開發(fā)、賦能學(xué)科資源個(gè)性推薦以及促進(jìn)人機(jī)協(xié)同智慧教學(xué),以期為學(xué)科知識(shí)圖譜的相關(guān)研究提供借鑒與啟發(fā)。

多模態(tài)大模型;多模態(tài)數(shù)據(jù);學(xué)科知識(shí)圖譜;多模態(tài)學(xué)科知識(shí)圖譜;教育應(yīng)用

引言

2021年,我國教育部等六部門印發(fā)《關(guān)于推進(jìn)教育新型基礎(chǔ)設(shè)施建設(shè)構(gòu)建高質(zhì)量教育支撐體系的指導(dǎo)意見》(下文簡稱《指導(dǎo)意見》),提出通過構(gòu)建學(xué)科知識(shí)圖譜(Discipline Knowledge Graph,DKG),對(duì)數(shù)字教育資源的學(xué)科知識(shí)脈絡(luò)進(jìn)行語義建模和關(guān)聯(lián)表示,以圖模型賦能數(shù)字教育資源新基建[1]。在《指導(dǎo)意見》的引領(lǐng)下,我國教育部門開始積極探索DKG的教育應(yīng)用。從實(shí)踐效果來看,DKG已成為“新資源”的重要支撐要件,為智慧教學(xué)模式的發(fā)展提供了豐富的理論基礎(chǔ)和堅(jiān)實(shí)的技術(shù)支撐[2]。但現(xiàn)有圖譜構(gòu)建方法仍存在諸多不足,不僅構(gòu)建效率低、人工成本高,而且多數(shù)只考慮單一文本數(shù)據(jù),忽略了多模態(tài)數(shù)據(jù)的特征表示和語境信息[3]。由此,如何將現(xiàn)有學(xué)科知識(shí)脈絡(luò)與圖像、視頻等多模態(tài)數(shù)據(jù)進(jìn)行關(guān)聯(lián)表征并構(gòu)建多模態(tài)學(xué)科知識(shí)圖譜,成為當(dāng)前發(fā)展智慧教育服務(wù)亟待解決的問題之一[4]。

當(dāng)前,大模型已經(jīng)從視覺感知和語言認(rèn)知發(fā)展至多模態(tài)認(rèn)知智能,促使人工智能夠更好地為各種應(yīng)用場景提供更強(qiáng)大的支持。研究發(fā)現(xiàn),基于多模態(tài)大模型(Multimodal Large Language Model,MLLM),結(jié)合教與學(xué)需求進(jìn)行下游教育任務(wù)適配與創(chuàng)新應(yīng)用,將有利于解決教育領(lǐng)域的實(shí)際問題[5]。同時(shí),MLLM的多模態(tài)思維鏈、多模態(tài)涌現(xiàn)能力以及多模態(tài)提示工程等應(yīng)用技術(shù)也使其能夠成為學(xué)科知識(shí)圖譜的動(dòng)力引擎,實(shí)現(xiàn)多模態(tài)化的認(rèn)知體驗(yàn)信息與相應(yīng)符號(hào)概念的關(guān)聯(lián),推動(dòng)多模態(tài)學(xué)科知識(shí)圖譜的創(chuàng)生。總而言之,新的“模型即服務(wù)”——MLLM+DKG+教育應(yīng)用場景,能夠促使教育領(lǐng)域產(chǎn)生智能涌現(xiàn)現(xiàn)象。基于此,本研究從MLLM與DKG的關(guān)系解構(gòu)出發(fā),闡述MLLM對(duì)DKG的驅(qū)動(dòng)前提,并從進(jìn)化角度探討多模態(tài)學(xué)科知識(shí)圖譜的內(nèi)涵、構(gòu)建框架與其教育應(yīng)用前景,以期為DKG的相關(guān)研究提供借鑒與啟發(fā)。

一 多模態(tài)大模型與學(xué)科知識(shí)圖譜的關(guān)系解構(gòu)

1 多模態(tài)大模型

大模型是指具有海量參數(shù)和復(fù)雜架構(gòu)、用于深度學(xué)習(xí)任務(wù)的模型[6],其經(jīng)歷了單語言預(yù)訓(xùn)練模型、多語言預(yù)訓(xùn)練模型和多模態(tài)預(yù)訓(xùn)練模型等發(fā)展階段。其中,單語言預(yù)訓(xùn)練模型、多語言預(yù)訓(xùn)練模型屬于單模態(tài)大模型,無法同時(shí)處理其他模態(tài)信息,這在很大程度上限制了其應(yīng)用范圍和性能。2018年BERT、GPT等大模型的嶄露頭角標(biāo)志著通用大模型時(shí)代的開啟,也代表了人工智能領(lǐng)域的第三次范式轉(zhuǎn)變[7]。這些模型的出現(xiàn)不僅為處理多模態(tài)數(shù)據(jù)鋪平了道路,也拓寬了大模型的應(yīng)用范圍。從2019年開始,一些模型開始把Transformer作為核心結(jié)構(gòu)進(jìn)行拓展,視覺和語言嵌入特征可以同時(shí)作為輸入,在處理多模態(tài)數(shù)據(jù)時(shí)表現(xiàn)出更強(qiáng)大的性能和靈活性。

為實(shí)現(xiàn)更加通用的人工智能模型,多模態(tài)學(xué)習(xí)的必要性慢慢展現(xiàn),它是一種涉及不同模態(tài)數(shù)據(jù)的機(jī)器學(xué)習(xí)任務(wù),旨在將這些不同模態(tài)的信息整合起來,以提供更全面和豐富的呈現(xiàn)。隨著GPT系列模型在自然語言處理領(lǐng)域的不斷成熟發(fā)展,MLLM迎來了新的發(fā)展機(jī)遇。與傳統(tǒng)的單模態(tài)大模型相比,MLLM通過聯(lián)合建模和預(yù)測的方式,能夠更好地利用不同模態(tài)之間的相關(guān)性和交互信息,提高模型的預(yù)測性能和泛化能力;而MLLM的思維鏈和涌現(xiàn)能力,是其不斷接近人類思維的關(guān)鍵特征。現(xiàn)階段,MLLM主要以多語言訓(xùn)練模型為核心,專注多模態(tài)內(nèi)容之間的關(guān)聯(lián)特性與跨模態(tài)轉(zhuǎn)換問題。隨著生成技術(shù)的不斷成熟,基于領(lǐng)域知識(shí)構(gòu)建跨場景、多任務(wù)的MLLM成為新一代人工智能的重點(diǎn)方向。

2 學(xué)科知識(shí)圖譜

DKG作為KG在教育領(lǐng)域的應(yīng)用,是一種支持具體學(xué)科教學(xué)設(shè)計(jì)與資源組織管理的教育KG[11]。它為教育教學(xué)提供了學(xué)科知識(shí)結(jié)構(gòu)的清晰化表達(dá),是新型教育資源的重要組成部分,也由此成為智慧教育的重點(diǎn)攻堅(jiān)領(lǐng)域。例如,李艷燕等[12]從智慧教育的角度討論了DKG的相關(guān)定義、構(gòu)建技術(shù)和應(yīng)用;張春霞等[13]基于數(shù)學(xué)類課程構(gòu)建數(shù)學(xué)課程本體,并提出了基于數(shù)學(xué)課程本體的數(shù)學(xué)課程KG構(gòu)建方法;張玉柳等[14]提出一種結(jié)合課程KG和學(xué)習(xí)者個(gè)體認(rèn)知狀態(tài)的模糊認(rèn)知地圖構(gòu)建方法,為破解個(gè)性化推薦不足提供了參考。然而,DKG的構(gòu)建仍然面臨巨大的挑戰(zhàn):首先,學(xué)科知識(shí)富含教育領(lǐng)域?qū)I(yè)性和復(fù)雜性,但目前的研究還未充分關(guān)注多模態(tài)教育資源的融合,導(dǎo)致以不同形式呈現(xiàn)的多模態(tài)場景被忽視,容易在資源智能組織中出現(xiàn)“信息繭房”[15]。其次,構(gòu)建DKG需要海量數(shù)據(jù),但要找到并收集高質(zhì)量的數(shù)據(jù)絕非易事。學(xué)科知識(shí)是不斷更新和動(dòng)態(tài)變化的,其數(shù)據(jù)需進(jìn)行持續(xù)更新和維護(hù),以保證時(shí)效性和準(zhǔn)確性。更為重要的是,不同學(xué)科領(lǐng)域具有獨(dú)特的知識(shí)特點(diǎn)和結(jié)構(gòu),需根據(jù)學(xué)科特點(diǎn)選擇適切的表示方式,再加上要考慮學(xué)科知識(shí)的豐富性和查詢高效率等因素,要提高DKG構(gòu)建效率也存在較大困難。近兩年大模型浪潮備受矚目,利用MLLM解決圖譜構(gòu)建過程中的挑戰(zhàn)受到了越來越多研究者的關(guān)注。

3 兩者的協(xié)同、競爭和競合

在實(shí)際應(yīng)用中,MLLM和DKG的發(fā)展關(guān)系可以描述為協(xié)同、競爭、競合三類形態(tài)。需要注意的是,不同的發(fā)展關(guān)系在不同應(yīng)用場景下具有不同的優(yōu)缺點(diǎn)和適用性。在教育應(yīng)用中,須根據(jù)教學(xué)問題和任務(wù)需求進(jìn)行選擇和優(yōu)化,同時(shí)還需關(guān)注不同關(guān)系之間的銜接和創(chuàng)新,以推動(dòng)大模型和DKG在教育領(lǐng)域的不斷進(jìn)化與成熟發(fā)展。

協(xié)同關(guān)系是指MLLM和DKG為了實(shí)現(xiàn)特定目標(biāo)或效益而形成的一種協(xié)調(diào)關(guān)系。例如,在自然語言處理領(lǐng)域,MLLM可以通過學(xué)習(xí)大量模態(tài)數(shù)據(jù)來提高對(duì)自然語言的理解能力,而DKG則可為MLLM提供更為豐富和準(zhǔn)確的知識(shí)庫,能在一定程度上緩解當(dāng)前模型輸出的事實(shí)謬誤問題,并具可解釋性。根據(jù)Pan等[16]提出的前瞻性發(fā)展路線,當(dāng)前MLLM和DKG的三種協(xié)同模式如圖1所示,具體為:①利用DKG增強(qiáng)MLLM。DKG的優(yōu)點(diǎn)在于領(lǐng)域知識(shí)結(jié)構(gòu)化程度以及準(zhǔn)確性高,在MLLM的預(yù)訓(xùn)練和推理階段融入DKG,可加強(qiáng)MLLM對(duì)通用知識(shí)的理解。②利用MLLM增強(qiáng)DKG。MLLM的優(yōu)勢(shì)在于語言理解能力和泛化能力,通過MLLM可高效完成不同階段DKG的構(gòu)建任務(wù)。③MLLM+DKG協(xié)同。兩者可以互相轉(zhuǎn)化,以互利的方式共同作用,實(shí)現(xiàn)具有強(qiáng)大泛化能力和推理能力的認(rèn)知智能。

圖1 MLLM與DKG的三種協(xié)同模式

MLLM和DKG亦存在競爭關(guān)系。MLLM雖然會(huì)對(duì)DKG產(chǎn)生一定的影響,但并不意味著DKG會(huì)被取代或者失去其價(jià)值。在特定應(yīng)用場景下,兩者在處理信息和解決問題時(shí)有著各自的優(yōu)勢(shì)和局限性,它們之間的競爭是主體為了獲得不同的配置利益,在一定規(guī)則下開展的較量,其競爭主要涉及技術(shù)性能、原型搭建、產(chǎn)業(yè)鏈構(gòu)建等。

競合關(guān)系表示MLLM和DKG有時(shí)也會(huì)保持一種既協(xié)同又競爭的關(guān)系。此種關(guān)系存在的原因是兩者都試圖采用不同的方法和思路提高或倒逼領(lǐng)域發(fā)展水平。在這種情況下,兩者必須適應(yīng)不斷變化的技術(shù)環(huán)境和社會(huì)需求,以確保其能夠繼續(xù)發(fā)展。此外,競合關(guān)系也反映了人工智能研究中的一個(gè)核心問題:如何將不同的技術(shù)和方法結(jié)合起來,以實(shí)現(xiàn)更高效、精準(zhǔn)、可靠的智能應(yīng)用,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。

二 驅(qū)動(dòng)的前提:多模態(tài)大模型的應(yīng)用技術(shù)創(chuàng)新

MLLM和DKG有其各自的特點(diǎn)和應(yīng)用場景,亦相互融合和補(bǔ)充,兩者可在教育應(yīng)用中相互結(jié)合。具體而言,MLLM的多模態(tài)思維鏈、多模態(tài)涌現(xiàn)能力和多模態(tài)提示工程等應(yīng)用技術(shù)創(chuàng)新,能夠?yàn)镈KG的智能擴(kuò)展提供更大的可能性。

1 多模態(tài)思維鏈:跨感知模態(tài)的知識(shí)融合

思維鏈(Chain of Thought)的形成機(jī)制可解釋為模型通過學(xué)習(xí)大量數(shù)據(jù)構(gòu)建一個(gè)關(guān)于語言結(jié)構(gòu)和意義的內(nèi)在表示,并通過一系列中間自然語言推理步驟來完成最終輸出[17]。而多模態(tài)思維鏈?zhǔn)峭ㄟ^觀察大量多模態(tài)數(shù)據(jù)來學(xué)習(xí)其內(nèi)在表示,然后利用此表示來生成連續(xù)輸出的機(jī)制[18]。此內(nèi)在表示包含多種模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)和語義信息,可實(shí)現(xiàn)對(duì)多模態(tài)數(shù)據(jù)的全方位理解和綜合化推理。將其應(yīng)用于MLLM中,能夠使MLLM的響應(yīng)更接近人類的思維方式,從而在認(rèn)知推理任務(wù)中表現(xiàn)出更高的性能。具備多模態(tài)思維鏈的MLLM已經(jīng)不是傳統(tǒng)意義上的詞匯概率逼近模型,而是能將一個(gè)多步驟的問題分解為單獨(dú)的中間步驟、實(shí)現(xiàn)復(fù)雜推理能力的模型。

多模態(tài)思維鏈已被證明能夠在復(fù)雜的認(rèn)知推進(jìn)過程中高效發(fā)揮作用,其不僅可以提示MLLM進(jìn)行輸出,還可以展現(xiàn)系列化的推理進(jìn)程,是認(rèn)知結(jié)構(gòu)化的范例[19]。依托多模態(tài)思維鏈,MLLM可展開跨感知模態(tài)的知識(shí)融合,進(jìn)而對(duì)復(fù)雜教育情境中的多模態(tài)數(shù)字教育資源進(jìn)行智能挖掘和耦合計(jì)算[20]。這種跨感知模態(tài)的知識(shí)理解和融合,能夠從圖像、文本和語音等數(shù)據(jù)中提取特征和關(guān)聯(lián)信息,促使DKG實(shí)現(xiàn)更加全面和多樣化的表示。例如,MLLM可以利用多模態(tài)數(shù)據(jù)中的內(nèi)隱知識(shí),挖掘DKG中尚未包含的概念、實(shí)體或關(guān)系,從而產(chǎn)生新的知識(shí)和理解并推動(dòng)學(xué)科知識(shí)的演化。從發(fā)展趨勢(shì)來看,利用多模態(tài)思維鏈,MLLM得以精準(zhǔn)識(shí)別并捕捉多模態(tài)數(shù)據(jù)中的隱含關(guān)系和規(guī)律,以高效支持DKG構(gòu)建中的常識(shí)推理、符號(hào)操作等任務(wù)。

2 多模態(tài)涌現(xiàn)能力:完善和更新學(xué)科知識(shí)

涌現(xiàn)能力(Emergent Ability)是指大模型具有從原始訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)并發(fā)現(xiàn)新的、更高層次特征和模式的能力[21]。一般而言,較小的模型很難具備這樣的能力,MLLM的數(shù)據(jù)規(guī)模是涌現(xiàn)能力出現(xiàn)的基礎(chǔ)條件。這種能力在達(dá)到一定的臨界規(guī)模閾值之前接近隨機(jī),之后性能顯著提高,開始表現(xiàn)出一些開發(fā)者最初未能預(yù)測的、更復(fù)雜的能力和特性,如理解能力、生成能力和邏輯推理能力等。

MLLM是否具備涌現(xiàn)能力,是其能否支撐DKG進(jìn)化的重要條件。事實(shí)上,MLLM必須通過學(xué)習(xí)多模態(tài)的海量級(jí)數(shù)據(jù),才能實(shí)現(xiàn)知識(shí)涌現(xiàn)。但僅靠數(shù)據(jù)規(guī)模的增加并不能保證涌現(xiàn)能力的發(fā)生,還需要將海量的數(shù)據(jù)規(guī)模、合適的度量標(biāo)準(zhǔn)和訓(xùn)練方法等統(tǒng)合起來,進(jìn)而誘發(fā)模型的涌現(xiàn)能力[22]。隨著GPT-4的發(fā)布應(yīng)用,MLLM能夠從視覺角度和視覺-文字語義融合方面涌現(xiàn)出更多的能力。這些能力的出現(xiàn)不僅是簡單的視覺或文本能力的疊加,也體現(xiàn)在其跨模態(tài)遷移更有利于改善知識(shí)呈現(xiàn)和應(yīng)用的性能。鑒于此,利用多模態(tài)涌現(xiàn)能力,MLLM可以聯(lián)結(jié)不同學(xué)科領(lǐng)域的多模態(tài)知識(shí)數(shù)據(jù),自動(dòng)理解、捕捉不同學(xué)科領(lǐng)域中隱藏的豐富而復(fù)雜的關(guān)聯(lián)知識(shí)特征以生成跨模態(tài)知識(shí),進(jìn)而幫助實(shí)現(xiàn)多元融合的圖譜構(gòu)建任務(wù)。

3 多模態(tài)提示工程:提升圖譜構(gòu)建任務(wù)的操縱性

提示工程(Prompt Engineering)是一種方法論,其能夠通過設(shè)計(jì)合適的提示信息和標(biāo)記數(shù)據(jù),幫助MLLM更加有效地理解和應(yīng)用多模態(tài)數(shù)據(jù),以生成用戶所需的輸出,從而提高模型的準(zhǔn)確性和魯棒性[23]。多模態(tài)提示工程在提高M(jìn)LLM的可操縱性方面扮演著重要的角色,促使模型得以根據(jù)用戶要求或多模態(tài)任務(wù)需求更改其行為。例如,用戶可以通過設(shè)計(jì)相應(yīng)的提示信息命令MLLM以不同的風(fēng)格、語氣或內(nèi)容特征進(jìn)行反饋,從而操縱模型的回答。針對(duì)多模態(tài)數(shù)據(jù)集,MLLM的提示工程包括選擇合適的模型架構(gòu)和參數(shù)、設(shè)計(jì)提示格式和結(jié)構(gòu)、選擇合適的任務(wù)和訓(xùn)練數(shù)據(jù),以及使用選定的提示和數(shù)據(jù)微調(diào)模型等。形式上,多模態(tài)提示樣本可以用三元組形式表示,即(),其中、、分別表示指令、多模態(tài)輸入和真實(shí)反饋。

MLLM的提示工程能夠有效避免僅依賴純符號(hào)表示帶來的理解限制。為高效構(gòu)建DKG,MLLM可以利用提示工程設(shè)計(jì)學(xué)科領(lǐng)域規(guī)則、先驗(yàn)知識(shí)和圖譜構(gòu)建的約束條件等,輔助MLLM在精調(diào)階段根據(jù)DKG的多模態(tài)構(gòu)建任務(wù)對(duì)模型進(jìn)行微調(diào),選擇合適的輸入來提示MLLM理解,以便提升DKG構(gòu)建的適應(yīng)性和質(zhì)量。

三 驅(qū)動(dòng)的進(jìn)程:多模態(tài)學(xué)科知識(shí)圖譜的構(gòu)建

知識(shí)圖譜經(jīng)歷了從人工和群體智慧構(gòu)建到利用機(jī)器學(xué)習(xí)、信息抽取等技術(shù)自動(dòng)構(gòu)建的過程,現(xiàn)如今已逐漸從單一的文本模態(tài)擴(kuò)展到龐大的多模態(tài)共存[24]。MLLM具有強(qiáng)大的表示學(xué)習(xí)能力和涌現(xiàn)能力,利用其驅(qū)動(dòng)DKG的進(jìn)化,便是在傳統(tǒng)DKG的基礎(chǔ)上,為其增添多模態(tài)屬性和關(guān)系的結(jié)構(gòu)化表示的持續(xù)過程,即構(gòu)建多模態(tài)學(xué)科知識(shí)圖譜(Multimodal Disciplines Knowledge Graph,MMDKG),這也是降低DKG構(gòu)建高成本的一個(gè)可行路線。

1 多模態(tài)學(xué)科知識(shí)圖譜的內(nèi)涵

MMDKG是以學(xué)科知識(shí)為核心,通過整合多種模態(tài)數(shù)據(jù)來豐富符號(hào)知識(shí)表達(dá),包含多模態(tài)知識(shí)信息、多模態(tài)語義關(guān)系的知識(shí)圖譜。參考領(lǐng)域內(nèi)比較有代表性的DKG頂層本體[25],MMDKG的頂層本體如圖2所示,其中多模態(tài)分面是指同一學(xué)科知識(shí)點(diǎn)所包含的不同模態(tài)屬性。

圖2 MMDKG的頂層本體

2 多模態(tài)學(xué)科知識(shí)圖譜的構(gòu)建框架

MLLM支持的MMDKG構(gòu)建,是基于圖論的符號(hào)推理與形式化方法的表達(dá),旨在發(fā)揮MLLM之所長,建立跨模態(tài)數(shù)據(jù)之間的語義關(guān)聯(lián),將符號(hào)直接關(guān)聯(lián)具體的視覺模態(tài)對(duì)象,為學(xué)科知識(shí)網(wǎng)絡(luò)掛載多模態(tài)信息。MMDKG的構(gòu)建框架如圖3所示:首先,基于已有DKG和學(xué)科領(lǐng)域語料訓(xùn)練MLLM,將多模態(tài)學(xué)科數(shù)據(jù)融合以支撐下游多模態(tài)構(gòu)建任務(wù),如知識(shí)抽取、知識(shí)表示和知識(shí)推理等。然后,采用人類反饋強(qiáng)化學(xué)習(xí)進(jìn)行多步?jīng)Q策的優(yōu)化。MLLM可以根據(jù)人類反饋的獎(jiǎng)勵(lì)信號(hào)逐漸優(yōu)化自身的性能,提高M(jìn)MDKG構(gòu)建的精準(zhǔn)度。最后,通過多模態(tài)幻覺檢測,實(shí)現(xiàn)更加精確和高效的MMDKG構(gòu)建。

圖3 MMDKG的構(gòu)建框架

(1)多模態(tài)任務(wù)

①多模態(tài)知識(shí)抽取。多模態(tài)知識(shí)抽取是融合不同模態(tài)數(shù)據(jù)并生成DKG的關(guān)鍵步驟,包括多模態(tài)的實(shí)體抽取和多模態(tài)的關(guān)系抽取。GPT系列大模型在命名實(shí)體識(shí)別、關(guān)系提取任務(wù)中的使用顯著提高了知識(shí)圖譜的質(zhì)量和準(zhǔn)確性。例如,Agrawal等[27]通過InstructGPT模型進(jìn)行零樣本和少樣本學(xué)習(xí),實(shí)現(xiàn)臨床筆記中實(shí)體和關(guān)系的抽取;Dunn等[28]基于GPT-3提出一種適合于科學(xué)文本中復(fù)雜層次信息實(shí)體-關(guān)系聯(lián)合抽取的序列到序列方法,以實(shí)現(xiàn)實(shí)體和關(guān)系抽取。

MLLM的超強(qiáng)語言理解能力,能夠有效應(yīng)對(duì)實(shí)體和關(guān)系抽取過程中涉及的指代消解、歧義處理等一系列復(fù)雜問題:其一,通過知識(shí)萃取快速獲取大量知識(shí)。提示工程可以幫助MLLM學(xué)習(xí)教育領(lǐng)域的專業(yè)術(shù)語、模式和規(guī)律,指導(dǎo)DKG構(gòu)建中的多模態(tài)實(shí)體抽取和關(guān)系抽取。例如,可以構(gòu)建針對(duì)學(xué)科領(lǐng)域的Prompt模板(如“在教育領(lǐng)域中,下列概念有哪些:”),以引導(dǎo)模型產(chǎn)生與教育領(lǐng)域相關(guān)的實(shí)體和實(shí)體間的關(guān)系。Prompt既能以語言模型作為知識(shí)庫,從大模型中探測語言知識(shí)和關(guān)系知識(shí),又能夠以視覺語言模型作為常識(shí)庫,從MLLM中探測跨模態(tài)對(duì)齊知識(shí)和視覺常識(shí)知識(shí)。其二,零樣本、小樣本進(jìn)行開放知識(shí)抽取。MLLM具有顯著的特征提取和零樣本泛化能力,即使是訓(xùn)練集中未出現(xiàn)的學(xué)科實(shí)體和關(guān)系,模型也可以通過已有知識(shí)對(duì)陌生數(shù)據(jù)進(jìn)行分類、推理和預(yù)測。

②多模態(tài)知識(shí)表示。多模態(tài)數(shù)據(jù)雖然在底層表征上是異構(gòu)的,但是同一實(shí)體的不同模態(tài)數(shù)據(jù)在高層語義上是一致的。為了方便對(duì)抽取到的多模態(tài)知識(shí)信息進(jìn)行處理,須對(duì)輸入數(shù)據(jù)進(jìn)行表示。多模態(tài)表示學(xué)習(xí)旨在縮小模態(tài)信息在聯(lián)合語義子空間中的分布差距,分為基于特征的方法和基于實(shí)體的方法兩種類型[29]。其中,基于特征的方法是將多模態(tài)知識(shí)信息作為實(shí)體的輔助特征來處理;基于實(shí)體的方法則將不同的模態(tài)信息作為結(jié)構(gòu)化知識(shí)的關(guān)系三元組。從MMDKG的構(gòu)建角度來看,通過基于特征的方法進(jìn)行知識(shí)表示可以利用多模態(tài)之間的互補(bǔ)性,學(xué)習(xí)到更好的特征表示。圖4為MLLM支持的多模態(tài)表示學(xué)習(xí)框架,基于該框架,MLLM可以在語義含義上對(duì)不同的特征空間進(jìn)行匹配,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一表征,從而得到在共同表示空間中各模態(tài)的高層語義表示[30]。

圖4 MLLM支持的多模態(tài)表示學(xué)習(xí)框架

③多模態(tài)知識(shí)推理。多模態(tài)知識(shí)推理的目標(biāo)是基于現(xiàn)有學(xué)科知識(shí)數(shù)據(jù)推理新的學(xué)科知識(shí),如兩個(gè)學(xué)科知識(shí)實(shí)體之間的隱式關(guān)系[31]。其中,知識(shí)補(bǔ)全通常被視為知識(shí)推理的過程,旨在對(duì)已有知識(shí)進(jìn)行推理并推斷缺失的鏈接[32]。近年來,基于大模型的知識(shí)圖譜推理方法開始獲得關(guān)注。通過大模型,知識(shí)可借助知識(shí)圖譜的架構(gòu)承載,并在后續(xù)參與知識(shí)計(jì)算。例如,Jiang等[33]提出了TAGREAL框架,自動(dòng)生成高質(zhì)量的查詢Prompt提示,并從大型文本語料庫中檢索支持信息以探測大模型中的知識(shí),從而完成知識(shí)圖譜補(bǔ)全;Kim等[34]提出了一個(gè)名為KG-GPT的通用框架,該框架利用大模型進(jìn)行圖譜推理。

MLLM的思維鏈?zhǔn)恰耙幌盗兄虚g推理步驟”,已被證明在復(fù)雜推理任務(wù)中是有效的[35]。應(yīng)用MLLM進(jìn)行多模態(tài)知識(shí)推理,可以將外部模態(tài)的學(xué)科知識(shí)信息注入多模態(tài)大模型,將它視為強(qiáng)大的推理器,利用Prompt執(zhí)行相應(yīng)信息提取和思維鏈的各種視覺推理任務(wù),為DKG構(gòu)建提供更好的跨模態(tài)表示和推理。

(2)人類反饋強(qiáng)化學(xué)習(xí)

人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF)是指通過與人類專家的交互和反饋來優(yōu)化模型的學(xué)習(xí)和決策過程[36]。這一訓(xùn)練范式增強(qiáng)了人類對(duì)模型輸出結(jié)果意向的調(diào)節(jié),并且對(duì)結(jié)果進(jìn)行了更具理解性的排序。考慮到DKG中“學(xué)科知識(shí)”這一人類發(fā)展經(jīng)驗(yàn)總結(jié)的特殊性,在構(gòu)建過程中應(yīng)當(dāng)利用學(xué)科專家提供關(guān)于知識(shí)表示、推理等方面的反饋信息,為MLLM提供獎(jiǎng)勵(lì)信號(hào)和優(yōu)化目標(biāo)。這種反饋需要MLLM將人類反饋信號(hào)與獎(jiǎng)勵(lì)信號(hào)關(guān)聯(lián)起來進(jìn)行微調(diào)并持續(xù)迭代,以引導(dǎo)MLLM成為MMDKG構(gòu)建中“既懂規(guī)矩又會(huì)試探的博學(xué)鸚鵡”[37]。其中,優(yōu)化方法可以使用各種強(qiáng)化學(xué)習(xí)算法,如值函數(shù)方法、策略梯度方法等,以優(yōu)化模型的多步?jīng)Q策。總之,人類反饋的強(qiáng)化學(xué)習(xí)可以幫助模型逐步提升對(duì)多模態(tài)學(xué)科知識(shí)的理解和應(yīng)用能力,并不斷增強(qiáng)MMDKG的構(gòu)建質(zhì)量和準(zhǔn)確性。

(3)多模態(tài)幻覺檢測

由于MLLM本質(zhì)上可以視為訓(xùn)練集(人類知識(shí))的有損壓縮,因此當(dāng)模型根據(jù)數(shù)據(jù)中的統(tǒng)計(jì)模式生成輸出時(shí),就會(huì)產(chǎn)生聽起來合理但與現(xiàn)實(shí)世界知識(shí)不一致的輸出,即幻覺[38]。多模態(tài)幻覺的本質(zhì)是多模態(tài)信息有損壓縮偏差的體現(xiàn)。對(duì)于MMDKG構(gòu)建過程中的多模態(tài)任務(wù)來說,其產(chǎn)生的幻覺包括3類[39]:①含義相關(guān)性的幻覺,MLLM生成的輸出可能包含與輸入語境不相關(guān)的內(nèi)容;②語義擴(kuò)張的幻覺,MLLM生成的輸出可能包含與輸入語境相關(guān)但是過于具體或者過于抽象的內(nèi)容;③結(jié)構(gòu)錯(cuò)誤的幻覺,MLLM生成的輸出可能不符合正確的語言表達(dá)或句子結(jié)構(gòu)。為了降低幻覺出現(xiàn)的概率,須通過幻覺檢測機(jī)制或評(píng)估基準(zhǔn)[40],檢測MMDKG中無中生有的幻覺或不一致問題,從而更好地確保MMDKG的應(yīng)用可靠性。

3 多模態(tài)學(xué)科知識(shí)圖譜的構(gòu)建示例

《義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(2022年版)》指出,義務(wù)教育數(shù)學(xué)課程應(yīng)使學(xué)生通過數(shù)學(xué)的學(xué)習(xí),形成和發(fā)展面向未來社會(huì)和個(gè)人發(fā)展所需要的核心素養(yǎng)[41]。因此,本研究以2017年出版的人教版《數(shù)學(xué)四年級(jí)上冊(cè)》“角的度量”單元為例,簡單描述MMDKG的構(gòu)建。“角的度量”包括直線、射線以及線段等知識(shí)內(nèi)容,教學(xué)目標(biāo)旨在通過點(diǎn)的運(yùn)動(dòng)向射線的旋轉(zhuǎn)運(yùn)動(dòng)轉(zhuǎn)變,讓學(xué)生領(lǐng)會(huì)各種圖形的特征,促進(jìn)其空間觀念的發(fā)展。本研究確定了“角”的大概念與角分類、量角等知識(shí)單元的父子關(guān)系、平行與前驅(qū)后繼關(guān)系,構(gòu)建過程如圖5所示。其中,txtOf指向文本節(jié)點(diǎn),imgOf指向圖片節(jié)點(diǎn),vidOf指向視頻節(jié)點(diǎn)。

圖5 “角的度量”MMDKG構(gòu)建過程

(1)利用Prompt優(yōu)化多模態(tài)任務(wù)

提示工程可理解為基于提示的學(xué)習(xí)來訓(xùn)練語言模型,一個(gè)Prompt通常包含五個(gè)元素:①角色,指模型執(zhí)行生成任務(wù)時(shí)所扮演的角色;②指令,指希望模型執(zhí)行的具體任務(wù);③上下文,指背景或外部信息,以引導(dǎo)模型提供更好的反饋;④輸入數(shù)據(jù),指希望獲得反饋的輸入內(nèi)容;⑤輸出指示,指模型輸出反饋的類型或格式[42]。本研究利用Prompt引導(dǎo)MLLM進(jìn)行多模態(tài)知識(shí)抽取、表示學(xué)習(xí)和知識(shí)推理,以“角的度量”知識(shí)抽取為例,通過精確指令從輸入數(shù)據(jù)中提取類型為Neo4j格式的數(shù)據(jù)。其中,CREATE用于創(chuàng)建節(jié)點(diǎn)和關(guān)系;節(jié)點(diǎn)1、節(jié)點(diǎn)2等是節(jié)點(diǎn)的名稱,可以附加標(biāo)簽和屬性。

(2)基于獎(jiǎng)勵(lì)機(jī)制的專家反饋優(yōu)化

基于獎(jiǎng)勵(lì)機(jī)制的專家反饋優(yōu)化首先需要領(lǐng)域?qū)<乙罁?jù)自身經(jīng)驗(yàn)審查知識(shí)圖譜并標(biāo)識(shí)不準(zhǔn)確或缺失的信息以反饋修改,然后根據(jù)反饋信號(hào)創(chuàng)建獎(jiǎng)勵(lì)函數(shù)以度量知識(shí)圖譜的質(zhì)量。其中,獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)需要考慮知識(shí)圖譜構(gòu)建的具體情境,正向獎(jiǎng)勵(lì)分配給正確的信息,而負(fù)向獎(jiǎng)勵(lì)分配給錯(cuò)誤或不準(zhǔn)確的信息,以識(shí)別需要修正的節(jié)點(diǎn)或關(guān)系。圖5左側(cè)是一個(gè)獎(jiǎng)勵(lì)函數(shù)示例,用于驗(yàn)證修正前后角分類的角度范圍是否一致。

(3)幻覺分類與檢測

圖5右側(cè)的示例創(chuàng)建了一個(gè)簡單的多模態(tài)幻覺檢測機(jī)制,以便為輸入的多模態(tài)內(nèi)容提供幻覺評(píng)估報(bào)告。多模態(tài)幻覺問題分類和評(píng)分標(biāo)準(zhǔn)示例如表1所示,研究者或機(jī)器可以根據(jù)此分類標(biāo)準(zhǔn)對(duì)模型生成的多模態(tài)內(nèi)容進(jìn)行評(píng)估,為多模態(tài)內(nèi)容提供適當(dāng)?shù)姆诸惡头謹(jǐn)?shù)以評(píng)估模型的性能,幫助改進(jìn)內(nèi)容質(zhì)量。

表1 多模態(tài)幻覺問題分類和評(píng)分標(biāo)準(zhǔn)示例

四 多模態(tài)學(xué)科知識(shí)圖譜的教育應(yīng)用場景

目前,MLLM的教育應(yīng)用模式正在從專用向通用轉(zhuǎn)變,其應(yīng)用流程正在從分發(fā)走向生成,應(yīng)用場景正在從單一走向多元[43]。新的“模型即服務(wù)”——“MLLM+MMDKG+教育應(yīng)用場景”應(yīng)用模式為智慧教育提供了更多可能性,可有效支持教學(xué)資源多元聚合、智能教學(xué)產(chǎn)品開發(fā)等應(yīng)用。

1 推動(dòng)教育資源多元聚合

首先,依托MMDKG可以支撐構(gòu)建數(shù)字教育資源平臺(tái),通過制訂統(tǒng)一的數(shù)字教育資源表示標(biāo)準(zhǔn),MMDKG能實(shí)現(xiàn)細(xì)粒度的資源切分、識(shí)別與關(guān)聯(lián),對(duì)教育資源進(jìn)行知識(shí)化標(biāo)注和鏈接,從而在多模態(tài)數(shù)字教育資源之間建立語義聯(lián)系,為教育資源元數(shù)據(jù)管理提供支持。其次,MMDKG可以將文本、圖像、視頻等多模態(tài)數(shù)據(jù)與特定知識(shí)點(diǎn)或教育資源關(guān)聯(lián)起來,更好地表達(dá)和組織教育資源的內(nèi)容與結(jié)構(gòu),為數(shù)字教育資源的多元聚合提供有效的技術(shù)支撐。基于MMDKG,多模態(tài)數(shù)字教育資源可以被知識(shí)化標(biāo)注和鏈接,這意味著師生能夠通過不同的感官方式接觸和理解同一知識(shí)概念,從而更深入、全面地展開學(xué)習(xí)。另外,MMDKG能夠整合來自不同學(xué)科領(lǐng)域的教育資源,也可幫助學(xué)習(xí)者更好地理解不同學(xué)科之間的關(guān)系和交叉點(diǎn),有助于促進(jìn)其跨學(xué)科思維培養(yǎng)。

2 助力智能教學(xué)產(chǎn)品開發(fā)

目前,智能教育機(jī)器人正處于發(fā)展初級(jí)階段,面臨教學(xué)性不足、反饋性差、感知力欠缺等諸多問題[44];數(shù)智教材建設(shè)正從“知識(shí)圖譜”逐漸向“能力圖譜”和“價(jià)值圖譜”發(fā)展[45],諸如此類的智能教學(xué)產(chǎn)品智能化發(fā)展水平有待提高。而MMDKG在跨模態(tài)知識(shí)檢索、學(xué)習(xí)者學(xué)習(xí)畫像建模等方面具有技術(shù)優(yōu)勢(shì),可提高智能教育機(jī)器人、數(shù)智教材等智能教學(xué)產(chǎn)品的交互性、個(gè)性化和智能化程度。

MMDKG關(guān)于跨模態(tài)檢索研究的基本內(nèi)容是尋找不同模態(tài)知識(shí)資源之間的關(guān)系,通過使用一種類型的數(shù)據(jù)作為查詢來檢索其他類型的數(shù)據(jù)。例如,結(jié)合圖像和語音識(shí)別技術(shù),將教學(xué)資源中的圖片和語音轉(zhuǎn)化為可理解知識(shí),并與相關(guān)文本知識(shí)進(jìn)行關(guān)聯(lián),與教育機(jī)器人、數(shù)智教材等智能教學(xué)產(chǎn)品進(jìn)行交互。MMDKG關(guān)于學(xué)習(xí)者學(xué)習(xí)畫像建模研究的基本內(nèi)容是強(qiáng)化學(xué)習(xí)者多維特征的抽象化描述,建構(gòu)學(xué)習(xí)者標(biāo)簽化模型,目的是為特定的精準(zhǔn)教學(xué)提供指引。目前,教育機(jī)器人、數(shù)智教材的學(xué)習(xí)者畫像建模水平普遍不高,其針對(duì)學(xué)習(xí)者學(xué)習(xí)畫像建模的方法大多無法深入捕捉學(xué)習(xí)者的多維認(rèn)知特征。如果利用MMDKG進(jìn)行知識(shí)鏈接追溯,并合理控制不同學(xué)習(xí)者視角下的DKG,可以更好地理解和分析學(xué)習(xí)者的需求以進(jìn)行有效干預(yù)。

3 賦能學(xué)科資源個(gè)性推薦

學(xué)科資源個(gè)性推薦的技術(shù)特征之一是按需推送、因材施教,為學(xué)習(xí)者推薦適合其認(rèn)知狀態(tài)的學(xué)習(xí)資源以及學(xué)習(xí)服務(wù)。基于知識(shí)圖譜的個(gè)性化資源推薦依據(jù)學(xué)習(xí)理論和學(xué)科知識(shí)結(jié)構(gòu)特征構(gòu)建DKG,不僅具有較好的推薦效果,還能夠解決數(shù)據(jù)稀疏、冷啟動(dòng)等問題[46]。相較于傳統(tǒng)的DKG,MMDKG將大模型與知識(shí)圖譜結(jié)合起來,得以匯聚多時(shí)相、多類型、多模態(tài)的學(xué)科資源,為進(jìn)行可解釋且需要知識(shí)的智能問答提供了新的范式[47]。如是,學(xué)科資源個(gè)性推薦能夠規(guī)避知識(shí)片面性風(fēng)險(xiǎn),根據(jù)師生習(xí)慣和興趣,通過分析不同的數(shù)據(jù)模態(tài),進(jìn)而自適應(yīng)推送與學(xué)習(xí)者相適配且具有互動(dòng)性和生成性的學(xué)習(xí)資源。總體來看,在對(duì)學(xué)習(xí)者進(jìn)行認(rèn)知診斷的基礎(chǔ)上,MMDKG在學(xué)習(xí)過程中體現(xiàn)的導(dǎo)航價(jià)值能夠很好地解決海量學(xué)科資源給學(xué)習(xí)者帶來的“知識(shí)迷航”“認(rèn)知負(fù)荷”問題。

4 促進(jìn)人機(jī)協(xié)同智慧教學(xué)

隨著人工智能的快速發(fā)展,教育人工智能已經(jīng)由“支持智能”和“增強(qiáng)智能”逐漸發(fā)展到“人機(jī)協(xié)同智能”階段。其中,人機(jī)協(xié)同智慧教學(xué)是教育主體與機(jī)器相互協(xié)作、形成正反饋關(guān)系的教學(xué)方式,具有數(shù)據(jù)多模態(tài)、適應(yīng)性反饋等特點(diǎn)[48]。DKG的構(gòu)建是教育新型基礎(chǔ)設(shè)施建設(shè)的重要組成部分,而由MLLM支持的MMDKG能夠融合不同模態(tài)數(shù)據(jù)的特性,有效推動(dòng)多模態(tài)知識(shí)驅(qū)動(dòng)的人機(jī)協(xié)同教學(xué)[49]。在教學(xué)場景中,師生可通過交互界面與計(jì)算機(jī)系統(tǒng)進(jìn)行交流和操作,人機(jī)協(xié)同的“診斷-反饋-干預(yù)-反思”環(huán)節(jié)貫穿于整個(gè)教學(xué)過程。借助MMDKG,“機(jī)”能夠更好地理解教育情境,使“機(jī)與人”交互更加接近“人與人”之間的交流,為師生提供適應(yīng)性反饋。

五 結(jié)語

在生成式人工智能的發(fā)展推動(dòng)下,本研究從MLLM與DKG的技術(shù)原理,以及兩者的協(xié)同、競爭和競合出發(fā),探索了MLLM驅(qū)動(dòng)MMDKG構(gòu)建的前提、進(jìn)程和教育應(yīng)用場景布局,旨在為新一代人工智能背景下DKG的相關(guān)研究提供借鑒與啟示。當(dāng)前利用MLLM技術(shù)構(gòu)建MMDKG雖然可行,但也存在數(shù)據(jù)偏見、知識(shí)準(zhǔn)確性不高等諸多挑戰(zhàn)。未來,以MLLM為基座構(gòu)建面向教育主體認(rèn)知、情感、技能等目標(biāo)的MMDKG,可以通過強(qiáng)化智能評(píng)估和反饋體系,明確不同應(yīng)用模式下的服務(wù)機(jī)制,以推動(dòng)智慧教育生態(tài)穩(wěn)健發(fā)展。

[1]柯清超,林健,馬秀芳,等.教育新基建時(shí)代數(shù)字教育資源的建設(shè)方向與發(fā)展路徑[J].電化教育研究,2021,(11):48-54.

[2]穆肅,譚梓淇,駱玨秀,等.面向精準(zhǔn)教研的立體知識(shí)圖譜構(gòu)建方法研究[J].電化教育研究,2023,(5):74-81.

[3]高茂,張麗萍.融合多模態(tài)資源的教育知識(shí)圖譜的內(nèi)涵、技術(shù)與應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究,2022,(8):2257-2267.

[4]Li N, Shen Q, Song R, et al. MEduKG: A Deep-learning-based approach for multi-modal educational knowledge graph construction[J]. Information, 2022,(2):91.

[5]盧宇,余京蕾,陳鵬鶴,等.多模態(tài)大模型的教育應(yīng)用研究與展望[J].電化教育研究,2023,(6):38-44.

[6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[OL].

[7]Sevilla J, Heim L, Ho A, et al. Compute trends across three eras of machine learning[OL].

[8]肖仰華,徐波,林欣,等.知識(shí)圖譜:概念與技術(shù)[M].北京:電子工業(yè)出版社,2020:8-15.

[9][26]Zhu X, Li Z, Wang X, et al. Multi-modal knowledge graph construction and application: A survey[OL].

[10]Pu F, Zhang Z, Feng Y, et al. Learning context-based embeddings for knowledge graph completion[J]. Journal of Data and Information Science, 2022,(2):84-106.

[11]林健,柯清超,黃正華,等.學(xué)科知識(shí)圖譜的動(dòng)態(tài)生成及其在資源智能組織中的應(yīng)用[J].遠(yuǎn)程教育雜志,2022,(4):23-34.

[12]李艷燕,張香玲,李新,等.面向智慧教育的學(xué)科知識(shí)圖譜構(gòu)建與創(chuàng)新應(yīng)用[J].電化教育研究,2019,(8):60-69.

[13]張春霞,彭成,羅妹秋,等.數(shù)學(xué)課程知識(shí)圖譜構(gòu)建及其推理[J].計(jì)算機(jī)科學(xué),2020,(S2):573-578.

[14]張玉柳,趙波.深度學(xué)習(xí)視角下學(xué)習(xí)者模糊認(rèn)知地圖的構(gòu)建與應(yīng)用[J].現(xiàn)代教育技術(shù),2021,(11):37-45.

[15]李龍飛,張國良.算法時(shí)代“信息繭房”效應(yīng)生成機(jī)理與治理路徑——基于信息生態(tài)理論視角[J].電子政務(wù),2022,(9):51-62.

[16]Pan S, Luo L, Wang Y, et al. Unifying large language models and knowledge graphs: A roadmap[OL].

[17][35]Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[OL].

[18]Zhang Z, Zhang A, Li M, et al. Multimodal chain-of-thought reasoning in language models[OL].

[19]Yin S, Fu C, Zhao S, et al. A survey on multimodal large language models[OL].

[20]羅江華,張玉柳.基于跨模態(tài)理解與重構(gòu)的適應(yīng)性數(shù)字教育資源:模型構(gòu)建與實(shí)踐框架[J].現(xiàn)代遠(yuǎn)程教育研究,2023,(6):91-101.

[21]Wei J, Tay Y, Bommasani R, et al. Emergent abilities of large language models[OL].

[22]Schaeffer R, Miranda B, Koyejo S. Are emergent abilities of Large Language Models a mirage?[OL].

[23]Liu V, Chilton L B. Design guidelines for prompt engineering text-to-image generative models[OL].

[24]陳燁,周剛,盧記倉.多模態(tài)知識(shí)圖譜構(gòu)建與應(yīng)用研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2021,(12):3535-3543.

[25]李振,周東岱,王勇.“人工智能+”視域下的教育知識(shí)圖譜:內(nèi)涵、技術(shù)框架與應(yīng)用研究[J].遠(yuǎn)程教育雜志,2019,(4):42-53.

[27]Agrawal M, Hegselmann S, Lang H, et al. Large language models are few-shot clinical information extractors[A]. Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing[C]. Abu Dhabi, United Arab Emirates: Association for Computational Linguistics, 2022:1998-2022.

[28]Dunn A, Dagdelen J, Walker N, et al. Structured information extraction from complex scientific text with fine-tuned large language models[OL].

[29]Sun R, Cao X, Zhao Y, et al. Multi-modal knowledge graphs for recommender systems[A]. Proceedings of the 29th ACM International Conference on Information & Knowledge Management[C]. New York: Association for Computing Machinery, 2020:1405-1414.

[30]劉建偉,丁熙浩,羅雄麟.多模態(tài)深度學(xué)習(xí)綜述[J].計(jì)算機(jī)應(yīng)用研究,2020,(6):1601-1614.

[31]Liu J, Xia F, Wang L, et al. Shifu2: A network representation learning based model for advisor-advisee relationship mining[J]. IEEE Transactions on Knowledge and Data Engineering, 2019,(4):1763-1777.

[32]Wang L, Zhao W, Wei Z, et al. SimKGC: Simple contrastive knowledge graph completion with pre-trained language models[OL].

[33]Jiang P, Agarwal S, Jin B, et al. Text-Augmented open knowledge graph completion via pre-trained language models[OL].

[34]Kim J, Kwon Y, Jo Y, et al. KG-GPT: A general framework for reasoning on knowledge graphs using large language models[OL].

[36]Bai Y, Jones A, Ndousse K, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback[OL].

[37]騰訊調(diào)研云.人機(jī)共生——大模型時(shí)代的AI十大趨勢(shì)觀察[OL].

[38]Azamfirei R, Kudchadkar S R, Fackler J. Large language models and the perils of their hallucinations[J]. Critical Care, 2023,27:1-2.

[39]Mündler N, He J, Jenko S, et al. Self-contradictory hallucinations of large language models: Evaluation, detection and mitigation[OL].

[40]Zhang Y, Li Y, Cui L, et al. Siren’s song in the AI ocean: A survey on hallucination in large language models[OL].

[41]教育部.義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(2022年版)[S].北京:北京師范大學(xué)出版社,2022:2.

[42]Giray, L. Prompt Engineering with ChatGPT: A guide for academic writers[J]. Annals of Biomedical Engineering, 2023,(6):1-5.

[43]吳砥,李環(huán),陳旭.人工智能通用大模型教育應(yīng)用影響探析[J].開放教育研究,2023,(2):19-25、45.

[44]盧宇,薛天琪,陳鵬鶴,等.智能教育機(jī)器人系統(tǒng)構(gòu)建及關(guān)鍵技術(shù)——以“智慧學(xué)伴”機(jī)器人為例[J].開放教育研究,2020,(2):83-91.

[45]宋武全,李正福.日本數(shù)字教材建設(shè):政策演進(jìn)、實(shí)施路徑和問題啟示[J].全球教育展望,2023,(6):89-99.

[46]沈杰,喬少杰,韓楠,等.融合多信息的個(gè)性化推薦模型[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2021,(3):128-138.

[47]Luo H, Haihong E, Tang Z, et al. ChatKBQA: A generate-then-retrieve framework for knowledge base question answering with fine-tuned large language models[OL].

[48]符雪姣,曾明星,張友福.人機(jī)協(xié)同精準(zhǔn)教學(xué)整體框架與關(guān)鍵環(huán)節(jié)設(shè)計(jì)[J].開放教育研究,2023,(2):91-102.

[49]吳砥,陳敏.“大模型”視角下的人機(jī)協(xié)同教學(xué)[N].中國教師報(bào),2023-10-18(13).

Evolution and Educational Application of Discipline Knowledge Graph Driven by Multimodal Large Model

LUO Jiang-hua ZHANG Yu-liu

At present, the multimodal large model represented by GPT-4 is promoting the development of general artificial intelligence in the direction of multimodal integration. Benefiting from application technologies such as multimodal thought chain, emergent abilities and prompt engineering, discipline knowledge map can better form an intelligent expansion paradigm that correlates abstract symbolic concepts with multimodal data, which can effectively solve many shortcomings in the construction of existing maps, and further promote the creation of multimodal discipline knowledge graphs, and provide strong support for the development of smart education services. Based on this, this paper firstly deconstructed the relationship between multimodal large model and discipline knowledge graph. Then, this paper explored the driving premise of multimodal large model on discipline knowledge graph, and discussed the basic connotation and construction framework of multimodal discipline knowledge graph from the evolutionary perspective. Finally, four educational application scenarios of multimodal discipline knowledge graph were proposed, including promoting the diverse aggregation of educational resources, helping the development of intelligent teaching products, empowering the personalized recommendation of discipline resources, and promoting the smart teaching of human-machine collaboration, expecting to provide reference and enlightenment for the related research of discipline knowledge graph.

multimodal large language model; multimodal data; discipline knowledge graph; multimodal disciplines knowledge graph; educational application

G40-057

A

1009—8097(2023)12—0076—13

10.3969/j.issn.1009-8097.2023.12.008

本文為2021年度國家社科基金教育學(xué)重點(diǎn)項(xiàng)目“以教育新基建支撐高質(zhì)量教育體系建設(shè)研究”(項(xiàng)目編號(hào):ACA210010)的階段性研究成果。

羅江華,教授,博士,研究方向?yàn)橹腔劢逃碚撆c實(shí)踐,郵箱為swusun@swu.edu.cn。

2023年7月25日

編輯:小時(shí)

猜你喜歡
模態(tài)模型教育
一半模型
國外教育奇趣
題解教育『三問』
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
教育有道——關(guān)于閩派教育的一點(diǎn)思考
辦好人民滿意的首都教育
3D打印中的模型分割與打包
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
主站蜘蛛池模板: 国产人人射| 久久综合色天堂av| 国产亚洲成AⅤ人片在线观看| 亚洲午夜国产精品无卡| 在线观看国产精品一区| 亚洲综合专区| www.狠狠| 欧美在线视频不卡| 91色国产在线| 偷拍久久网| 免费一级大毛片a一观看不卡| 依依成人精品无v国产| 久久久久人妻一区精品色奶水| 国产青青草视频| 不卡无码网| 亚洲日韩在线满18点击进入| 国产av一码二码三码无码| 日韩精品一区二区深田咏美| 国产成人1024精品| 欧美精品成人一区二区在线观看| 91外围女在线观看| 国产香蕉在线视频| 亚洲欧美精品在线| 亚洲美女久久| 欧美a级完整在线观看| 亚洲九九视频| 一级毛片基地| 久久综合干| 日本精品一在线观看视频| 午夜影院a级片| 国产人人干| 国产精品第一区在线观看| 亚洲男人的天堂网| 国产精品一区在线麻豆| 美美女高清毛片视频免费观看| 中国一级特黄大片在线观看| 深夜福利视频一区二区| 国产精品内射视频| 亚洲欧洲日韩综合| 久久人午夜亚洲精品无码区| 美女亚洲一区| 青青青草国产| 日韩视频精品在线| 人人爽人人爽人人片| 毛片网站免费在线观看| av免费在线观看美女叉开腿| 色综合婷婷| 久久香蕉国产线看观看式| 欧美激情综合| 国产在线视频导航| 国内精品一区二区在线观看| 免费无码网站| 国产精品太粉嫩高中在线观看| 国产91在线免费视频| 久久久久人妻一区精品色奶水| 国产真实二区一区在线亚洲| 大香网伊人久久综合网2020| 日日噜噜夜夜狠狠视频| 欧亚日韩Av| 精品视频免费在线| 综合天天色| 精品欧美视频| 国产福利微拍精品一区二区| 久久久成年黄色视频| 久久婷婷国产综合尤物精品| 久久精品丝袜高跟鞋| 91在线播放免费不卡无毒| 98精品全国免费观看视频| 中国一级特黄大片在线观看| 亚洲午夜福利精品无码| 欧美a级完整在线观看| 亚洲中文字幕23页在线| 91色在线观看| 日韩精品成人在线| 欧美色99| 亚洲视频色图| 中文无码毛片又爽又刺激| 欧美色丁香| 成人蜜桃网| 少妇精品网站| 2020国产在线视精品在| 欧美日韩综合网|