武法提 黃石華



[摘? ?要] 人工智能教育時代,傳統的教育數據共享方法無法滿足海量教育數據共享的時效性,進而影響智能教育系統響應的即時性與智能性,文章提出了一種基于多源數據融合的共享教育數據模型的建模方法。該建模方法首先對多源數據融合的概念、融合方法等內容進行分析,并對多種異構數據源的數據共享特性進行剖析,提取出“學習者、時間、空間、設備、事件”五維數據共享特性來對多源異構的教育數據進行數據融合分析;然后再結合國際通用的xAPI(Experience API)數據規范,對融合后的數據進行規范化分析,生成通用的教育數據交換格式;最后,基于該數據交換格式,探討了共享教育數據模型的總體架構及實現路徑,并構建一個可重用、可共享的教育數據模型,以期為今后開展基于大數據的數據共享的研究提供一套切實可行的實踐指導框架。
[關鍵詞] 數據特性; 多源數據融合; xAPI規范; 數據共享模型
[中圖分類號] G434? ? ? ? ? ? [文獻標志碼] A
[作者簡介] 武法提 (1971—),男,山東鄆城人。教授,博士,主要從事智能學習系統設計研究。E-mail:wft@bnu.edu.cn。
一、問題的提出
人工智能教育時代,數據收集與共享是智能教育過程中非常重要的一個環節[1],數據的共享程度直接影響著智能教育系統響應的即時性和智能性。而隨著云計算、移動互聯網、大數據、人工智能等“新技術”的日漸成熟,這些“新技術”賦予了智能學習終端設備全方位感知和采集數據的能力,能夠捕捉學習者全范圍、全過程的學習行為數據,形成海量的教育大數據,呈現出多源性、多模態、多樣性的特點。這些“新技術”雖然給人們的數據獲取帶來極大便利,但也出現海量教育數據資源與各異構數據源難以獲取所需數據之間的矛盾,以及異構數據之間數據共享的時效性較差等問題,而如何打通各異構數據源的“數據壁壘”,構建一個高度共享互通的教育數據模型,在提升海量教育數據共享的時效性的同時,也為智能教育系統提供更客觀、全面、完整的數據支撐,則是當前教育發展迫切需要解決的問題之一?;诖?,文章提出一種基于多源數據融合的共享教育數據模型的建模方法,通過采用多源數據融合方法對海量異構教育數據進行特征級數據融合,再結合國際通用的xAPI(Experience API)學習數據規范,構建一個可重用、可共享的教育數據模型,以提升海量教育數據共享的時效性,實現各異構數據源之間數據的高度共享與互通。
二、多源異構教育數據的數據融合分析
(一)多源數據融合的方法分析
數據融合最早應用于軍事領域,它是一種多層次、多方面的數據處理過程, 用于處理多源數據,對信息進行自動檢測、聯合、相關、估計和合成[2],主要是為了實現較為準確的位置推斷和身份估計,進而對戰場狀況、威脅程度和重要水平作出及時完整的評價[3]。后來在傳感器、地理空間、情報分析等多個領域得到了應用與發展,尤其是互聯網時代,多源數據融合逐漸成為大數據領域的重要研究方向[4]。通過多源數據融合,可以實現多源信息的交叉印證,可以達到數據信息的相互補償,并可以有效地減少數據量,以獲取確定數據和深層次的語義知識[4-5]。人工智能教育時代,教育大數據的生態逐漸形成,海量的教育數據呈現多源異構特性,而多源數據融合方法為解決新時代教育大數據的共享互通提供了一種新的解決思路,為構建一個重用、共享的教育數據模型提供了可行的實踐視角。
而目前常見的多源數據融合方法主要有數據級融合、特征級融合和決策級融合等三種[6]。數據級融合是屬于最底層的數據融合,它是對原始數據經過簡單預處理之后直接進行關聯和融合,融合之后才作數據特征提取;特征級融合是先對數據進行特征提取,再對數據進行關聯融合;決策級融合是先對各數據源進行決策,然后再將這些決策進行關聯融合,最終獲得整體一致性的決策結果[7-9]。這三種數據融合方法的融合過程如圖1所示。通過比較這三種數據融合方法,可以看出,數據級融合雖然能夠最大程度上保留原始數據的特征,但融合的代價較高,時效性也較差,無法滿足人工智能教育時代對數據的即時性等要求;決策級融合雖然具有很高的容錯性和時效性,但它是以具體決策需求為出發點進行的數據融合,面對人工智能教育時代復雜多變的教育大數據環境,難以制定出具體適配的決策以進行數據融合;而特征級融合在保證即時性的同時,也能夠最大程度上給出決策所需的特質信息,其融合結果也具有較高的精度,由于教育大數據不像圖像數據具有融合的高精度,特征級融合方法很好地契合了人工智能教育時代教育大數據分析的要求?;诖?,文章將采用特征級數據融合方法來構建共享教育數據模型。
(二)異構多源教育數據的共享數據特性的提取
為了提高數據融合之后的數據重用度,文章的多源教育數據融合方法是通過提取各異構數據源的數據共享特性來進行特征級數據融合。而數據共享特性的提取過程,其實質就是從各異構數據源學習者所產生的學習行為數據中提取學習情境特性的過程??v觀以往的學習情境的信息特性描述,不同學者從不同的視角將情境信息特性劃分為不同的類型。以下是相關學者對情境信息特性劃分的典型觀點:如DEY[10]認為,情境信息包括位置、時間和周圍環境等顯式感知的情境信息,同時也包括社會關系、習慣、消費水平和喜好等蘊含感知的情境信息。Lieberman[11]等人將情境分為用戶情境、環境情境和應用情境三大方面,其中,用戶情境包括活動、位置和描述等情境;環境情境包括時間、亮度、溫度、天氣、資源等情境;應用情境包括功能、維護、能源等情境。岳瑋寧[12]等人將情境信息分為自然環境、設備環境、用戶環境三大類。顧君忠[13]等人從用戶為中心的視角,將情境信息分為計算情景、用戶情境、物理情境、時間情境和社會情境等情境。而人工智能教育時代不同數據源的學習數據具有很明顯的時空特性,且學習者的學習交互離不開設備的支持?;谏鲜龅那榫承畔⑻匦苑治觯恼聦⒏鳟悩嫈祿吹墓蚕頂祿匦蕴崛閷W習者情境、時間情境、位置情境、設備情境和事件情境5個維度情境信息特性(見表1)。
表1? ? ? ? ? ? ? ? ?學習者的學習情境分類
(三)基于共享數據特性的特征級數據融合
以上5個維度的學習情境信息特性很好地表征了各異構數據源的共享數據特性,通過這5個共享數據特性,可以準確地描述各異構數據源中學習者真實的學習生活場景,進而可以很好地實現異構數據之間的無縫對接。這5個共享數據特性代表5個數據維度,組合后可以構成學習者真實的學習場景:“學習者情境 + 時間情境 + 位置情境 + 設備情境 + 事件情境 ≌ 學習場景”,它描述了“學習者、什么時間、什么地點、基于什么設備、做了什么事情”。基于這5個數據維度,采用特征級數據融合方法對教育數據進行融合。其特征級數據融合主要經過各數據維度的語義特征的分層提取、分層語義的特征級數據融合、跨維度跨分層的關聯語義的特征級數據融合等融合過程,如圖2所示。
(1)各數據維度的語義特征的分層提取,主要是對這5個不同數據維度進行語義特征的分層提取,確定各數據維度的語義屬性,并確定各數據維度語義同級、上下級的多層語義邏輯關系。如時間維度的語義屬性可以分為工作日和節假日大類語義信息,工作日又可以細分為課堂學習時間、自習時間等不同粒度的語義信息。
(2)分層語義的特征級數據融合,主要是將各異構數據源的教育數據,按照這些分層語義分類,采用相應的細粒度融合策略進行特征級數據融合,生成能準確描述學習者學習特征的場景數據,并消除數據結構和相同語義聚集在同一粒度上的不一致與冗余關系。
(3)跨維度、跨分層的關聯語義的特征級數據融合,主要是為了更客觀、精準地描述學習者的學習特征,根據不同維度、不同層面的相似語義,對這些具有關聯語義的數據進一步進行特征級融合,生成具有深層次語義知識的場景數據(如學習者的學習習慣等)。
三、xAPI規范對5維特征融合數據的
規范化分析
(一) xAPI規范與5維特征融合數據的融合分析
在得到5維特征融合的教育數據后,接下來就需要對這5維特征融合數據進行規范化分析,而學習數據規范的選擇是實現數據格式規范的關鍵。縱觀以往學習數據規范標準的發展,主要經歷了以下幾個階段[14-16]:無標準階段、AICC(The Aviation Industry CBT Committee)標準階段、SCORM(Sharable Content Object Reference Model)標準階段。AICC標準雖然在一定程度上解決了課程資源的共享問題,但采用這種學習數據規范開發的課程資源遷移性不好,不一定能在不同的平臺上運行。SCORM標準是目前最為廣泛應用的學習數據規范標準[17],但這種標準只是針對課件等學習內容的數據規范,無法對課件學習以外的學習過程數據進行記錄,也無法實現跨平臺的數據共享與互通[18],尤其是在面對人工智能教育時代動態多變的教育環境時, SCORM標準難以解決新時代下多元異構數據的高度共享性問題。為了破除SCORM標準的局限,美國ADL(Advanced Distributed Learning)組織推出了xAPI(Experience API)數據規范,它不但兼容SCORM標準,而且可以記錄幾乎任何一種學習或行為,并且可以跨平臺進行數據共享與交換[15],xAPI規范的這種優勢很好地契合了人工智能教育時代復雜多變的教育環境。
xAPI規范的核心部件主要有兩個[15,19]:Statement屬性和LRS(Learning Record Store)學習記錄存儲。其中,Statement是定義了xAPI數據格式的語法,LRS是定義了學習記錄庫(LRS)的數據的存儲形式。根據Statement的“執行者(Actor)+ 動詞(Verb)+ 對象(Object)”的聲明結構,以及聲明結構Result、Context、Timestamp、Stored、Authority等其他擴展屬性。xAPI規范的Statement聲明結構很好地契合了5維特征融合數據的數據描述,可以生成5維特征融合數據的Statement聲明結構,即“學習者(Actor)、時間情境(Time)、空間情境(Local_Context)、設備情境(Device_Context)、事件情境(Verb+ Object+Result)”,以Statement的屬性來進行數據封裝,生成通用的數據交換格式。然后再通過xAPI規范的另一個核心部件——LRS學習記錄庫,將數據融合的規范化教育數據傳送到LRS中進行記錄并保存起來,實現LRS之間的數據共享和交換。xAPI規范對5維特征融合數據進行規范化的運行機制如下(如圖3所示):當不同數據源的學習活動或學習行為需要被跟蹤記錄時,xAPI就會發出特征級數據融合的Statement表述格式,封裝成JSON或XML等通用數據格式傳遞到LRS中,LRS負責記錄和存儲,并與其他獨立的LRS交換和共享這些學習經歷記錄,一個LRS可以與其他獨立的LRS共享這些學習記錄,LRS也可以獨立存在,也可以存在于不同的數據源中。
(二)5維特征融合數據的通用數據規范格式分析
基于上述xAPI規范對5維特征融合數據進行規范化的運行機制,為了構建一個高度共享的教育數據模型,還需要對5維特征融合數據的數據規范格式進行分析,生成通用、標準的數據交換格式。根據前面分析得到的5維特征融合數據的數據結構:“學習者(Actor)、時間情境(Time)、空間情境(Local_Context)、設備情境(Device_Context)、事件情境(Verb+ Object+Result)”,再結合 xAPI規范Statement聲明結構的規范化描述,由此得到5維特征融合數據的通用數據規范格式:“Actor(學習者) + Time(時間情境) + Local_Context (位置情境) + Device_Context(設備情境) + (Verb + Object +? Result + T-span)(事件情境)”。該通用數據格式映射出學習者的狀態為:“{學習者} 附學習者的個人語義標簽 | {某個時間點} 附時間分類語義標簽 | {某個地點} 附地點分類語義標簽,{使用什么設備} 附設備分類語義標簽 | {做了某事,結果如何,耗時多少} 附主題事件分類語義標簽”。其實例化后為:“小明{分類語義標簽:初一} | 10:00{分類語義標簽:課堂學習} | 在北二附{分類語義標簽:學校教1樓} | 使用HUAWEIPad {分類語義標簽:平板電腦} |做作業:有理數{分類語義標簽:初一數學第一單元}|得分:95{分類語義標簽:優秀}”。由此得到5維特征融合數據的數據格式規范是以“誰在什么時間、什么地點、使用什么設備、做了什么事情”對學習者經歷數據進行描述,其生成的通用數據格式(JOSN格式)如圖4所示:
圖4? ?5維特征融合數據的通用數據格式
四、共享教育數據模型的構建
(一)共享教育數據模型的總體流程框架設計
數據模型是描述數據類型、數據聯系、語義約束的集合,它的構成主要有3個部分:數據類型、數據聯系、語義約束[20]。其中,數據類型描述了數據的邏輯結構,數據聯系定義了操作數據的方法,語義約束規定了數據的語義規則。基于此,文章將共享教育數據模型也劃分為數據描述、數據語境、數據共享3個部分(如圖5所示)。其中,數據描述是用于實現對信息資源的表示、發現、共享和重用;數據語境是數據信息所屬主題的標注;數據共享是對數據交換格式進行規范化。
圖5? ?共享數據模型的結構
基于圖5所示的共享數據模型結構的邏輯關系,結合上述分析得到5維特征融合數據的通用數據規范格式,由此可以設計出共享教育數據模型的總體流程框架,如圖6所示。該總體流程框架是通過對各異構數據源的數據特性進行歸類分析,剖析出不同數據源的共享數據特征,提取為“學習者+時間情境+空間情境+設備情境+事件情境≌學習場景”5維數據特征并進行特征級數據融合,結合xAPI通用數據規范,將融合后的教育數據轉換為通用的教育數據格式規范,生成規范化的共享數據格式存儲于LRS中,并對模型中5個獨立數據維度進行組合分析,構建一個可重用、可共享的教育數據模型。該模型不但有利于各異構數據源的數據共享與分析,而且能完整地體現學習者真實學習活動全貌,從而為更深層次發掘學習者的學習需求和學習狀態提供強有力的數據基礎。
(二)基于多源數據融合的共享教育數據模型的實現路徑
基于上述共享教育模型的總體流程框架分析,共享教育數據模型的實現路徑主要經過離散和異構數據的規范化運算、模型數據屬性與語義唯一性運算、模型數據的形式化描述等3個關鍵運算環節。
1. 離散、異構數據的規范化運算環節
離散、異構數據的規范化運算主要是將各異構數據源的學習行為軌跡數據,轉換為結構化的教育數據規范的過程。該運算環節首先基于上述分析得到的5維特征數據融合的數據規范格式,將采集到離散、異構的學習者學習活動軌跡數據,再調用xAPI規范中間件的Statement聲明和動作者描述接口,轉換為結構化的學習行為數據,封裝成“Actor + Time + Local_Context + Device_Context + (Verb + Object +? Result + T-span)”的規范化描述的通用、標準數據規范格式,傳遞到LRS中進行記錄與保存,生成規范化的教育數據集。其規范化過程如圖7所示。
2. 模型數據屬性的語義處理與唯一性運算
為了便于各異構數據源理解數據位置之間的關聯關系,以發掘學習者潛在的學習行為模式和學習規律,需要對模型的數據屬性作進一步的語義化處理與唯一性運算。該運算環節主要是對模型的數據屬性打上語義標簽,并對模型數據的語義進行唯一性計算的過程。首先對模型中5維融合數據的數據屬性進行分類語義化處理,即對5個相對獨立的各數據維度,根據各數據維度的語義分類,給每一個數據維度的屬性打上分類語義的標簽,如時間數據維度以“天”為粒度的時間語義分類:早讀時間、課堂時間等語義分類,生成具有分類語義的規范化數據集;然后對模型數據的語義進行唯一性計算,即去除具有分類語義的規范化數據中的重復數據,以保證模型中的數據沒有相同語義的數據記錄,進而提升學習行為分析結果的準確性。其模型數據屬性的語義規范化過程見表2。
3. 模型數據的形式描述
為了構建一個靈活性強、重用度高的共享教育數據模型,以減少LRS之間的數據交換量,并滿足不同數據源對不同數據視圖的需求,還需要對模型的數據進行形式化描述。該環節是基于模型數據屬性與語義唯一性運算環節計算的結果,對模型中的學習者情境數據進行形式化描述,并進一步對這些獨立的數據維度進行多維度組合,以構建一個多維度的共享教育數據模型。針對構成數據模型的5個獨立數據維度,由于學習者維度是靜態化的信息數據,其形式化描述在模型中不作標注,由此,模型的學習情境數據描述可以用4元組Preference來表示,各元組既相互獨立又相互聯系,以構成不同組合的多維度的共享教育數據模型,這4元組分別是:時間情境維度、位置情境維度、設備情境維度和事件情境維度,依次用字符表示為PT、PL、PD、PO,每一個元組是由序偶對
來組成,其中,δ表示各屬性的分類語義,由此構成的共享教育數據模型Preference 的形式化描述公式為:
上述的形式化描述公式,以時間情境維度為例,
五、結? ?語
人工智能教育時代,構建一個可重用、可共享的教育數據模型,以規范人工智能教育環境下多源異構的教育數據,實現各異構數據的高度共享,是當今時代教育發展亟需解決的問題之一。文章提出的基于多源數據融合的共享教育數據模型,通過對多源異構教育數據進行數據融合,結合xAPI學習數據規范,對融合后的教育數據進行規范化描述,生成通用、標準的數據交換格式,在此基礎上,構建了一個可共享、可重用的教育數據模型,實現了各異構數據源之間的數據共享與交換,便于智能教育系統獲取更全面、完整的學習記錄數據,以提升數據共享的時效性,進而使得學習行為分析的結果更客觀、及時、準確,有利于提升智能教育系統響應的即時性與智能性。