張波 金玉鵬等



摘要:大數據時代的在線教育面臨著資源量巨大而難以組織、異構資源之間沒有統一描述而難以跨平臺獲取、資源之間缺乏關系而難以關聯檢索等問題。如何構建適應大數據特征的組織框架以實現基于海量在線教育資源的模式創新,是推動大數據時代互聯網教育發展的關鍵所在。該文提出了一種在線教育資源百科型大數據組織框架,其特點在于:首先,通過輕量級的資源鏈接方式,實現教育資源大數據在同一平臺內的匯集;其次,通過基于知識圖譜方式,實現教育資源的統一語義描述和關系刻畫,消除資源歧義性并實現資源間語義級別的知識點關聯;最后,通過百科型詞條以及分級目錄方式,實現資源的優化查詢與檢索。
關鍵詞:大數據;在線教育資源;知識圖譜;組織框架
中圖分類號:G434 文獻標識碼:A
隨著互聯網和大數據時代的到來,在線教育及其應用模式得到了飛速的發展,MooC等形式的在線教育和線上課堂走進了廣大用戶的家庭。以美國為例,各大教育機構、教育院校均通過某種形式發布在線教育資源(Online Education Resource-OER),鼓勵學生通過互聯網進行學習。我國近年來的在線教育資源也呈現出爆發式增長趨勢。在線教育資源的優勢在于:以數字資源的形式部署于互聯網環境下,滿足用戶使用所需的易獲取、可重用、可共享等需求;資源通過互聯網得到更為有效的組織,實現教育資源的易檢索、可移動訪問等優點。這些優勢促使在線教育迅速成為人們獲取教育的重要渠道之一,也成為人們實現自我教育方式轉變的關鍵推動力。
然而,隨著互聯網教育資源的日益增長和不斷累積,在線教育資源已經呈現出大數據的典型特征:(1)海量性,即資源數量巨大;(2)多樣性,即資源種類繁多;(3)高速性,即資源保持高速增長的態勢。由此可見,人們在互聯網和大數據時代,在線教育資源高效利用面臨著巨大挑戰:人們在獲取在線教育資源時往往面對著無數資源信息,而缺乏有效的指引和搜索導航,導致教育資源的信息迷航;教育資源來源多樣性而導致冗余信息過度,用戶無法辨別真偽;教育資源快速增長致使大量資源雜亂分布在多個不同的站點,缺乏統一途徑對這些教育資源進行分類存儲和統一組織。可以說,如何對互聯網中海量的在線教育資源大數據進行有效的組織管理,促使在線教育資源獲得更為優化的服務模式,已經成為當前亟待解決的關鍵問題。
實現在線教育大數據資源有效應用面臨著以下關鍵問題:(1)海量網絡資源的組織框架問題,即提供輕量級資源組織管理的一體化框架,整合全網教育資源的同時避免單一平臺承載大數據容量負擔,其目的在于為用戶提供在線教育資源獲取入口,并對資源進行開放式分類管理;(2)在線教育資源的統一組織和描述問題,即對各種來源的教育資源進行統一的資源描述,使其具有規范的、標準的表達方式,其目的在于消除在線教育資源的異構性和歧義性;(3)在線教育資源的知識關聯模式問題,即在各類教育資源之間建立知識關聯,使各類教育知識點之間通過準確的語義實現關聯,其目的在于通過教育資源之間的知識關聯實現知識點關聯,進而便于資源檢索和推薦;(4)在線教育資源的查詢優化問題,即在海量數據的前提下,如何組織和優化查詢方法,盡量縮短用戶響應時間,提升用戶體驗。
針對上述問題,本文提出了一種大數據時代在線教育資源百科型組織模式,其特點在于:(1)為在線教育資源提供百科型組織框架,通過開放式百科模式為用戶呈現結構化、分類化的在線教育平臺入口,融合來自全網的教育資源和數據鏈接,實現資源的獲取導航;(2)在組織模式框架底層定義規范化資源描述格式,對來自互聯網的多源在線教育資源進行統一描述,便于在框架中對資源進行自動分類、檢索、推送等;(3)在組織框架中定義教育領域知識圖譜,在各類教育知識點(資源實體)之間建立知識關聯關系,使圖模型為基礎的教育知識點(資源實體)以圖網絡方式得到關聯化表示,從而為資源提供鏈接、跳轉、推理等規則;(4)在組織框架中采用分層架構,將各個功能點相對分離,以實現各層之問的寬松耦合,也便于后期的擴展和維護。并且使用冷熱數據分離方法控制數據響應時間,從而優化資源查詢速度。
(一)互聯網中在線教育資源的傳統組織模式
在線教育資源組織的目的在于通過互聯網處理、存儲和傳播教育資源,并且支持與教學相關的管理與通訊。在大數據時代,為了避免資源管理的冗余性、復雜性,提升用戶獲取資源的便捷性、準確性,在線教育資源組織必須將多源異構的資源實現有機組織和關聯。根據語義信息將多源異構資源有機地聯系在一起,達到可查詢、可追溯、可比較、可保障的目標。
為了提高在線教育資源的服務質量,傳統的互聯網分類方法是目前最為流行的組織模式。基于網絡分類的在線教育服務模式具有諸多優點:首先,在線服務讓教育資源可以被大眾共享,提高資源復用性;其次,互聯網部署方式降低開銷,提高開發的效率,提升服務的質量;第三,互聯網分類為教育資源提供了有效索引結構,便于用戶按類別檢索,也便于網站按類別分類存儲。現有的在線教育資源,諸如基于云計算的服務提供,讓教育資源能夠更穩定的被用戶訪問。在我國,各大高校也通過第三方互聯網平臺發布了大量的在線教育資源。
然而,傳統在線教育資源組織技術模式的瓶頸在于:(1)資源管理分類目錄大多為人工設置,分類目錄結構直接決定資源組織類別,不合理的分類直接導致資源管理難度加大,海量資源缺乏自動標注亦導致精確資源檢索難以實現;(2)傳統分類方法無法解決海量教育資源之間的知識自動關聯問題,使教育資源碎片化存在,難以形成智能化地提供關聯學習應用模式;(3)傳統教育資源組織技術模式局限于單一網站內,由于互聯網各網站海量資源之間存在描述異構、標簽語義不一致、資源種類繁多,難以在統一平臺中存儲并整合多源異構的海量教育資源,難以統一服務。
上述問題亟待突破的關鍵在于:如何提供一種適應大數據環境的在線教育資源組織模式,解決:(1)具備分類知識語義描述的資源分類規范;(2)教育資源的自動關聯;(3)海量教育資源的精確查詢與應用導航;(4)多源異構教育資源的統一開放管理與描述等問題。
(二)大數據在線教育資源組織模式的關鍵要素分析
為了適應在線教育資源組織使用所需要滿足的統一組織、資源跨平臺使用、關聯檢索等需要,同時避免單一平臺內海量資源大數據存儲查詢的巨大負擔,新型在線教育資源組織應滿足的關鍵要素包括以下方面:
1.分類規范,即建立按照學科、方向等為分類標準的樹形分類目錄,在不同的樹形目錄中給出類別標簽語義,滿足OER在分類書中獲得關鍵類別標注的需要。本文設計的分類規范所采用的樹形目錄中可明確給定任意類別的規范語義,即{類別名,父類別,子類別集合,類別屬性集合}等元數據。同時,應定義類別推理規則,用以在分類樹中依據確定的類別語義推理出與其相關聯的類別,進而計算類別之間的相似性等數值。
2.知識關聯,即海量OER均可以視為可使用的資源實體(Entity),通過一種知識關聯性視角使教育資源展現在用戶面前。本文設計的關聯通過知識圖譜實現,提供任何兩個資源及其之間的關聯關系表述,其形式為{主體,關系,客體}三元組。由于知識圖譜在表達關系時靈活度高、表達式簡單、存儲方便,其能夠在框架內提供良好的資源關聯。
3.資源導航,即利用百科模式,通過分類樹為用戶提供教育知識點詞條分類導航;繼而在用戶所關心的教育知識點詞條中,提供與該詞條說明相關聯的鄰近詞條,然后通過知識圖譜分析與這些詞條相關聯的教育資源,并給出資源的評估參數,包括來源網站、可用性、可靠性、質量評價等附加信息,便于用戶通過參數自我評估后選擇使用。
4.資源開放描述,即通過輕量級的資源開放描述在統一平臺中管理海量教育資源,并在框架中開放教育資源詞條和教育資源OER實體的描述編輯權限,用戶可對教育知識點詞條和具體資源編輯描述,描述海量教育知識點詞條和OER資源。
為了解決上述問題,本文提出了一種百科型在線教育資源組織框架(Online Education Resource Organizing Framework Based on Encyclopedias,OER-OFE),其特點在于:通過互聯網百科形式將各類資源進行統一化、跨平臺、互聯式地進行組織,并在其中依據資源來源、屬性、關聯情況等特性對資源進行詳細說明,從而提供百科全書模式的互聯網大規模資源統一視圖,實現全網絡多平臺在線資源的一體化搜索模式。
OER-OFE實現的關鍵難點在于:(1)多源異構海量數據的統一組織;(2)海量異構教育資源的自動標注與知識關聯;(3)海量環境下的精準資源導航;(4)開放的教育資源描述與交互接口。
為了解決上述難點問題,本文采用了大數據存儲架構和知識圖譜語義關聯為核心的技術,分別從數據存儲、知識關聯、資源搜索、和交互接口等方面定義框架。首先,OER-OFE通過自動教育資源數據感知與采集技術實現異構多平臺資源的分類采集,并對遠程數據和本地數據進行分類存儲,在底層將多個海量存儲節點邏輯統一,實現教育資源大數據的多節點分布式存儲,確保數據的完整性和正確性;進而借助多節點并行查詢控制實現教育資源查詢任務并行分派,待各個任務完成以后聚合查詢結果,確保教育資源大數據導航、檢索等過程的正確性和高容錯性,解決單一節點數據量巨大、處理復雜和延遲性較大等問題。其次,引入知識圖譜技術為海量資源提供語義級別的知識描述標準。知識圖譜將首先提供教育資源分類管理的元數據規范,在各分類之間建立關聯關系,實現精確海量資源的檢索導航;知識圖譜同時為海量教育資源實體自動建立語義級別的知識關聯,使資源之間具備準確的關系描述,從而滿足學習過程中關聯資源智能推薦、應用等需要。OER-OEF整體框架如圖1所示。
由此,本文所提出的OER-OFE框架中包括以下幾個模塊:
1.海量教育資源數據庫。為滿足大數據時代互聯網資源存儲的需要,OER-OFE采用數據即服務策略,為本地數據源和外來數據源提供非結構化存儲,采用NOSQL的查詢方式滿足大數據時代的數據庫級別的快速檢索需求。為此,數據存儲給定了存儲規則和相應的外部數據接口訪問規則,并依據數據語義(包括名稱、類別、來源、詞條等特征)進行組織管理;
2.基于知識圖譜的知識關聯。知識關聯為整個平臺提供知識管理、應用的能力。依據分類知識庫給定的分類樹,給出教育資源分類教育分類知識點,并在教育分類知識點給出詞條編輯模塊,進而將OER與知識點詞條進行關聯。知識關聯包括三個部分:OER元數據模型、OER分類知識庫和OER知識圖譜。元數據模型描述在線教育資源所應具備的基本語義;分類知識庫給定教育類資源OER的類別以及類別之間的關系;知識圖譜描述所有OER資源實體(即來自于互聯網中任一教育資源)之間的關聯關系,以{主體,關系,客體}三元組表示,所有資源及其關系構成圖模型表示,關系定義較靈活,可描述資源之間的“同一、相似、同源”等多種資源關聯;
3.用戶詞條搜索分析(即OER分類)。依據用戶輸入的關鍵詞條,通過OER分類樹定位詞條所在類別,并給出詞條對應的解釋和說明;在搜索詞條后給出該詞條對應的OER及其跳轉鏈接;依據分類目錄給出該詞條類所關聯的父類和子類詞條;依據知識圖譜給出該詞條的相似、同源等關聯詞條OER;
4.用戶接口。用戶接口即教育資源共享平臺的前臺界面,是系統與用戶交互的主要媒介,將系統的特性和功能展示給用戶,方便用戶進行操作。特別是將共享平臺的資源種類展示給用戶,有利于用戶快速、精準定位資源,對于資源的歸類要做到分類清晰、準確。
綜合而言,與以往傳統的組織模式不同的是,OER-OFE框架的關鍵技術創新在于:(1)引入大數據存儲技術模式實現海量多源異構教育資源的一體化管理,實現多資源的關聯分布存儲,解決數據量快速增長與查詢效率之間的矛盾問題;(2)引入知識圖譜作為框架的核心,提供大規模基礎語義知識表達手段,從而使海量教育資源具備了分類、關聯、導航的規范化表達形式。

(一)教育知識圖譜
本文涉及的核心理論是知識圖譜技術。知識圖譜技術常用在搜索引擎中,用來查詢復雜的關聯信息,讓系統更好地從語義層面理解用戶意圖,改進搜索質量。知識圖譜旨在描述真實世界中存在的各種實體或概念,本質上是語義網絡,是一種基于圖的數據結構,其結點代表實體或者概念,邊代表實體或概念之間的各種語義關系。在知識圖譜中,每個實體或概念用一個全局唯一確定的ID來標識,稱為它們的標識符,用屬性一值對來刻畫實體的內在特性,而關系用來連接兩個實體,刻畫它們之間的關聯。為描述知識圖譜中的復雜關系,工程領域中常用到{主體,關系,客體}這種簡單的三元組形式。這種三元組形式可以表示圖模型中的所有資源及其關系,而且關系定義較為靈活。
例如,圖2中表示的關系,就可以通過簡單的三元組描述清楚。如圖2中所示,對于實體或概念的關聯關系,可以通過{主體,關系,客體}的形式表示,其中主體和客體表示具體的教育資源實體或概念,關系表示主體和客體的關聯關系。通過這些三元組的表述,可以將復雜的網絡關系簡單化,更有利于關聯分析和網絡搜索。
(二)OER-OFE組織模式
知識圖譜(Knowledge Graph)是用以描述客觀存在事物之間知識關系的圖模型,將事物(知識圖譜中稱為實體)通過特定關系進行兩兩關聯,實現各類教育知識點、教育資源實體等以規范化、形式化的關系進行圖連接,使OER實體具有良好的關聯特征以及規范化的語義特征。
基于知識圖譜的組織模式將從以下方面滿足大數據時代教育資源應用的需要:
1.語義級維度鏈接。知識圖譜為OER之間提供了良好的、規范的、形式化的語義鏈接,從而建立能被計算機自動理解和推理的分析處理基礎。例如三元組<“勾股定理”“ORE-勾股定理例題1”,例題>,形式化地表達了“主體”(知識點“勾股定理”)和“客體”(教育資源“ORE-勾股定理例題1”)之間存在一個“關系”為“例題”。由于這種語義級別的形式化描述被統一定義,所以計算機能夠很準確地在搜索“勾股定理”知識點時了解到有一個例題其標記為“ORE-勾股定理例題1”,并由此為用戶提供該資源的來源、說明和導航等。另一方面,知識圖譜具有靈活的關系維度定義規則,即知識圖譜中可依據用戶需要給出實體之間多種關系的說明,例如“is-a”“sameas”“akindof”“instanceof”等,這為實體之間的多維度語義關聯提供了良好的保障。
2.場景化的資源服務。知識圖譜結合用戶的具體操作行為,可以識別用戶的學習層次、學利方向、學習習慣等信息,從而定制用戶的具體學習場景,進而提供與場景相對應的資源服務方式。例如,用戶所搜索和獲取的如果包含大量“大學英語四級”“C語言”“JAVA語言”“數據結構”等相關資源,那么依據知識點分類和學科方向分類,知識圖譜能夠識別出該用戶的學習場景為“大學”“計算機學科”等信息,這些信息將形成該用戶的具體學習背景、層次等,那么OEF中展現給用戶的將會是大量與該場景相關聯的學習內容,避免將“小學”“初中”等學習層次或“化學”“哲學”等相關性較小的學科方向對應的OER提供給用戶。
3.層次化的資源組織。當新資源加入本該平臺時,平臺可以從新資源的語義標簽中分析出資源的特性,為資源建立相應的標簽和關聯關系。例如圖3所示,“勾股定理”的相關資源加入平臺,可以利用知識圖譜建立相應的索引和語義關系,“勾股定理”應該和“切線定理”“邊長公式”“角度公式”等標簽有著比較緊密的關系,然后將該標簽加入到關系鏈和分級目錄中,形成一個完整的結構。通用流程如圖3所示。
4.面向答案的搜索。通過知識圖譜建立教育知識點之間的關聯關系,讓OEF理解用戶的搜索意圖,直接通過返回答案詞條的方式解答用戶的問題。知識圖譜在知識點之間建立關聯,從而使用戶的查詢反饋更有針對性。
5.用戶查詢的個性化推薦。在知識圖譜提供了語義級別的實體關系和場景化服務的基礎上,OER-OFE可以為用戶提供信息更加豐富的個性化推薦服務,即針對用戶的學習場景、利用用戶搜索詞條實體在知識圖譜中的對應關系,為用戶提供更多豐富的OER服務。例如類似詞條的關聯推薦、同類別OER的推薦、同來源OER的推薦等多種服務方式,流程如圖4所示。
本文提出了一個在線教育共享平臺,該平臺通過互聯網百科形式將各類教育資源進行統一化、跨平臺、互聯地進行組織,根據資源的語義信息有機地聯系在一起,達到可查詢、可追溯、可比較、可保障的目標。并依據資源來源、屬性、語義標簽等特性對資源進行詳細說明,從而提供百科全書模式的互聯網大規模資源統一視圖,實現全網絡多平臺在線資源的一體化搜索模式,通過前期實踐,本框架平臺在數據統一組織、知識圖譜自動構建與檢索等方面均具有良好的性能。該OER-OEF框架主要具有在線教育資源的統一組織描述、知識關聯、優化查詢和智能推薦等特點,并結合當下流行的相關技術,實現將多源異構的教育資源有機組織和關聯,提供一個全新的教育共享平臺,從而將教育資源從傳統的共享平臺遷移到基于大數據的百科型資源共享平臺上,為用戶提供一個輕量級的學習環境,發掘在線教育系統的潛在價值。