李又玲
(成都師范學院,四川 成都 611130)
在我國高校加快教育信息化發展的過程中,建設數字化學習資源中心是十分重要的改革措施。教育部發布的《教育信息化十年發展規劃(2011-2020年)》第十二章“優質數字教育資源建設與共享行動”中明確提出:“實施優質數字教育資源建設與共享是推進教育信息化的基礎工程和關鍵環節。到2015年,基本建成以網絡資源為核心的教育資源與公共服務體系,為學習者可享有優質數字教育資源提供方便快捷服務。”
對于高校數字化學習資源中心的建設,有研究者指出,首先要實現校園內部的教育教學資源的積累與共享,其次要為教師教學、科研和學生學習提供良好的資源支撐和環境支撐,最后要為實現校際、區域、全國甚至全球范圍內的資源共享打下基礎。[1]
分析我國高校數字化學習資源中心的建設現狀發現,目前高校已建成了很多學習資源庫,例如精品課程網站、課程學習網站等,可供用戶瀏覽或下載。然而,從資源共享的角度分析,這些資源庫卻無法互聯、交流,原因在于:①各高校的資源庫整體架構能滿足內部的學習需求,但未對外提供程序訪問資源庫的專有接口,造成“資源孤島”現象嚴重;②資源庫中現存的都是非結構化、半結構化的資源,并且元數據未標準化,這些資源難以實現機器自動化檢索,重用性很差。
對此,有研究者嘗試使用語義網技術解決上述問題,尋求建設優質共享的數字教育資源的可行途徑。語義網的核心思想是通過使用元數據將Web資源以機器可理解的方式描述和組織,提供數據的語義關系表達方式,實現網絡資源在語義層上的全方位互聯,滿足Web應用對數據互操作性的要求,從而實現網絡資源在最大范圍內的共享。[2]例如,位傳海等人就提出了學習資源語義檢索系統。[3]
然而,這些基于語義網技術的學習資源檢索系統都不支持對高校已建成的“舊”資源庫的檢索,并且目前也無研究者提出較好的資源對外共享方案。針對這兩點,本文提出一種新的高校多媒體學習資源查詢系統,解決思路如下:
(1)構建學習資源本體,并對其使用元數據標準描述,提高學習資源的可重用性和互操作性,實現資源庫的語義化,為用戶提供語義檢索途徑;
(2)充分利用已有基礎,即現存的多源、異構的資源庫,例如精品課程網站系統等,學習者能方便快捷地通過統一的接口進行新、舊資源的查詢;
(3)由于學習資源文件存在多種格式(如圖片、視頻、音頻、FLASH動畫、Word文檔、PPT課件等),單純地使用關鍵字進行多媒體資源檢索效率很低,系統還應支持對多媒體資源基于內容的查詢;
(4)學習資源在語義層面上對外開放,方便機器的檢索,以實現資源在更大范圍的共享和互操作。
這樣的設計充分考慮利用高校遺留的資源庫,以期達到各種類型學習資源“新舊并存”、在校內外都能便捷地共享,本文的第三部分重點闡述該系統的總體設計和核心技術。
目前我國高校普遍已存在的學習資源庫一般都以RDBMS管理和存儲資源,用戶查詢資源時需要輸入關鍵字,由系統根據關鍵字構造SQL語句在數據庫中檢索與之匹配的內容。與之相對照,語義檢索則主要是基于概念匹配,將傳統方法中從用戶查詢和文檔抽取出來的關鍵詞替換為含有語義的概念,其更強調基于知識的、語義上的匹配,因此有更好的查準率和查全率。[4]
本系統則針對資源“新舊并存”的情況,為了更好地整合新舊學習資源,采取“混合查詢”的解決方案:一方面,為“新”的學習資源構建學習資源本體,在查詢中結合語義推理機(如Jena等)實現概念級的語義檢索;另一方面,通過關鍵字匹配對關系數據庫進行SQL查詢,即可獲得“舊”的學習資源。
高校多媒體學習資源查詢系統主要由學習資源語義化模塊、混合查詢模塊、資源對外開放模塊構成,以下三小節重點闡述這三個模塊的具體設計。
構建學習資源本體、語義化學習資源是進行語義檢索的基礎。DraganGasevic認為,學習資源是由學習資源元數據和學習資源內容構成,[5]因此將學習資源元數據標準IEEELOM[6]與具體學科的領域本體結合,即可形成某一具體學科的學習資源本體。然而,如果僅利用LOM標準構建學習資源本體則面臨一個問題——無法對多媒體學習資源進行基于內容的檢索,例如學習者搜索主要顏色為“綠色”的圖片素材,僅依靠IEEELOM就無法描述。
因此,本文采用兩種元數據標準構建多媒體學習資源本體,即多媒體元數據標準MPEG-7[7]和學習對象元數據標準IEEELOM。利用MPEG-7標準中的TextAnnotation對多媒體學習資源進行內容的關鍵字標注,即可將圖片顏色、關鍵視頻、音調等多媒體特征以關鍵字的形式存儲于本體中,從而實現基于內容的查詢。
本模塊(見圖1)的具體設計分為下列幾部分:
(1)構建本體
由于MPEG-7基于XML而非RDF,因此就需通過XSD2OWL將MPEG-7標準的XMLSchema轉換成本體,這樣就能與其它本體集成,以增強其互操作性。[8]本文中將MPEG-7本體與LOM本體融合構成一個“多媒體學習資源本體”。[9]
(2)元數據生成
對于多媒體學習資源,用戶需要通過各種元數據提取工具、元數據編輯工具等分別生成符合LOM標準、MPEG-7標準的XML格式的元數據。用戶可以使用LOMEditor[10]生成支持LOM標準的元數據,但由于LOMEditor生成的元數據不支持MPEG-7,因此必須通過一些支持MPEG-7的多媒體標注工具來實現元數據的生成。例如,使用Caliph[11]、Mpeg-7AudioDB[12]等工具就能將JPEG圖片、音頻中的元數據提取并轉換成符合MPEG-7標準的RDF輸出。
(3)元數據集成
將上一步驟生成的兩種元數據通過“元數據集成器”集成,“元數據集成器”利用一系列自定義的映射規則將不同的XMLSchema集成。
(4)本體實例化
需要通過XML2RDF將XML格式的元數據實例轉換為RDF格式,并以三元組的形式存儲于關系數據庫中,另外在數據庫中設計資源引用表,用于存儲學習資源與其對應元數據的鏈接。
(5)元數據存儲
將元數據以三元組的形式存儲于關系數據庫中供混合查詢引擎查詢。為提高系統性能,將多媒體學習資源與其元數據分別存儲,學習資源以鏈接的形式存于數據庫中,查詢時通過元數據表查詢匹配的資源,然后在資源引用表中找到多媒體資源的引用并查詢到真實的存儲位置。
例如,下列代碼就使用MPEG-7標準中的鏈接標記MediaUri表示了一張JPG圖片的地址,該地址存放于數據庫的資源引用表中。



圖1 元數據集成與本體融合模塊
該模塊是實現多源、異構學習資源查詢的核心,通過在用戶接口處將查詢分解以支持幾種不同方式的查詢。主要流程如下:
(1)查詢解析
查詢在用戶接口處被解析成不同的組件,包括關鍵字匹配查詢、元數據查詢、基于關鍵字擴展的語義查詢以及基于內容關鍵字的查詢。
(2)關鍵字匹配查詢
利用映射把語義查詢轉換為SQL查詢,將SQL語句分配到遺留關系數據庫上查詢。
(3)元數據查詢
使用SPARQL語句,在存儲于關系數據庫中的元數據三元組上進行查詢。
(4)基于關鍵字擴展的語義查詢
將“新”的學習資源本體化后以三元組的形式存儲于數據庫中,使用SPARQL進行查詢——對接口處獲取的查詢請求,查詢轉換器按照多媒體學習資源本體把查詢請求轉換成規定的格式,在本體的幫助下從元數據庫中匹配出符合條件的數據集合,將檢索結果按本體論概念表現形式呈現給用戶,供用戶選擇并查看。
(5)基于內容關鍵字的查詢
首先將多媒體學習資源進行“內容標注”,即人為地將能表示該資源內容的關鍵字以標注的形式嵌入資源文檔中,查詢時以查詢關鍵字去匹配內容關鍵字而得到結果。
例如,下面的代碼是采用MPEG-7標準描述的一幅圖片,其中使用TextAnnotation標注了圖片的內容,并將圖片分成幾個子結構fflt;Whoffgt;、fflt;WhatObjectffgt;等,便于對圖片進行基于內容的檢索。

(6)混合查詢的結果合并、排序和顯示
本系統為支持使用不同學習終端設備(例如平板電腦、智能手機等移動設備)的用戶,采用XML文件保存查詢結果,通過系統與用戶終端交互獲得終端的型號等特征信息,再經過XSLT轉換成特定終端類型的標記語言并顯示查詢結果,界面具有良好的自適應性。
根據學習資源的來源,系統提供兩種不同的資源對外開放方式:
(1)移動Agent方式
對于“新”的學習資源,由于這部分資源已標準化、語義化,共享性和可重用性很高,因此采用傳統的分布式搜索技術與移動Agent技術進行集成,通過移動Agent將用戶提交的查詢動態地送往參與互操作的數字資源庫服務器端執行,外部Agent可以搜索到資源并根據其元數據“理解”學習資源,從而方便地引用學習資源。這種方式可以大大減輕網絡負載,消除網絡延遲。
(2)關聯數據(Linked Data)方式
由Tim Berners Lee提出的關聯數據,給網絡信息資源集成提供了一種有效的解決方案。[13]關聯數據采用RDF數據模型,利用URI命名數據實體,來發布和部署實例數據及其他各類數據,從而可以通過HTTP協議揭示并獲取這些數據,同時強調數據的相互關聯、相互聯系以及有益于人機理解的語境信息。
本系統采用Bizer C等人提到的方法,利用D2R[14]工具將存儲于關系型數據庫中的“舊”資源發布為關聯數據。D2R主要包括D2R Server,D2RQ Engine以及D2RQ Mapping語言。D2RQ Engine使用一個可定制的D2RQ Mapping文件將關系型數據庫中的數據映射成虛擬的RDF格式。這樣,外部Agent在訪問關系型數據時將RDF數據的查詢語言SPARQL轉換為SQL,并將SQL查詢結果轉換為RDF三元組形式的查詢結果。
在本文中,將語義網技術應用于建設高校的學習資源中心,實現了學習資源在語義層面上的互聯,為學習資源庫提供了統一的查詢接口,既方便了新舊資源的檢索,也對外提供了便捷的共享方式。該方案能完善地解決目前面臨的遺留資源問題,也為實現高校之間甚至更大范圍內的優質數字教育資源的共建共享提供了一種可行途徑。
[1]楊娟,韓錫斌,何良春.構建大學網絡教學資源中心[J].中國遠程教育,2005(12):52-53.
[2]Berners-Lee T,Hendler J,Lassila O.The semantic web[J].Scientific American,2001,284(5):28-37.
[3]位傳海,范太華.基于本體的學習資源語義檢索系統研究與設計[J].電化教育研究,2012(2):70-74.
[4]李勇,張志剛.基于本體語義檢索技術研究[J].計算機工程與科學,2008(4):17-19.
[5]Ga?evi c'D,Hatala M.Ontology mappings to improve learning resourcesearch[J].British JournalofEducational Technology,2006,37(3):375-389.
[6]IEEE LTSC,IEEE Standard for Learning Object M etadata.[EB/OL].http://ltsc.ieee.org/wg12/par1484-12-1.htm l.
[7]MPEG-7[EB/OL].http://mpeg.chiariglione.org/standards/mpeg-7/mpeg-7.htm,2012-12-31.
[8]GarcíaR,Celmaò.Semanticintegrationand retrieval ofmultimediametadata[C].5th InternationalW orkshop on Know ledgeMarkup and Semantic Annotation.2005:69-80.
[9]Choe H.Interoperability between MPEG-7 and LOM using Ontology[J].Asian JournalofComputer Science and Information Technology,2012,2(11).
[10]Sarasa A,Piquer J,Arriola R,et al.LOMEditor:Composition and Classification of Learning Objects[M].Computersand Education.SpringerLondon,2008:241-249.
[11]Lux M.Caliphffamp;Em ir:MPEG-7 photo annotation and retrieval[C].Proceedingsof the17th ACM international conference on Multimedia.ACM,2009:925-926.
[12]G.Tummarello,C.M orbidoni,F.Piazza,MPEG-7 Audio Db[DB/OL].http://www.sourceforge.net/projects/mpeg7audiodb.
[13]T.Berners-Lee,"Linked Data",In TED 2009 Conference,Long Beach,CA.USA,February 2009[DB/OL].http://www.w3.org/2009/Talks/0204-ted-tbl/#(1),2011-1-13.
[14]Bizer C,Cyganiak R.D2r server-publishing relational databaseson the semantic web[C].5th international Semantic W eb conference,2006:26.