摘 要:Internet蘊含了大量的教育資源,但因為缺乏行之有效的檢索工具,造成了大量Web多媒體教育資源利用率低下的問題。本文設計并實現了一個Web多媒體基礎教育資源的檢索系統,用于搜索Internet上與基礎教育有關的多媒體教育資源,并按資源的格式存儲為不同的類型。
關鍵詞: 多媒體資源;搜索策略;PageRank
中圖分類號: G 434文獻標識碼: A文章編號:1673-8454(2008)02-0070-04
隨著Internet的快速發展,Web中蘊含了大量的多媒體教育資源。多媒體資源(包括圖像、聲音、視頻、動畫等)作為Web中信息存在的主要形式,對教育領域有著越來越重要的作用。Web多媒體資源以其信息的開放性、資源的豐富性、時間空間的靈活性、形式的新穎性成為教育資源的重要組成部分,同時對建構主義學習環境的創建和學習者的學習具有非常重要的作用。但目前Web多媒體資源存在著資源分布不集中、學科界限模糊、存儲格式多種多樣、資源利用率低等問題。本文結合作者開發的主題搜索引擎系統的實際應用,對搜索條件進行限制,設計并實現了一個Web多媒體基礎教育資源檢索系統(EMS,Education Media Searching),介紹了如何檢索和獲取互聯網上的多媒體基礎教育資源。
一、多媒體資源
按照多媒體的類型可以將多媒體資源分為四大類:圖形/圖像類、音頻類、視頻類、動畫類。[1]這些多媒體資源在Internet上以各種形式嵌入到網頁當中,以不同的表現形式反映教育信息,成為教育資源的重要組成部分。Web多媒體教育資源是指以多媒體形式在網頁上呈現的教育資源。在我國基礎教育指:幼兒教育、義務教育和普通高中教育。[2]通過分析國家基礎教育資源網(http://www.cbern.gov.cn),將四類多媒體資源按格式分類(見表1)。[3]
二、多媒體資源在網頁中的存在形式
多媒體資源在網頁中的存在形式不外乎兩種,一種是可以在線瀏覽的多媒體素材,即網頁嵌入式;另一種是需要通過下載獲得的多媒體素材,即超鏈接形式。[4]不同類型的多媒體素材在網頁中存在的方式也不同,統計結果見表2。
網頁作為信息的載體,格式有很多種,包括html, asp, php, jsp, xml等,但現在大多數采用超文本標記語言(HTML)編寫,其內部表現為由離散文本條與標記組成的字符串序列。其中標記控制瀏覽器如何顯示定義的信息、決定了嵌入的多媒體資源的類型以及呈現形式。
HTML文檔標簽大致分為兩類:一類是傳輸數據的標簽,如paragraph,table等,它們顯示Web站點包含的信息;第二類是基礎結構標簽(infrastructuretags),這類標簽指示瀏覽器如何從當前頁面跳轉到其他頁面,常見的有<A>、<Area>和<Form>,這類標簽需要提取。
由于最終要提取出包含多媒體素材(音頻、圖像、視頻和動畫)的頁面,因此還需要提取包含這些多媒體素材的標簽。在Web頁面中,以超鏈接形式出現的多媒體素材包含在標簽<A>中;嵌入到web頁面中的多媒體素材包含在標簽<object>和<embed>中,除此之外還要提取標簽<Base>和<Frame>;各標簽的作用如表3。
通過HTML解析器的分析,可以將多媒體標簽中的多媒體信息提取出來,同時獲取這些多媒的路徑(相對路徑或決定路徑)。通過分析多媒體的擴展名,將多媒體按照不同的格式分到相應的類別中,如:image.jpg 屬于圖形/圖像類、main.mov屬于視頻、bkpgztp.wmv屬于音頻、physic.swf屬于動畫。
三、多媒體教育資源檢索系統(EMS)的實現過程
筆者將主題搜索引擎系統進行改進,設計并開發一個多媒體基礎教育資源系統(EMS),用于提取網頁中嵌入的與教育有關的多媒體資源。整個系統包括:搜索器、HTML解析器、素材分類器、存儲器。
EMS系統融合了網絡搜索引擎和多媒體教育資源網頁的識別與提取技術。用戶通過用戶界面向搜索引擎發號搜索指令,搜索引擎以種子網頁為起點,根據寬度優先的搜索策略,爬行種子網頁所鏈接的所有網頁;爬行過的網頁通過HTML解析器提取網頁中所嵌入的多媒體素材的路徑信息,同時獲取描述此網頁的相關文本。為了確定采集到的多媒體屬于教育資源的范疇,在素材分類器中,加入教育資源詞典,用于分析采集的多媒體資源與教育信息的相關度;相關度的計算主要采用關鍵詞加權求值方式進行;對于相關度大于一定閾值的網頁,說明此網頁中嵌入的多媒體屬于教育資源,存儲器按照相關度的高低將多媒體路徑信息存儲到數據庫中。
四、Web多媒體教育資源檢索的關鍵技術
EMS系統獲取教學素材的來源是因特網,搜索器(Spider)首先爬行因特網上大量網頁,然后分析網頁、提取多媒體素材、分析多媒體資源與教育資源的相關性、存儲相關多媒體教育資源的路徑信息。在這個系統的實現過程中,決定其性能的主要關鍵技術如下。
1.搜索器(Spider)搜索策略
搜索器(Spider)主要作用是發現并收集網絡資源。它通常從一個“種子集”(如用戶查詢種子鏈接或種子頁面)出發,通過 HTTP 等網絡協議請求下載網絡資源,分析資源并提取鏈接,然后再以一定的搜索策略通過循環迭代的方式訪問網絡。Spider搜索策略直接決定了多媒體資源的召回率。
搜索策略需要考慮兩個因素:一方面,待搜索的網頁要盡可能多的包含多媒體素材;另一方面,此網頁嵌入的多媒體資源要盡可能屬于教育資源的范疇。
為了解決這個問題,首先“種子集”選擇比較權威的站點,其次對搜索策略進行改進。EMS系統利用基于內容分析和鏈接結構相結合的主題搜索策略,既保證了搜索網頁與主題相關性,同時也解決了網頁搜索的權威性和覆蓋率的問題。基于內容分析的搜索策略,是分析網頁相關文本和教育資源詞典的主題相關度。鏈接結構分析策略,采用改進的PageRank算法,[5]將網頁點擊的概率和網頁包含多媒體的數量信息加入PageRank算法計算過程中。改進的PageRank算法如公式(1)。
PR(p)代表網頁p的PageRank值;PR(Ti)代表網頁Ti的PageRank值,其中網頁Ti指向網頁p;d為阻尼系數,實際取值為0.85;P(Ti,p)為從頁面Ti,到達頁面p的概率,計算方法(略);N為已經下載到待爬行隊列中,并與主題相關的網頁數量;n為鏈接到P網頁p的網頁數量。W(Ti)代表網頁Ti嵌入多媒體的數量。
2.關鍵詞集及權值的配置
關鍵詞集是指教育詞典中對某一教學主題所有可能出現詞語的集合。它們會引導搜索器按照一定順序搜索整個網絡,使得搜索引擎可以在最短的時間里面檢索到課程相關的全面的信息。EMS系統中建立的教育詞典只是包含與基礎教育的關鍵詞集,其中詞條為17672條。每一個網頁其權值的確定要考慮三個方面。
網頁的URL地址翻譯后的文本內容同關鍵詞集的相關度。網頁的URL地址一般是用英文或者拼音表示的,其URL的設定往往根據網頁內容而確定,所以網頁的URL在一定程度上能代表一個網頁的內容。采用機械匹配的算法翻譯網頁URL,其中翻譯詞典(172688條目)、拼音詞典(20775條目)。用①URLFanyi來表示網頁URL翻譯后的文本內容。
網頁②<title>標簽、③Metadata標簽、④Anchor錨文本的文本內容也能夠標識此網頁的主題。<title>標簽是對網頁主題的高度概括;Metadata 標簽是對網頁內容的關鍵詞描述;Anchor錨文本是父網頁鏈接到此網頁的文本鏈接。這些文本內容在一定程度上能夠很好地表示出網頁的內容。
對①②③④文本內容進行中文分詞,分詞方法采用MM(正向最大匹配)和RMM(逆向最大匹配)相結合的方法。對于詞典中未出現的詞串,將整個詞串看成專有名詞整體輸出。分詞后的文本字串⑤采用布爾模型判斷其與關鍵詞集的相關度。
網頁計算的PR值。PR值反應的是在Web Community中某個網頁通過超鏈接分析確定的此網頁的重要程度。將網頁點擊的概率和網頁中包含多媒體的數量信息加入PageRank算法計算過程中。可以保證搜索網頁的主題相關性,同時在一定程度上避免了網頁爬行的“主題漂移”現象。
基礎教育詞典中的關鍵詞集及權值,主要是根據專家和教育工作者的經驗來選取和設置,同時在保證不產生歧義的基礎上,采用通用語言對教學主題進行描述并賦予不同的權值。從而保證教學資源的查全率。這種方法簡單,容易實現。以查尋初中物理有關電路的多媒體教育資源為例,其部分關鍵詞組及權值的配置如表4。
3.數據庫設計
系統采用兩個數據庫:InterLink 數據庫用于存儲網絡蜘蛛爬行過的網頁;Media數據庫用于存儲包含多媒體素材的網頁。由于本系統建立的目的下載多媒體素材,這里詳細介紹Media數據庫如表5。
主題:每一個資源都有一個主題,標識了該資源的主體內容與涉及領域。我們用嵌套多媒體素材的網頁內容來表示此素材的主題內容。如網頁的<title>標簽文本內容為:重力 教案,根據教育詞典中關鍵詞集匹配,此多媒體素材屬于“初中物理力學”的內容。
格式:資源的格式,如bmp(圖片)、avi(動畫/視頻)、rmvb(視頻)、mp3(音頻)等。
網頁代碼:素材嵌入網頁的HTML代碼,在EMS系統中,不能將多媒體素材下載到本地磁盤中。EMS系統最后獲取的是與基礎教育有關、并且包含多媒體素材的網頁。多媒體素材的下載,由本實驗室開發的MultiMediaSearchAndAnalysis(Web多媒體搜索分析系統)完成。
五、實驗結果
本系統運行環境為: Windows XP操作系統,PIII CPU,128M內存,系統開啟10個線程。在此實驗中人工選取20個基礎教育資源網作為種子網站,提取出這些網站的所有內部網頁鏈接,并根據鏈接的后綴名把其中包含音頻、視頻、Flash動畫的網頁提出來(不包含圖形/圖像類),最后統計出音頻文件、視頻文件和Flash動畫的總數,實驗結果表6所示。
在本實驗中,造成查全率較低的原因有以下幾點。
網頁大多以文本、圖像的形式出現,包含多媒體(音頻、視頻、動畫)的網頁所占的比重比較小。
基礎教育詞典中關鍵詞集,還不能囊括基礎教育中某一主題的所有關鍵詞。
對于網頁中需要注冊以后才能訪問的多媒體教育資源,本系統無能為力。
六、結束語
本文詳細介紹了Web多媒體基礎教育資源檢索系統的設計方法及關鍵技術的實現。該系統能夠在浩瀚的Internet上搜索與基礎教育有關的多媒體資源,大大方便了學生和教育工作者有效利用網絡收集教育資源,對教育資源庫的建設也有著重要的作用。
參考文獻:
[1]教育部.現代遠程教育資源建設技術規范[S].http://sf.edude.net/henei/hbgcxy/peixun-/met/zcwj/guifan/xdycjy/,2005.12.10.
[3] 國家基礎教育資源網.http://www.cbern.org.cn/index.jsp.
[4] 徐云燕,譚金波,孟祥增.基礎教育網絡多媒體資源現狀的調查研究[J].中國教育信息化,2007,(8).
[5]Page L,Brin S,Motwani R,et al.The pagerank citation ranking:Bringing order to the web[R].Standfrd Digital Libraries SIDL-W P-1999-0120,1999.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。