高海波 李志超 蘭玲 劉義柯
摘 要: 結合Web數據挖掘在E-learning平臺中的應用,分析了Web數據挖掘的基本過程與關鍵技術,提出了一種基于Web挖掘的個性化學習平臺模型,并闡述了Web挖掘在平臺中的應用及其個性化搜索引擎的實現。
關鍵詞: E-learning應用平臺; Web數據挖掘; 個性化學習; 個性化搜索引擎
中圖分類號:TP392;G434 文獻標志碼:A 文章編號:1006-8228(2013)09-05-03
0 引言
計算機通信技術的日益強大支撐了建設學習型社會的需求,遠程教育借助它的靈活性與選擇性漸漸走進人們身邊,成為學習的一種普遍方式。自1996年我國開通了“中國教育與科研計算機網”,開放、靈活的E-learning便迅速被人們所接受并應用于各種網絡學校和遠程教育之中。
隨著時間的推移,人們要求不僅僅只是遠距離的教學,更多的是個性化的學習。個性化教育理論認為,學習過程應是針對學生個性特點和發展潛能而采取恰當的方法、手段、內容、起點、進程、評價方式等,促使學生各方面獲得充分、自由、和諧發展的過程[1]。但是目前的遠程教育學習系統并不令人滿意,首先是系統缺乏智能性,學習系統面對的用戶并非是一類人,而是不同背景、不同目的、不同時期的一系列請求,面對這些請求,缺乏智能化的系統就難以實現因材施教;其次是缺乏有效的監督機制和有效的學習幫助支持,導致學生偏離學習目標、遇到困難時不能及時得到幫助;再者是有用的教學資源沒有被有效利用,造成了資源的極大浪費。“以人為本”的教育理念的逐漸普及,個性化學習方案總體上應該做到學習資源的多維性、學習價值追求的多重性、學習風格的獨特性、學習過程的終身性和學習方式的自主性。
基于Web智能的網絡教育是現代遠程教育的一種重要手段,其可以通過網絡來營造虛擬的學習環境,在一個平臺上向學生提供豐富的學習資源,從而幫助學生開展基于資源的探究式學習;在虛擬的學習環境中,教師和學生、學生與學生間可以方便地進行同步或異步的交互。數據挖掘便是實現Web智能網絡教育的重要方法,主要是通過獲取學習者在Web上的學習過程行為數據,如訪問信息、時間、次數及喜好等,經過挖掘流程處理,得到學習者的模式規律,從而給學習者提供良好的個性化服務[2]。
1 Web數據挖掘相關分析
1.1 Web數據挖掘基本過程
Web是一個強大的交互環境,所以Web事務度量就需要數據的獲取與處理,Web數據挖掘指的是從大量的、不完全的、蘊含的、模糊的WWW資源上提取隱含在其中有用的信息和知識的過程。其處理對象是大量的業務數據,目的是為了提取有價值的知識,提高信息利用率。Web數據挖掘又被稱為資料探勘或者數據采礦,是數據庫知識發現中的一個步驟。根據大量業務數據的不同類型,Web數據挖掘可以分為:Web內容挖掘、Web結構挖掘、Web使用挖掘[3]。其中,Web內容挖掘是挖掘Internet的頁面和后臺交易數據庫,包括結構化的數據挖掘與非結構化的數據挖掘。無論是哪種數據挖掘,都是為了尋找隱藏著的、大量的、有價值的信息,并且為Web提供更好的服務。
以下給出Web數據挖掘的基本流程。
⑴ 目標數據采集:數據采集就是要記錄用戶訪問行為。數據來源包括服務器端、客戶端和代理端。為了有效地實施挖掘算法,僅僅采集數據是不夠的,還需要進行下一步操作:預處理。
⑵ 預處理:目標數據經過預處理才能有效的實施挖掘算法,也就是從目標數據集中除去明顯錯誤數據和冗余的數據,進一步精簡所選數據的有效部分,并將數據轉化為有效形式。數據的預處理的質量與Web挖掘的效率是緊密相關的。內容包括數據凈化、用戶識別、會話識別、事務識別及路徑補充等。
⑶ 模式發現與分析:模式發現就是對預處理后的數據實施具體的、合理的挖掘算法或綜合應用不同的算法。其最終目的是發現用戶的訪問模式,預先為用戶設定學習內容類別。模式分析的目的是根據實際應用,通過觀察和選擇,將模式發現的統計結果、規則和模型轉換為知識,經過篩選后用來指導實際應用,也就是在預先的類別中再次為用戶提供個性化資源和學習支持服務。
⑷ 用戶反饋:利用數據挖掘與學習內容綁定等各種技術,學習者的學習過程會是以可視化方式進行指導。
1.2 相關算法分析
協同過濾這一概念最早出現在1992年,由Goldberg、Nicols、Oki及Terry提出,隨著大大小小系統的應用,協同過濾推薦迅速成為Web數據挖掘中一種很受歡迎的技術。該技術分析用戶興趣,在用戶群中找到指定用戶的相似用戶,綜合這些相似用戶對某一信息的評價,形成系統對該指定用戶對此信息的喜好程度預測[4-6]。
相似性計算是協同過濾推薦算法中最關鍵的一步,傳統的相似度計算方法有三種。
⑴ 余弦相似性
把用戶評分看做n維項目空間的向量,用戶間的相似性通過向量間的余弦夾角度量,設用戶i和用戶j在n維項目空間上的評分分別表示為向量k,e,則用戶i和用戶j之間的相似性為:
Sin(i,j)=cos(k,e)= ⑴
⑵ 修正的余弦相似性
余弦相似性度量方法中沒有考慮不同用戶的評分尺度問題,修正的余弦相似性度量方法通過減去用戶對項目的平均評分來改善上述缺陷,設經用戶i和用戶j共同評分的項目集合,則用戶i和用戶j用戶之間的相似性為:
Sin= ⑵
其中,Rij代表用戶i對項目c的評分,和分別表示用戶i和j對項目的平均評分。
⑶ 相關相似性
設經用戶i和用戶j共同評分的項目集合用Iij表示,則用戶i和用戶j之間的相似性sin(i,j),通過Pearson相關系數度量:
歸根結底,三種相似方法均為基于向量的相似度計算方式,進行對象屬性之間的嚴格匹配。
余弦相似性度量方法把用戶評分看作一個向量,用向量的余弦夾角度量用戶間的相似性,然而沒有包含用戶評分的統計特征;修正的余弦相似性方法在余弦相似性基礎上,減去了用戶對項目的平均評分,然而該方法更多體現的是用戶之間的相關性而非相似性。相關性和相似性是兩個不同的概念,相似性反應的是聚合特點,而相關性反映的是組合特點;相似相關性方法,依據雙方共同評分的項目進行用戶相似性評價,如果用戶間的所有評分項目均為共同評分項目,那么相似相關性和修正的余弦相似性是等同的,用戶對共同評分的項目集稀少,使得相似相關性評價方法實際不可行。
2 基于Web數據挖掘的個性化學習系統模型
基于Web數據挖掘的個性化學習系統采用的是三層B/S模型,如圖1所示。
個性化與智能化功能模塊的實現都是以Web為基礎的。服務器是一個核心,用戶通過客戶端發送一系列請求,Web服務器作出相應的響應,也就是在后臺數據庫中查詢信息,查詢到的信息再返回給Web服務器,最后服務器通過網頁的形式呈現及反饋給用戶。
2.1 主要功能模塊分析與設計
基于Web數據挖掘的個性化學習系統主要是由學習者、學習者個人秘書、管理員、個性化推薦引擎及教學資源等模塊構成。其中系統的核心部分是“學習者個人秘書”。當學習者通過身份驗證后,便會進入個人的學習頁面。“學習者個人秘書”根據學習者的訪問習慣和學習者提交的要求等信息進行自動整合(這里主要是由用戶信息收集和用戶信息建模兩個模塊來實現),并進行內部建模,形成一套完整的學習方案,并對此方案進行資源調度,進而反饋給學習者所需的資源信息。“學習者個人秘書”也就是所謂的個性化處理引擎,它主要由四個模塊組成:用戶信息收集、用戶信息建模、個性化學習方案、學習資源調度。該個性化學習系統方案構建如圖2所示。
⑴ 用戶信息收集模塊
信息收集模塊是實現在線學習個性化服務的基礎,它收集用戶請求,跟蹤用戶的行為,結合用戶數據庫中事先存放的用戶個性化特征數據,經過預處理,對用戶信息建模提供個性化的策略。
⑵ 用戶信息建模模塊
信息建模模塊則是運用數據挖掘技術對這些信息進行分析,不斷更新或者初始化用戶數據庫中動態部分,以生成個性化推薦策略并發送給個性化學習方案模塊。
⑶ 個性化學習方案模塊
學習方案模塊是“學習者個人秘書”的核心模塊,它結合前面提供的一系列用戶特征信息,并進行整合后自動生成一套教學方案,把教學方案中所需要調度的資源傳遞給資源調度模塊。
⑷ 資源調度模塊
資源調度模塊是根據教學方案中需要調度的資源從視頻庫、作業庫、試題庫等資源庫中調度并反饋給用戶。其中,資源庫中保存學習者的基本信息、學習歷史、訪問歷史、對知識的掌握情況、學習喜好等個性特征。學生的個性特征也分為靜態信息與動態信息。如學生的姓名、性別、年齡、ID、密碼等都屬于靜態信息,如學習歷史、學生做過的練習和測試題的答案、學習者的知識結構等都屬于動態信息。學生的個性化特征信息是實施個性化教學策略的基礎。
總之,整個個性化在線學習系統就是通過數據挖掘技術,把用戶在學習過程的所有行為記錄下來,并結合用戶數據庫,從中挖掘出用戶個性化學習特征,為個性化教學策略的產生提供可靠的依據。在本文,學習者個人秘書個性化引擎的加入,主要是實現個性化學習系統中視頻主導、測驗穿插、在線交流、引導學習等功能。其中視頻能提取該集視頻所具有的知識點,作為關鍵字在知識樹中進行串聯。知識樹是惟一呈現給用戶的學習接口,讓用戶不再注重于選擇何種視頻、哪位老師所教,達到最快的學習效率。再就是測驗穿插,是在用戶不主動去做測驗的時候,類似強制于用戶做測驗,否則無法進入下階段測試。概括來說,學習者個人秘書模型設計實現以下功能:記錄學習者進行的所有學習活動;定時給予用戶學習建議與誤區糾正;能主動與其他學習者的學習秘書進行交流;記錄每次學習周期,學習者的學習路線。
2.2 Web數據挖掘在系統中的應用
數據挖掘是開發Web智能的學習系統的關鍵所在,它對個性化學習模型的構建、個性化的學習資源的提供、個性化學習的指導、系統性能的改進等方面應用非常多。
⑴ 個性化學習模型的構建
學習者模型的構建本就是根據學習者不同的個性特征參數,對學生學習活動進行跟蹤,并且記錄學生學習的相關信息,如:學生經常訪問的URL的次數、停留時間、訪問的課程數等等。Web數據挖掘用去噪和模式進行“模式發現”,得到學生學習的個性特征,建立、完善學生學習模型,建立學生個性數據庫,為不同的學生提供智能、個性的學習策略。
⑵ 個性化學習資源的提供
在系統進行模式發現后,需要為學生從后臺數據庫中調度學習資源,這時候就需要系統將學生無關及學生不感興趣的資源進行篩選。Web數據挖掘中的統計分析技術可以根據學生經常訪問的頁面推測學生下一步的行為,推測出其感興趣的相關資源,從而減少學生的搜索時間,合理提供備用資源。
⑶ 個性化學習的指導
一個好的學習系統能適應的并不只是一類人,而是不同背景,不同能力,不同目的的人,因為每個人的學習能力、興趣、習慣以及基礎都有很大的差異。若采取進入系統平臺前讓用戶提交測試用戶屬性信息的一些表單,初始化學生學習特征,但是其中的屬性卻是時刻變動的,普通的學習系統無法做到隨機應變。利用Web數據挖掘技術,挖掘用戶的使用數據日志,分析用戶的瀏覽趨勢,從而形成一組按時間排序的會話,預測用戶未來的訪問模式并做及時的指導。這樣針對不同類型的用戶,系統可以安排特定的內容,做到真正意義上的“因材施教”。
⑷ 系統性能的改進
Web數據挖掘技術提供網站構架及用戶的使用信息,管理員可以根據這些信息,控制Web緩存、負載平衡和網絡構架等問題,從而做到了系統的安全性與穩定性。
3 結束語
基于Web數據挖掘的個性化學習系統研究,以“個性化E-learning系統研究與實現”課題為背景,實現了Web數據挖掘技術的應用、學習知識點概念相關性的算法分析與設計、且構建一個基于Web的學習者模型,闡述系統研究思路,并完成了系統設計與實現應用。在一定基礎上為在線學習系統的個性化應用提供理論與推廣參考價值。同時,本文雖取得了具體的應用效果,但在個性化學習資源的組織與動態呈現上未能與學習者模型聯系,以呈現針對不同用戶的個性化學習內容頁面。這將是今后需要進一步研究的問題。
參考文獻:
[1] 陶劍文.基于多Agent的協作式網絡學習系統模型研究[J].計算機時代,2006.7:64-66
[2] 單蓉.一種基于用戶瀏覽行為更新的興趣模型[J].電子設計工程,20l0.4:61-62
[3 唐遠洋,黃爾嘉.知識挖掘技術與網絡教育資源的組織[J]. 情報資料工作,2005.4:107-109
[4] 游文,葉水生.電子商務推薦系統中的協同過濾推薦[J].計算機技術與發展,2006.9:97-99
[5] 邱明虹,何躍.從Web日志中挖掘用戶興趣路徑算法改進[J].計算機工程與應用,2008.26:129-131
[6] 馬宏偉,張光衛,李鵬.協同過濾推薦算法綜述[J].小型微型計算機系統,2009.7:1682-1687
[7] 朱明.數據挖掘[M].中國科學技術大學出版社,2008.