胡世鋒
(張家口學院理學系,河北 張家口 075000)
Web數據挖掘指的是數據挖掘技術在Web上的應用,Web數據挖掘是從大量的Web文檔集合中發現隱含的、未知的、有潛在應用價值的模式。它所處理的對象包括靜態網頁、Web后臺數據庫、Web結構、用戶使用記錄等信息以及構架在網絡上的各種應用系統。通過挖掘,可以得到僅通過文字檢索所不能得到的信息[1]。
Web數據挖掘技術根據要挖掘的對象可以分為三類:Web內容挖掘、Web結構挖掘和Web使用挖掘。Web使用挖掘可以幫助系統的管理者了解系統的訪問量、頻繁訪問的頁面等信息,從而用于改進系統的結構、服務器緩存及為學習者提供個性化的學習服務。Web使用挖掘已成功應用到個性化推薦、電子商務、系統改進以及商業智能等方面,Web使用挖掘的數據則來源于學習者與學習系統的交互數據。分析這些數據可以幫助系統管理員和教師更好的理解學習者的行為,把握學生的個性化特征,從而改進系統的性能,更好的為學習者提供服務。
Web使用挖掘是使用數據挖掘技術和方法從Web日志數據和后臺數據庫中發現Web使用模式的過程。Web使用挖掘一般分為Web數據準備、Web數據預處理、模式發現和模式分析4個主要的階段[2]:
(1)數據準備階段 Web使用挖掘的數據源主要有兩個:一個是Web日志文件,記錄著訪問者和系統的交互信息,另一個是系統后臺數據庫。
(2)數據預處理階段 Web使用挖掘首先要對大量的挖掘數據進行預處理,其目標是將包含在多種數據源中的信息轉化為適合數據挖掘和模式發現所必需的數據抽象概念,然后在事務數據庫上運用挖掘算法,從而最終獲取有價值的信息或者規律。
(3)模式識別階段 這個階段采用統計法、機器學習法等技術,從Web使用記錄中挖掘知識。實現算法可以是統計分析、聚類、分類、關聯規則和序列模式識別等。
(4)模式分析與利用階段 這個階段的任務是采用合適的技術和工具,進行模式的分析,從而輔助分析人員的理解,使采用各種工具挖掘出的模式得到很好的利用。
傳統的網上學習平臺,以系統本身為中心,沒有考慮學習者的個性化特征,沒有考慮學習者的個性化特征,學習者被動去適應系統,就是說系統有什么你就干什么,不是我要什么就能有什么,由于教師與學習者不能面對面的交流,教師很難掌握學習者的學習狀態,學習者容易產生倦怠,繼而對網絡學習失去興趣。系統無法對學習者進行分類,無法根據學習者的個性化特征提供個性化的學習資源,對學習者來說,網上學習平臺對每個學習者來說都是一樣的,瀏覽的課件、測試的題目、使用的素材與整個學習的流程都是單一固定的,不具有個性化的特點,不能提供差別化的學習情境[3]。
針對傳統網上學習平臺存在的不足,本系統的設計加入了個性化智能子系統模塊,力求解決傳統學習系統存在的不足,該子系統包括Web數據挖掘模塊和個性化推薦模塊,重視個性差異,注重協作學習,讓學習者得到個性化的教育。在個性化網上學習系統增加了個性化智能子系統,試圖使得系統性能得到改善,并提供個性化的學習服務[4]。
該模塊從功能上設計由兩個子模塊組成:離線處理和在線處理:
在線處理:在線處理子模塊的監聽模塊,完成個性化系統和客戶端系統的聯系功能。凡是用戶向服務器端提交的請求,以及外界對服務器端請求的響應,都要經過監聽模塊,這樣監聽模塊就可以將用戶在服務器上留下的訪問行為,如請求頁面的URL地址、請求時間、關閉時間以及用戶在此頁面上停留的時間、是否存儲頁面等記錄下來,為離線學習模塊構造用戶特征模型提供原始數據。
離線處理:離線處理子模塊主要完成用戶特征模型的構建和更新,由訪問模式挖掘子模塊和數據準備子模塊兩個部分構成。個性化智能子系統的在線處理部分會根據用戶的特征模型和當前所訪問的頁面,對用戶將要訪問的超鏈接做出推薦。個性化子系統能夠記錄用戶在收藏夾中保存的頁面信息,也能夠記錄用戶提交的搜索關鍵字,這些關鍵字可以提現部分的用戶興趣。
個性化處理引擎的主要功能是對學習者信息的收集和資源推薦。通過對學習者的個性化特征信息的收集,建立學習者個性化的特征信息庫。
資源推送功能就是個性化網上學習系統能針對不同的學習者推送不同的學習內容。當學習者登錄該系統時,個性化處理模塊獲取該學習者的特征,根據特征對學習者進行聚類分析,并結合Web使用挖掘所產生的模式數據庫中的有關模式從后臺數據庫中讀取相關的請求數據,最后生成學習者所感興趣的訪問頻率高的學習資源的推送,供學習者參考學習,從而為學習者提供個性化學習服務[5]。
實現個性化推薦的方法可以利用滑動窗口的滑動來覆蓋用戶當前的訪問操作順序,這是實現在線個性化智能推薦服務的一個有效方法。滑動窗內的當前用戶訪問操作順序會隨著訪問進程的進行,不斷的向前更新。假設滑動窗的大小為3,當前滑動窗內的用戶訪問操作順序為(A,B,C),用戶在訪問了D之后,新的滑動窗內的用戶訪問操作順序更新成了(B,C,D)。這樣的處理方法對個性化智能推薦服務的實現是很有意義的,因為采用過長的當前用戶服務操作順序,再與頻繁項匹配操作時很難獲得大量的信息,即匹配項很少。短順序能夠獲得非常多的匹配項,從推薦服務意義上這是相當有價值的。
通過關聯規則的數據挖掘生成推薦集的一個有效的方法,是直接利用離線方式下獲取到的頻繁訪問模式。在預處理階段識別出用戶事務后,利用最小支持度把小頻繁的項過濾掉。然后,利用生成的頻繁用戶事務模式集合為用戶生成推薦項。為了能夠實現在線推薦,需要實時的跟蹤用戶的訪問操作,采用滑動窗大小為S,滑動窗覆蓋長度P的用戶當前訪問操作,如果用戶當前連續訪問過的頁面順序,正好是SP集合中某個頁面順序中的一部分,則可以將SP中此頁面順序的下一個部分推薦給用戶。例如,用戶當前連續訪問過的頁面順序為(vl,v2,v3,v4,v5), 而在 SP 中存在這樣一個頻繁引用順序(vl,v2,v3,v4,v5,v6,v7),則系統將 v6 和 v7 推薦給用戶[6]。
本文提出了基于Web使用挖掘的網上學習系統的設計思路,并對個性化網上學習系統的關鍵技術進行了探究,給出了一些具體的個性化設計建議。本論文解決了目前網絡教育中的實際問題,對于研究Web數據挖掘技術在教育行業中的應用水平和深度具有重要的實現意義,也為其他人分析網上學習系統提供了一套可借鑒的方法。
[1]郭亞東.高等職業教育數據挖掘系統的研究與設計[D].北京郵電大學,2010.
[2]張嵐.基于Web的網絡學習平臺的設計與實現[D].電子科技大學,2011.
[3]謝靜.Web挖掘技術在電子商務推薦系統中的研究與應用[D].廣西大學,2011.
[4]陳小龍.基于WEB的網絡學習系統設計與實現[D].電子科技大學,2011.