摘要:個性化的網(wǎng)絡教學系統(tǒng)是一個智能化的系統(tǒng),通過對學生學習的情況、需求、能力、進度、興趣等進行分析,為每位學習個體提供個性化的學習方案。Web挖掘為其實現(xiàn)個性化的服務提供了有效地工具。本文介紹了Web數(shù)據(jù)挖掘技術及其在網(wǎng)絡教學中的應用,提出了基于Web日志挖掘的模型,并對該系統(tǒng)的主要實現(xiàn)模塊進行了分析。
關鍵字:Web日志挖掘;網(wǎng)絡教學;個性化
中圖分類號:G420文獻標識碼:A文章編號:1672-3791(2012)02(c)-0000-00
1 引言
隨著計算機技術和信息技術的發(fā)展,以網(wǎng)絡為載體、利用數(shù)字電子化方式開展的教學活動逐漸成為了目前最為重要的教學形式,這種教學形式的真正優(yōu)勢在于能為學習者個體提供個性化的學習安排,而這種個性化的教育服務也勢必會進一步促進網(wǎng)絡教學的發(fā)展。
2 Web數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘,是在Web環(huán)境下數(shù)據(jù)挖掘技術的應用,是從Web的超鏈接結構、網(wǎng)頁內(nèi)容和使用日志中提取有用的模式和隱含信息。Web上信息的表現(xiàn)具有多樣性,這也就決定了Web挖掘任務同樣也具有多樣性。根據(jù)處理對象的不同,Web挖掘一般可以分為Web內(nèi)容挖掘、Web結構挖掘和Web日志挖掘三類。本課題重點研究Web日志挖掘。
Web日志挖掘的主要任務是從Web的服務器日志中抽取有意義的信息和模式。Web日志挖掘處理的是在用戶和網(wǎng)絡交互的過程中抽取出來的第二手數(shù)據(jù)。這些數(shù)據(jù)包括網(wǎng)絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、注冊信息、用戶對話等。對這些數(shù)據(jù)進行挖掘和分析可以幫助理解用戶的行為,進而改進載體站點的結構或者為用戶提供個性化的服務。那么在網(wǎng)絡教學中應用Web日志挖掘就可以通過挖掘相應站點的日志文件獲取學習者的訪問內(nèi)容、停留時間、訪問頻度等,從而發(fā)現(xiàn)其學習訪問模式等有用信息,進一步提升整個網(wǎng)絡教學的品質(zhì)。
Web日志挖掘的研究圍繞著分析Web站點性能、理解用戶意圖和改進Web站點設計三個應用方面進行,常用的技術主要有統(tǒng)計分析、關聯(lián)規(guī)則分析、序列模式分析、聚類與分類分析等。Web日志挖掘一般分為數(shù)據(jù)預處理、模式發(fā)現(xiàn)和模式分析三個基本階段。
2.1 數(shù)據(jù)預處理階段
服務器端數(shù)據(jù)、客戶端數(shù)據(jù)和代理服務器端數(shù)據(jù)收集都是Web日志挖掘的數(shù)據(jù)源。數(shù)據(jù)預處理階段的主要任務是將各種數(shù)據(jù)源得到的使用信息、內(nèi)容信息和結構信息轉(zhuǎn)換成適合數(shù)據(jù)挖掘和模式發(fā)現(xiàn)所需要的數(shù)據(jù)模型。數(shù)據(jù)預處理是在將日志文件轉(zhuǎn)化為數(shù)據(jù)庫文件之后進行的,是為了得到可用于挖掘的可靠和精確的數(shù)據(jù)。這個過程一般分為數(shù)據(jù)清洗、用戶識別、會話識別和路徑補充4個步驟。
1)數(shù)據(jù)清洗是指刪除日志文件中一些與挖掘任務無關的數(shù)據(jù),包括刪除、合并某些記錄,處理用戶請求訪問失敗的記錄等內(nèi)容。2)用戶識別的主要任務是處理多個用戶通過代理服務器或防火墻訪問站點的情況,是將用戶和請求頁面相關聯(lián)的過程。3)會話識別的任務就是把屬于同一個用戶的同一次訪問請求識別出來,也就是將用戶的訪問記錄劃分成單個的會話。一般采用超時識別。4)路徑補充就是根據(jù)引用日志和網(wǎng)絡拓撲結構把訪問日志中沒有記錄的用戶補充到用戶會話文件之中,確保獲得用戶完整的訪問路徑。
2.2 模式發(fā)現(xiàn)階段
模式發(fā)現(xiàn)階段是Web日志挖掘的核心部分。經(jīng)過數(shù)據(jù)預處理之后,應用一種合理的挖掘算法或綜合應用不同的算法,如關聯(lián)規(guī)則分析、聚類和分類技術等,來處理“消噪”后的數(shù)據(jù),最終發(fā)現(xiàn)用戶的訪問模式和規(guī)律。
2.3 模式分析階段
Web日志挖掘的最后一步就是模式分析。通過模式挖掘之后,生成的規(guī)則數(shù)目龐大,表達晦澀,得不到很好的利用,這就需要對模式發(fā)現(xiàn)過程產(chǎn)生的規(guī)則和模式進行過濾,通過模式分析和應用技術處理之,選擇用戶易于理解和棘手的方式顯示出來。常用技術有可視化技術、聯(lián)機分析技術和智能查詢機制等。
3 網(wǎng)絡教學中的Web數(shù)據(jù)挖掘方法
3.1 關聯(lián)分析
關聯(lián)分析是尋找在同一個事件中出現(xiàn)的不同項的相關性。關聯(lián)分析發(fā)現(xiàn)關聯(lián)規(guī)則,運用在Web挖掘環(huán)境中的關聯(lián)規(guī)則是指發(fā)現(xiàn)用戶會話中經(jīng)常被用戶一起訪問的頁面集合,這些頁面之間沒有順序關系。購物籃分析就是一個非常典型的關聯(lián)規(guī)則應用,該應用通過發(fā)現(xiàn)顧客放入“購物籃”中不同商品之間的聯(lián)系來分析顧客的購買習慣。在Web中,關聯(lián)規(guī)則作為啟發(fā)式規(guī)則,可以發(fā)現(xiàn)學習者對內(nèi)容頁面之間的訪問關系,調(diào)整頁面之間的結構關系,預測學習者可能訪問的內(nèi)容,使其最快捷地訪問到感興趣的內(nèi)容。在網(wǎng)絡教學中就可以利用關聯(lián)分析尋找各門課程之間的內(nèi)在聯(lián)系,根據(jù)A課程與B課程在一起瀏覽的情況,推導出A和B在一起是起著積極作用還是負面影響,進而可以選定課程之間的關聯(lián),及時制定策略建立或刪除A和B課程之間的關聯(lián)。
3.2 分類分析
分類分析是預先定義好幾個類,然后將數(shù)據(jù)項映射到某個類中去。在Web日志挖掘中使用分類能夠?qū)⒂脩襞渲梦募w屬到特定的用戶類別,建立數(shù)據(jù)各特定類別的用戶概圖。例如把學生的知識能力水平分成入門級、初級、中級和高級,利用分類技術將學習者投射到某一個級別中,為每個級別提供相應的個性化資源和學習支持服務,還可以用于遠程協(xié)作的學習小組分配??梢岳糜斜O(jiān)督的歸納學習算法來實現(xiàn)這種分類。
3.3 聚類分析
分類與聚類是不同的兩種方法,分類中的類及相關屬性是預先定義好的,其目的是運用分類算法將沒有劃分類別的數(shù)據(jù)標記為特定的類標號;而聚類中的類別事先并沒定義,其目的是將大量的個體數(shù)據(jù),根據(jù)屬性之間的相似性,將原始數(shù)據(jù)集合劃分為若干個子集。在網(wǎng)絡教學中聚類是一個重要的方面,它幫助網(wǎng)站設計人員從用戶數(shù)據(jù)庫中發(fā)現(xiàn)不同的用戶群,并且用學習模式來刻畫不同的用戶群的特征。通過聚類分析可以幫助網(wǎng)站設計者更好地了解自己的用戶,使教學活動能夠在一定程度上滿足學生的要求。
3.4 序列模式分析
序列模式指在事務之間尋找相應的時序關系,在時序數(shù)據(jù)集中發(fā)現(xiàn)在時間上具有先后順序的數(shù)據(jù)項。根據(jù)序列模式的特點,利用序列模式分析技術我們可以對用戶的瀏覽趨勢進行分析,在網(wǎng)絡教學中學生的課程學習是循序漸進的,且具有一定的關聯(lián)和前后順序,進行序列模式分析可以預測學生的未來訪問模式,且有助于針對特定用戶群安排特定內(nèi)容,可以解決遠程教育中針對各種層次學生進行因材施教的問題。
4 基于Web挖掘的個性化網(wǎng)絡教學系統(tǒng)
網(wǎng)絡教學作為一種基于Web的,以遠程方式進行的教學活動,打破了過去教師、學生面對面、共集一堂的時間和空間的限制,使更多的人能夠享受到有限的社會教育資源,而引入個性化后的網(wǎng)絡教學將是一個智能化的系統(tǒng),可以更多且及時地了解到學生的狀況、需求、能力差異、學習進度、興趣愛好,并動態(tài)地根據(jù)這些因素調(diào)整學習計劃及進度,讓學生得到針對其個性化的教育。
4.1 系統(tǒng)模型
基于Web挖掘的個性化網(wǎng)絡教學系統(tǒng)設計思想是:通過獲取學習者在Web上的個人信息、學習行為信息和Web日志數(shù)據(jù),如訪問頻度、內(nèi)容、訪問時間長短及偏好,經(jīng)過數(shù)據(jù)預處理、模式發(fā)現(xiàn)找出有用的規(guī)則和模式進行綜合分析,結合教學資源知識庫的信息,得出學習者學習過程的一般模式規(guī)律,對學習內(nèi)容和進度進行自動組合,重構頁面間鏈接,為學習者提供良好的個性化服務,使學習者更好地發(fā)展自我。根據(jù)上述的設計思想,提出一種基于Web日志挖掘的個性化遠程教育系統(tǒng)模型,如圖1所示。
4.2 系統(tǒng)結構
4.2.1 數(shù)據(jù)預處理模塊
數(shù)據(jù)預處理模塊負責對服務器端的訪問日志進行預處理,以得到滿足Web日志挖掘要求的事務數(shù)據(jù)。主要是根據(jù)挖掘任務進行數(shù)據(jù)清洗、用戶識別、會話識別和事務識別。
1)數(shù)據(jù)清洗 數(shù)據(jù)清洗是整個預處理的基礎,主要是將有噪聲的、不一致的、冗余的數(shù)據(jù)從Web訪問日志中清除或合并。可以采用縱向縮減和橫向縮減進行清洗,例如當學習者對某個頁面發(fā)出訪問請求時,這個頁面中的圖形、腳本、圖像等資源就會被自動下載,并寫入日志數(shù)據(jù)中,但在網(wǎng)絡教學網(wǎng)站中,只有包含教學內(nèi)容的HTML文件與用戶會話有關,而后綴名為.jpg,.gif和.jpeg的圖片文件,后綴名為.wav的音頻文件以及后綴名為.js和.cgi的腳本文件都屬于噪聲信息。這時我們就可以利用縱向縮減中的后綴過濾法進行數(shù)據(jù)清理。2) 用戶識別 用戶識別是為了得到同一用戶訪問的所有路徑的集合。用戶識別在對用戶進行訪問模式挖掘或聚類分析時尤為重要,因為群體是由個體組成的,只有對個體有了詳細的認識才能清楚地識別群體特征。3)會話識別 一個會話是學習者從進入到離開網(wǎng)絡教學站點這段時間內(nèi)的一組網(wǎng)頁訪問,可以根據(jù)學習者登陸系統(tǒng)、完成學習、最后退出的過程來識別會話。Web日志中存儲著大量的訪問信息,時間跨度大,一名學習者可能在此期間多次訪問了該站點,那么會話識別的意義就在于可以將不同時間段內(nèi)的學習者訪問區(qū)分開,將學習者多次訪問的頁面劃分成多次用戶會話。會話的劃分有多種方法,有基于時間劃分的,有基于站點拓撲結構劃分的。而最為常用的方法就是通過設置一個用戶在站點的持續(xù)時間或頁面停留時間閾值來識別用戶會話,如果請求時間超過閾值則認為新會話開始。4)路徑補充:由于本地緩存和代理服務器緩存的存在,使得難以識別學習者訪問的網(wǎng)頁序列,而路徑補充就是補全那些不完整的學習者訪問序列。路徑補充可以遵循一些原則,比如通過在網(wǎng)頁的標志中設置過期時間,使得本地緩存失效,這樣就可以保證Web日志記錄中保存了用戶的真實訪問路徑;還可以結合訪問日志、引用日志、代理日志和網(wǎng)站拓撲結構來實現(xiàn)路徑補充。在完成數(shù)據(jù)預處理之后會就能得到網(wǎng)絡教學系統(tǒng)中的Web訪問事務數(shù)據(jù)庫,學習者對網(wǎng)絡教學站點的訪問情況都將存儲在Web訪問事務數(shù)據(jù)庫中,每一個事務是一組內(nèi)容頁面的集合,代表著學習者一次有意義的訪問。
4.2.2 Web挖掘引擎模塊
在Web事務庫中已經(jīng)存儲了數(shù)據(jù)預處理的結果,下一步就可以離線利用統(tǒng)計分析和聚類方法進行Web事務庫挖掘。
1)統(tǒng)計分析 統(tǒng)計分析是Web挖掘中最基本的方法,也是分析用戶行為最常用的方法。通過記錄學習者經(jīng)常訪問的URL,跟蹤統(tǒng)計學生訪問次數(shù)、總停留時間、該學習者的課程數(shù)、計算學習者對哪些課程停留時間較長等,得到學習者的學習特征風格,建立和完善學習者學習模型,建立學習者個性數(shù)據(jù)庫,為不同的學習者提供合適的學習策略提供幫助。2)聚類分析 將物理或者抽象對象的集合分組成為類似的對象組成的多個類的過程稱為聚類,其目標就是在相似的基礎上收集數(shù)據(jù)來分類。聚類分析不需要預先定義類的特點或?qū)傩?,而是從用戶的訪問行為中發(fā)現(xiàn)潛在性的知識,從而能更好地體現(xiàn)智能性。頁面(資源)聚類和學生聚類是實現(xiàn)個性化網(wǎng)絡教學最為重要的兩種方法。如果通過聚類發(fā)現(xiàn)若干個網(wǎng)頁屬于同一網(wǎng)頁(資源)聚類,當學生訪問其中一頁(資源)時,可推薦類中其它頁面(資源)。當學習者具有相似的學習習慣或?qū)W習興趣時,可以利用學生聚類法對他們提供相同的個性化服務。
4.2.3 知識庫應用模塊
應用統(tǒng)計分析、關聯(lián)規(guī)則分析、分類和聚類技術和序列模式等挖掘算法對Web事務庫進行了挖掘和分析,其結果存放在知識庫中,此時網(wǎng)站設計者可利用知識庫中的信息和模式為學習者提供合適的學習策略和學習建議,進一步改進網(wǎng)站結構,實現(xiàn)真正意義上的個性化信息服務。
5 結 語
Internet技術的發(fā)展和網(wǎng)絡的普及擴展了數(shù)據(jù)挖掘的應用范圍,利用Web數(shù)據(jù)挖掘技術對網(wǎng)絡教學網(wǎng)站上的各種數(shù)據(jù)源進行挖掘,把握用戶的興趣,有助于開展網(wǎng)站信息推送服務以及個人信息的定制服務。
參考文獻
[1] 馮春輝.Web日志挖掘在網(wǎng)絡教學中的應用研究.計算機技術與發(fā)展,2010,6.
[2] 于飛,丁華福,姜倫.Web日志挖掘中數(shù)據(jù)預處理技術的研究.計算機技術與發(fā)展,2010,5.
[3] 李中,苑津莎,徐小彩.基于Web日志挖掘的客戶訪問興趣分析.華北電力大學學報,2009,5.
[4] 蘇新寧,楊建林,等.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘.清華大學出版社,2006,4.
[5] 李燕風.Web訪問信息挖掘系統(tǒng).計算機工程,2003,29(15).
[6] 張娥.Web使用模式研究中的數(shù)據(jù)挖掘.計算機應用研究,2000,3.
[7] 韓曉紅.網(wǎng)絡教學的特點與模式[J]. 甘肅高師學報. 2004(02).
[8] 許曉非,高尚,常桂然,劉積仁.基于Web的遠程教育學習環(huán)境[J]. 小型微型計算機系統(tǒng). 1999(09).
[9] 盧守東,劉穎.基于Web的網(wǎng)絡教學系統(tǒng)的設計與實現(xiàn)[J]. 科技信息. 2011(14).
[10] 吳長春.利用Web技術實現(xiàn)對數(shù)據(jù)庫的訪問[J]. 淮北煤師院學報(自然科學版). 2000(04).