摘 要: 本文分析了遠程教育提供個性化教學服務的現狀,提出利用Web使用挖掘技術,構造一個個性化遠程教育的系統模型,通過對學生訪問行為、頻度、內容、停留時間等的分析,得出學生訪問行為和方式的一般模式,并通過該模型的應用實例及其應用效果的分析驗證了該模型的有效性和實用性。
關鍵詞: Web使用挖掘 個性化遠程教育 教學支持服務
1.問題的提出
隨著互聯網應用的快速發展,以及教育大眾化和終身教育的需求,以網絡通訊技術、計算機多媒體技術為依托,通過網絡向學生提供形式多樣的學習模式可以實現在不同地點實時地、交互地和有選擇地進行學習,具有時空自由、資源共享、系統開放等優點。向學生提供個性化的教學服務就成為其區別于傳統教學模式的重要特征,因此也成為現代遠程教育的重要研究課題之一。
Web挖掘就是將傳統的數據挖掘技術和Web結合起來,進行Web知識的提取。一般Web挖掘可分為:Web結構挖掘、Web內容挖掘和Web使用挖掘。本文討論的重點在于Web使用挖掘。
2.Web使用挖掘
2.1處理模型
Web使用挖掘的主要任務是研究用戶的瀏覽行為(即對Web站點的使用)。和其他數據挖掘一樣,Web使用挖掘也需經過數據采集、數據預處理、模式發現和模式分析等過程。
2.1.1數據預處理
對得到的原始用戶瀏覽信息進行處理,取出用戶訪問的URL、頁面的大小、請求的時間、在頁面上停留的時間、請求者的Internet域名、用戶、服務器狀態等變量。下面分析比較常見的從Web日志中獲取的瀏覽信息的預處理過程。它包括如下幾個方面。
2.1.1.1數據清洗。刪除Web日志中與數據挖掘不相關的冗余項。Web日志記錄了用戶IP地址、用戶名、用戶請求訪問的URL頁面、訪問時間、傳輸協議、傳輸的字節數、訪問出錯信息等屬性,而與數據挖掘相關的只有用戶IP地址、用戶名、用戶請求訪問的URL頁面與訪問時間,其他屬性可以去掉。
2.1.1.2用戶識別。由于本地緩存、代理服務器和防火墻的存在,識別用戶的任務變得很復雜。只能盡可能地用比較合理的啟發式規則來進行用戶識別。如一旦發現用戶端瀏覽器軟件或操作系統發生改變,則認為是新用戶。
2.1.1.3事務識別。會話是指同一個用戶連續請求的頁面,不同用戶訪問的頁面屬于不同的會話。
2.1.2模式發現
在對事務進行了劃分后,我們就可以根據具體的分析需求選擇訪問模式發現的技術,如路徑分析、關聯規則挖掘、序列模式,以及聚類和分類技術。這些對于Web站點的性能改進有重要的作用,如路徑分析可以用來發現Web站點中最經常被訪問的路徑,從而可以調整站點的結構。
2.1.3被發現的模式用于個性化處理
在模式抽取后進行分析和應用。挖掘結果可能會有大量的模式,如關聯規則可能會發現很多的規則。如果這些模式全部被采用,人們就很難理解。模式分析忽略了一些不重要的模式,而且允許人們將模式表示加上一些限制,將抽取出的模式用容易理解的方式顯示出來,如可視化。然后應用這些模式改進站點的結構和幫助用戶瀏覽。
2.2Web使用挖掘在遠程教育中的應用
Web使用挖掘在遠程教育中主要應用于以下各個方面。
2.2.1系統改進
對Web系統的特性數據進行分析,如:可以提供Web流量行為的分析,利用它來進行Web緩存、存取平衡等,據此對遠程教育系統性能進行改進。
2.2.2站點修改
對所有學生的瀏覽路徑進行挖掘,發現其中某些頁面的邏輯關聯。把一組頻繁訪問的頁面直接鏈接,以改善遠程教育站點結構。
2.2.3智能服務
學生如何使用遠程教育網站來進行學習對于遠程教育提供者來說是很重要的。通過對學生行為和所選課程等關系的挖掘,發現其中的學生群學習特征和趨勢等來進行智能服務,為遠程教育提供者提供決策依據。
2.2.4個性化
從單個學生的瀏覽信息發現學生的興趣,向每位學生提供符合其興趣要求的個性化界面。
3.個性化遠程教學模型
Web服務器為客戶端提供HTTP服務等功能,應用服務器內存放學生的個人注冊和相關課程等信息。
每個學生在開始使用網站時先在應用服務器上進行注冊,控制模塊負責對采集的學生瀏覽路徑進行預處理和相關的數據挖掘,學生個性數據庫用于存放挖掘出來的各種模式。
個性化遠程教育主要由以下幾部分組成。
3.1瀏覽路徑預處理
對學生的瀏覽路徑信息進行一些預備處理,包括數據清洗、用戶識別、會話識別和路徑補充等。數據清洗是指刪除一些無用的或錯誤的數據。用戶識別是指對路徑信息通過一些啟發式規則進行識別路徑的用戶歸屬。會話識別是指在用戶識別的基礎上辨認不同的會話。一般利用超時的方法決定用戶是否都開始了一個新的會話。路徑補充是在路徑不完整的情況下利用站點的拓撲結構找出遺漏的頁面。
3.2建立學生個性數據倉庫
對已預處理過的學生訪問數據建立數據倉庫,這個數據庫負責提供一個良好的數據挖掘環境。數據倉庫可以設立多個維度,如時間維、域名維、文件維和瀏覽工具維等。每個維設立多個屬性值,如時間維的屬性可以表示為星期一、星期二、……星期日等。
3.3被發現的模式用于個性化處理
在已建立的數據倉庫的基礎上,我們可以用五種挖掘技術進行個性化教學支持服務。
3.3.1根據路徑分析改善站點結構。它可以用于辨別在Web站點中頻繁訪問的路徑集和其他一些通過路徑分析得到有關知識,并利用這些知識來改善站點結構。
3.3.2利用關聯規則發現學生的某些知識興趣點之間的相關性,然后將它們之間的超鏈接動態地提供給學生,使學生在網上學習更加方便。
3.3.3通過分類算法對學生的知識水平進行分類,給予不同級別的訓練。
3.3.4利用聚類算法從Web訪問信息數據中聚類出具有相似性的那些學生。
3.3.5利用序列模式的挖掘來找出學生學習過程中的事件序列關系。
本文對Web使用挖掘的過程、挖掘算法,以及挖掘出來的模式和表示進行了分析,構造了一個基于Web使用挖掘的個性化遠程教育網站模型。進一步的工作是將模型細化、擴充,使其在遠程教育的實踐中發揮作用。
Web挖掘技術在遠程教育的教學支持服務中的應用是一個新的領域,也是一個帶有很大挑戰性的課題。隨著研究的進一步深入,此項技術將為遠程教育中個性化教學支持服務研究提供一條新的途徑。
參考文獻:
[1]周蔚.現代遠程教育學習支持服務現狀研究[J].中國遠程教育,2005,(3).
[2]馮建軍.試論個性化教育的原則[J].江西教育科研,2004,(5).
[3]舒蓓,申瑞民,王加俊.個性化的遠程學習模型[J].計算機工程與應用,2001,(9).
[4]夏火松.數據倉庫與數據挖掘技術[M].科學出版社,2004:207-225.