摘 要: 本文提出應用Web使用挖掘技術對在線教學系統中學生訪問行為、頻度、內容、停留時間等進行分析,得到學生訪問行為和方式的一般模式來指導教學,進行資源推薦、改善教學服務,可以提高學習效率、增強教學效果,提高在線教學系統的個性化服務水平,為系統的決策分析提供智能的輔助手段。
關鍵詞: 在線教學系統 個性化 智能化 Web使用挖掘
一、引言
隨著Internet應用的快速發展,以及教育大眾化和終身化的需求,通過網絡向學生提供形式多樣的學習模式,可以實現在不同地點實時地、交互地和有選擇地進行學習,具有資源共享、系統開放等優點的在線教學系統就成為現代遠程教育的重要研究課題之一。
在線教學系統的核心是開放、互動、智能和自適應。本文介紹的Web使用挖掘應用于在線教學系統,可以在海量的Web訪問數據中發現學生站點瀏覽模式,不斷完善知識點間的關聯規則;可以結合學生特征庫和學習行為記錄挖掘學生對知識點的理解程度,以便智能推薦后繼課程和學習資料;也可以及時反饋學生學習進度,使教師及時調整教學要點、教學內容和教學方法[1][2],是實現在線教學系統個性化、智能化的一種重要技術手段。
二、Web使用挖掘技術
數據挖掘應用于Internet時,常被稱為“Web挖掘”,是一個從大型數據倉庫中提取隱藏預測信息和發現有用模式、輪廓和趨勢的過程。Etzioni將Web挖掘定義為“從Web文檔和服務中自動發現和提取有用信息的一種數據挖掘使用技術”。[3]一般分為Web內容挖掘、Web結構挖掘和Web使用挖掘。在線教學系統中,Web使用挖掘的主要任務是通過對學生訪問內容、訪問頻率、停留時間等進行分析,得出學生訪問行為和方式的一般模式,并以此為依據向學生提供全面的個性化、智能化在線教學指導。和其它數據挖掘一樣,Web使用挖掘也需要經過數據采集、數據預處理、模式發現和模式分析等過程,如圖1所示。
(一)數據采集
數據采集就是要記錄用戶訪問行為。一般包括服務器端的數據采集、客戶端的數據采集和代理端的數據采集。原始數據需要經過處理后才能有效實施挖掘算法,所以需要進行數據預處理。
(二)數據預處理
數據預處理的質量與Web挖掘的效率和結果緊密相關,其內容包括:數據清洗、用戶識別、會話識別、事務識別和路徑補充等。
(三)模式識別
模式識別是對預處理后的數據實施挖掘算法。模式識別的基本方法有:統計分析、關聯規則、序列模式、頻繁訪問組、依賴建模等。為了提高數據分析的有效性和準確性,通常會根據待分析數據的不同特征綜合采用上述幾種挖掘算法。
(四)模式分析
模式分析的目的是根據實際應用,利用可視化技術、聯機分析技術和智能查詢機制等方法和工具對挖掘出來的模式規則進行分析,找出我們感興趣的模式和規則[4]。對于挖掘出的規則和模式的興趣常采用興趣函數來度量。
三、在線教學系統中Web使用挖掘技術的應用
在線教學系統中應用Web使用挖掘即在學生訪問系統后留下的使用記錄中實施數據挖掘,發現和提取有用的信息,其體系結構如圖2所示。Web使用挖掘的主要數據源是學生訪問記錄即學生訪問系統在服務器端存留的Web訪問日志,包括學生個人的詳細信息、訪問的時間頻率、訪問的時間段、停留時間、訪問行為等數據。這些數據將在經過預處理后,在專用的數據挖掘模塊中,通過具體的挖掘算法來進行模式識別。數據挖掘的結果將存放在數據挖掘結果集中,由專門的模式分析模塊對其進行篩選。
(一)數據預處理過程
這里的預處理過程主要是針對系統的Web訪問日志,是Web使用挖掘過程中最關鍵的一環,預處理的質量直接關系到后面挖掘過程和模式分析過程的質量。
1.數據清洗。刪除Web日志中與數據挖掘不相關的冗余項。Web日志記錄學生IP地址、學生ID、學生請求訪問的URL頁面、請求方法、訪問時間、傳輸協議、傳輸的字節數和錯誤代碼等屬性,而與數據挖掘相關的只有學生IP地址、學生ID、學生請求訪問的URL頁面及訪問時間等,其它屬性可以去掉。
2.用戶識別。包括如何在海量數據中找出屬于同一學生的記錄;如何在學生訪問時識別該學生,迅速找出對應該學生的挖掘結果和推薦集。由于本地緩存防火墻和代理的存在給用戶識別帶來了困難,常采用基于日志/站點的方法及其它一些啟發性規則用于識別用戶。
3.會話識別。將學生訪問信息按照一定的時間段進行劃分,每一時間段內的學生訪問集合作為一個用戶會話。會話識別的意義在于可以將不同時間段內的學生訪問區分開,而不致于將時間間隔很長的兩次訪問看作一次。在時間區段較大的Web服務器日志中,用戶有可能多次訪問該站點。會話識別的目的就是將用戶的訪問記錄劃分成單個的會話。一般采用超時識別,如果用戶請求的頁面之間的時間超過一定間隔,則認為用戶開始了一個新的會話。
4.事務識別。在進行挖掘之前必須把頁面的訪問序列分成表示Web事件或用戶會話的邏輯單元,不像傳統的事務數據庫,Web挖掘中沒有一些很方便的方法用于事件識別,現在主要有訪問路徑長度和最大向前訪問路徑兩種方法。
5.路徑補充。在訪問日志中可能有一些重要的訪問路徑沒有被記錄下來,但是這些路徑對用戶會話的識別又是很重要的。路徑補充的任務就是將這些遺漏的請求補充到用戶會話文件之中,對于一些不完整的用戶訪問序列,我們可以采用一些啟發性規則,結合網頁拓撲進行推理,補全訪問路徑。
(二)建立學生訪問數據超立方體
對已預處理的學生訪問記錄建立數據超立方體,這個超立方體負責提供一個良好的數據挖掘環境。超立方體HC=[A1,A2,A3,...,An],每個Ax表示一個m的維,如時間維、域名維、文件維和瀏覽工具維等。每個維的Ax=[ax1,ax2,ax3,...,axm],表示此維的m個屬性,如時間維的屬性可以表示為星期一、星期二……星期日等。
(三)模式發現及應用
在已建立的數據超立方體的基礎上,我們可以使用統計分析、頻繁訪問、關聯規則、聚類與分類分析和序列模式等挖掘技術進行在線教學系統的個性化、智能化應用。
1.根據用戶行為和路徑分析改善站點結構。統計分析是分析用戶行為最常用的方法。在線教學系統中,我們可以用于分析該學生的訪問次數、總停留時間、該學生訪問的課程數、該學生對哪些課程停留時間較長等,還可以統計系統某個時間段內訪問的次數,訪問次數最多的URL等。此外還能提供有限的低層次錯誤分析,比如檢測未授權入口點,找出最常見不變的URL等。頻繁訪問組可以用于判別在Web站點中頻繁訪問的路徑集和其它一些通過路徑分析得到的有關知識。結合這些用戶行為和路徑分析知識,我們就可以改善站點結構。例如,對某學生進行一段時間的訪問路徑跟蹤后,將其訪問模式存入應用服務器上的學生個性數據庫,即可據此向其提供個性化學習界面。
2.利用關聯規則發現學生的某些知識興趣點之間的相關性。所謂關聯規則就是描述數據庫中數據項(屬性、變量)之間所存在的(潛在)關系的規則,也就是說,當兩個或多個數據項的取值之間反復出現且概率很高時,它們之間就存在某種關聯,這時我們就可以為這些數據項建立關聯規則。關聯規則分析分為兩步:找一個支持度大于給定值的大數據項集;用這個大數據項集產生關聯規則。Web使用挖掘中的關聯規則主要是通過分析學生訪問網頁間的潛在聯系而歸納出的一種規則,即發現給定的數據集中項之間的有趣聯系或相關聯系。例如,發現訪問A學習資源的學生有多大比例同時也訪問了B學習資源,如果該比例超過給定值,就可以認為該關聯規則是有趣的,下一次有學生訪問A學習資源時,就可以將B學習資源推薦給他。在線教學系統中,關聯規則可以發現用戶會話中經常被學生一起訪問的頁面集,這些頁面之間并沒有順序關系,我們可以根據這些學生群的相同興趣進行教學安排。例如,關聯規則作為啟發規則為學生預取可能請求的頁面,以減少等待時間,建立起一個方便有效的學習環境。
3.利用聚類算法從Web訪問數據中聚類出具有相似性的網頁或學生。聚類即將物理或者抽象對象的集合分組成為由類似的對象組成的多個類的過程。屬于同一個類的對象可以作為一個整體來對待。個性化在線教學中,主要有兩類聚類,頁面(資源)聚類和學生聚類。如果通過聚類發現若干個網頁屬于同一網頁(資源)聚類,當學生訪問其中一頁(資源)時,可推薦類中其它頁面(資源)。學生聚類中的學生具有相似的學習習慣或學習興趣,可以據此對他們提供相同的個性化服務。比如,當我們發現學習《計算機網絡》這門課的學生80%是二年級的學生后,我們就可以把這門課推薦給所有的二年級學生,而且可以定時發送一些課程信息郵件給這些學生。另外,我們可以根據對該課程的聚類結果來指導學生建立網上課程學習小組和學習網站等。
4.通過分類算法分析學生知識水平,給予不同層次教學指導。分類就是找出一個類別的概念描述,它代表了這類數據的整體信息,一般用規則或決策樹模式表示。把學生按行為模式分類,以此劃分教學目標群體,教師就可以進行教學規劃,通過創造一系列的課程事件,幫助學生建立一個方便的學習環境,形成一個理想的、有效的學習過程。例如,可以把具有相似的知識背景和接受能力并且學習《計算機應用基礎》課程的學生知識水平分成“初級”、“中級”和“高級”,并給予相應的教學指導。
5.利用序列模式挖掘找出學生學習過程中的事件序列關系。即發現學生在一定持續時間內的訪問序列。例如,當發現有一定比例的學生學習甲課程后一個月又學習了乙課程,那么,當發現學習了甲課程的學生時,可以在一段時間后向他推薦乙課程。
四、Web使用挖掘技術在應用中存在的問題
盡管Web挖掘技術已經在個性化在線教學系統中得到了廣泛的應用,但是還存在著以下幾個方面的問題。
(一)性能問題
個性化在線教學系統都不同程度地擴展了傳統的客戶端/服務器體系結構,Web信息經過相應處理后才返回客戶端,就必然會延長響應時間。實時個性化系統對響應時間要求比較高,特別是采用中間代理方式的系統,如果中間處理過程費時過多或用戶數量過大,系統性能將是一個不可忽視的問題。而且針對個性化在線教學系統,無論是其用戶量,還是系統維護的網頁,通常都是海量的,目前的Web挖掘算法在處理這些數據時通常都采用離線方式,因此對于要求在線實時處理的情況還不能很好地解決。
(二)績效評價問題
應用Web使用挖掘技術實現在線教學個性化、智能化服務,不同系統采用不同的Web挖掘技術,如何評價它們的建模效果和系統最終的服務績效也是一個非常重要的問題。目前對個性化系統服務績效的評價,不同系統采用不同的方式和測試數據,因此,無法評價多個不同個性化系統服務績效的優劣,需要研究一種通用的性能指標和開發相應的Benchmark評價比較各種不同的Web挖掘技術。
五、結語
利用Web使用挖掘可以從學生訪問記錄中得到有用的知識來指導教學,進行資源推薦、改善網絡服務,可以提高學習效率、增強教學效果,提高在線教學系統的個性化服務水平,為系統的決策分析提供了智能的輔助手段。在線教學系統能根據學生知識結構、學習風格等個性特征進行個性化教學,以提高學習者學習的積極性和主動性,增強學習者的內部動機,提高學習效率。數據挖掘技術在現代遠程教育系統的應用還存在著很多問題,有待于進一步深入研究,但是隨著Web挖掘技術的日漸成熟,對個性化服務更深入的研究,個性化學習系統將更加完善,在現代遠程教育中有著廣闊的發展前景,必將成為未來教育的一種重要的教學手段。
參考文獻:
[1]汪永好.設計模式在工作流管理系統實現中的應用[J].計算機工程與設計,2006,27,(6):1096-1100.
[2]WfMC-TC00-1003,V1.1.Workflow reference model[S].
[3]Etzioni,O.The World Wide Web: Quagmire or Goldmine Communications of the ACM,1996,vol39,(11):6568.
[4]AndreaGini.JavaCC grammar files for Java [EB/OL].http://cobasewww.cs.ucla.edu/pub/javacc/java1_4c.jj.