張 玨
(1.江蘇省昆山第二中等專業學校,江蘇 昆山 215300;2.昆山開放大學,江蘇 昆山 215300)
當前網絡教學平臺的教學水平參差不齊,如何對其教學效果進行有效分析,通過利用數據挖掘技術在網絡教學平臺中發現學習者的一些行為規律,以此來改善網絡教學平臺中站點的結構的布置和網頁超鏈接的設置,已經是勢在必行,但是如何在現有的經典Apriori算法基礎上進行改進分析,實現挖掘學習者頻繁訪問路徑的算法是本文的主要研究任務。
開發的算法、為了分析數據而構建的框架或模型,需要對實踐應用產生影響才真正有價值。如何將獲取的數據進行分類整合,目前大部分的網絡教學平臺沒有提供合適的工具來獲取、分析或者存儲數據,還有我們的平臺管理者或者授課者也不知道如何獲得數據、數據如何分析或者數據意味著什么。根據學習者在網絡教學平臺中的學習狀態進行分析,分析點擊瀏覽器上的按鍵回退到瀏覽過的學習頁面,還有可以按照平臺上的一些超鏈接進入瀏覽新的頁面。學習者所有訪問過的頁面都是挖掘的重要信息。因此,就需要找出學習者的“最大向前訪問路徑”,即從學習者操作的第一個頁面開始,直到學習者退回到前一個頁面為止,這期間訪問的頁面所獲得的頁面序列[1]。
Apriori算法的實質使用候選項集找頻繁項集,是一種基于挖掘布爾關聯規則頻繁項集最有影響力的算法。算法的大致意思是:算法使用的頻繁項集性質的先驗知識。Apriori算法是一種逐層搜索的迭代方法,k-項集用于探索(k+1)-項集[2]。
原本學習者頻繁訪問的操作路徑中可以借鑒傳統數據挖掘中的關聯規則挖掘算法來發現,但Web數據存在一些復雜性,所以對關聯規則算法進行必要的改進,從而適合網絡教學平臺中學習者頻繁訪問路徑的發現[3]。關聯規則挖掘算法與學習者頻繁訪問路徑的發現算法的差別在于:關聯規則頻繁項集中的事務項目之間沒有順序的關系;但學習者頻繁訪問路徑中,頁面必須形成連續的序列,即頁面之間有順序[4]。
學習者頻繁訪問路徑的模式發現可以分解為兩個子問題:(1)從網絡教學平臺中的數據庫中,用上述算法求得的最大向前訪問路徑的數據庫D,求出所有滿足最小支持度的頻繁路徑。(2)由挖掘生成的所有頻繁路徑中,找出滿足最小置信度的頻繁路徑[5]。
對經典Apriori算法稍加改進,就可以得到求滿足最小支持度的所有頻繁路徑的算法。
算法中的符號說明:
k-itemset:k維頁面項目集。
L[k]:具有最小支持度的最大k-itemset,該集合中每個成員有兩項(itemset和support)
C[k]:候選的k-itemset(潛在的最大頁面項目集),該集合中每個成員有兩項(itemset和support)。
假設通過對Web訪問日志的預處理,識別出某學習者的會話為{A,B,C,D,C,E,F,G,B,H,A,I,J,I,K},則用以上的最大向前訪問路徑標識算法對該學習者的會話過程進行分割后,就可以得到的事務集合為{ABCD,ABCEFG,ABH,AIJ,AIK},其分割過程如圖1所示[3]。

圖1 利用最大向前訪問路徑標識算法分割會話集
在上述分析的基礎上,結合Apriori算法的優點,利用改進的Apriori算法挖掘學習者的頻繁訪問路徑算法描述如下。


算法說明:
(1)最大項目集的子集必是最大項目集。在can_gen函數中,運用這一性質,除k項侯選集中那些(k-1)項不在L[k-1]在的項目集,從而減少了侯選中子集的數目。
(2)在can_gen函數中,a[2]=b[1] and a[3]=b[2], …,a[k-1]=b[k-2]是由L[k-1]生成C[k]的條件,發現這與傳統關聯規則中的連接條件不一樣,它表示了頁面之間的序列關系。
假設結過數據預處理后,數據庫D包含了10個學習者訪問網絡教學平臺相關頁面的記錄,如表1所示(表中只給出和算法相關的字段,其余字段已被省略)。

表1 頁面被訪問記錄表
由之前分析的算法,選取學習者頻繁訪問路徑的最小支持度為5,算法運行后,得到該網絡教學平臺被頻繁訪問的路徑為:{A,C,D,E},該算法的執行過程如下所示。
第一步運行結果:C1:

?
L1:

Itemset A C D E J support 7 7 8 10 5
第二步運行結果:
C2:

?
L2:

?
第三步運行結果:
C3:

Itemset A,C,D A,C,E A,C,J support 5 6 2
L3:

Itemset A,C,D A,C,E support 5 6
第四步運行結果:
C4:

?
L4:

?
算法運行結束,挖掘出學習者頻繁訪問路徑{A,C,D,E},利用該路徑來反饋網絡教學平臺,以改進站點網頁間的鏈接,提高網絡教學平臺的訪問效率。在這里需要指出的是,假設發現的A,B,C和D頁面在鏈接結構上屬于同層結構,那么需要在A網頁中,給出B,C和D網頁的鏈接地址。另外,可以為學習者提供推薦學習的頁面,在上述示例中,如果學習者進入網絡教學平臺訪問了A,E頁面,那么系統就可以將C,D頁面推薦給學習者界面[6]。
通過改進后的Apriori算法得到的學習路徑的挖掘結果是以文字或圖形的方式提供給需要的用戶。挖掘結果對授課者和學習者的幫助有:對網絡教學平臺的大多數學習者的學習路徑的挖掘,可以提供給平臺課程設計者對其設計的網絡教學課件等進行優化調整處理[3],適量協調各個頁面之間的鏈接關系,讓其能更加符合學習者的習慣。并且系統動態生成某些鏈接,可以滿足學習者的特定需求,以此來實現對學習者的定制化教學。另外,根據獲取的學習者某些課程的學習狀況和學習進度的情況,來對學習者提出一些學習建議。挖掘的結果能讓授課者了解學習者學習課程的掌握情況,以此來提供給學習者一些比之前所學課程更加深入或者更加淺顯的教學內容。可以使學習者全面地了解自己的學習狀況,幫助學習者自主高效地學習。