王詩圓,申 瑩,趙永翼
(沈陽師范大學軟件學院,沈陽 110034)
隨著互聯網行業技術快速發展以及現代互聯網技術在各行各業內的廣度深度的推廣,互聯網內用戶的數量級也在迅速擴大。同時,隨著現代學習型社會建設迫切需要,基于互聯網技術的網絡教學已經成為人們學習專業知識的重要途徑之一。與傳統的學習方法相比,網絡教學有許多優勢。用戶可以利用課程網絡學習平臺提供的資源實現課程的重復學習,及時擺脫傳統教育中教師的束縛,為不同基礎的學生掌握課程內容提供良好的教學重復功能。網絡技術和多媒體技術的結合使得網絡教學能夠實現良好的教師和應用。家庭之間的交流。隨著Ajax技術的成熟和普及,除了視頻模式之外,在線教學還可以通過直播來進行。在教學過程中,用戶還可以使用直播模塊提問、討論和與教師或其他用戶交流。課后,用戶也可以使用電子郵件和留言板與老師或其他用戶互動。網絡教學并不是傳統的以教師和學生為中心的星型學習模式,而是一種以教師為中心的網絡拓撲學習模式,更加科學更加地完善。
20世紀80年代末,出現了數據挖掘技術,即從海量數據信息中獲取有用信息的過程。在信息數據管理、檢索和分析過程中,基于數據庫技術,包括關系數據庫和非關系數據庫。存儲在數據庫中的數據通過萬維網被用戶廣泛使用,用戶的行為數據也記錄在數據庫中。分析和挖掘這些數據已成為一項重要的任務。隨著數據挖掘技術的不斷發展和進步,技術體系逐漸成熟。人們正在轉向數據挖掘技術在實際項目中的應用。通過不同的挖掘策略和數據集成方法,可以得到較好的結果。數據挖掘技術在我們日常生活中的應用是多樣的,并且滲透到我們生活的各個方面。它對我們的生活和工作方式有著重要的影響。即使對人們的學習,投資和健康也有微妙的影響。
Apriori算法是現在關聯規則算法中最有影響的頻繁項集挖掘算法之一。其中它的基本思想是先找到所有的頻率集,這些頻率集的出現頻率至少與預先定義的最小支持頻率相同。然后由頻率集生成強關聯規則,滿足最小支持度和最小置信度。然后,我們使用步驟1中找到的頻率集生成預期規則,并生成只包含集合項的所有規則。每個規則的右側只有一個項目。這里我們使用中間規則的定義。一旦生成了這些規則,就只剩下那些大于用戶給定的最低可信度的規則。為了生成所有頻率集,使用遞歸方法。偽代碼如下:
(1)L1= fi nd_frequent_1-itemsets(E);
(2)for(k=2 ;Lk-1 ≠ Φ ;k++){
(3)Ck=apriori_gen(Lk-1,min_sup);
(4)for each transaction t∈E
(5)Ct=subset(Ck,t);/
(6)for each candidate c∈Ct
(7)c.count++;
(8)}
(9)Lk={c∈Ck|c.count≥min_sup}
(10)}
(11)return L=∪ k Lk;
使用關聯規則進行內容推薦是本文的重點。圖3-1描述了使用關聯規則挖掘關聯規則和實現內容建議的模型。該模型主要由內容推薦和關聯規則挖掘模塊組成。關聯規則內容推薦模塊主要根據用戶訪問的頁面內容實現其他內容的推薦功能,關聯規則挖掘模塊主要實現后臺管理員根據用戶訪問日志挖掘關聯規則的功能,并使用關聯規則挖掘算法挖掘關聯規則,并將挖掘結果存儲在數據庫中。

當前系統有130項信息(即數據項),記錄在當前系統中的用戶訪問日志被指定為樣本數據,過濾樣本數據中的訪問日志記錄會刪除由于異常收集而部分過長或日志標記為空的訪問日志記錄。過濾后,獲得了3460條訪問日志記錄。首先設置最小支持度為3,最小置信度為50,執行Apriori算法,得到26條關聯規則。我們知道,設置較低級別的支持當然可以獲得更多的關聯規則,但是較低級別的支持也可以通過關聯規則挖掘一些用戶不多的行為模式,這樣的推薦沒有更好的挖掘含義,更有可能影響推薦的效果。精品課程網站的內容具有長期性,因此隨著用戶訪問量的增加,挖掘關聯規則時,相應的最低支持度和置信度應該逐漸增加。接下來,最小支持度為0.07,最小置信度為70,Apriori被用于挖掘,產生66個關聯規則,可以作為課程內容推薦。
在算法系統的實際實施過程中,由于樣本數量限制等原因,系統中仍有一些問題需要進一步地討論和改進來去解決實際遇到的問題,如樣本數量級不足、數據處理方式欠缺等,若混合多種算法進行數據挖掘,實驗結果將更加符合期望水平。