基于K均值聚類算法及樸素貝葉斯分類器的學習行為分析研究

2019-05-24 14:13:16姚家麟譚召于松楠鞠茵茵劉素娟

電腦知識與技術 2019年11期

姚家麟譚召于松楠鞠茵茵劉素娟

摘要：隨著互聯網技術在教育領域應用得越來越成熟，各類型的網絡教學平臺與測試系統層出不窮。無論是各個高校的網絡授課系統，還是包含各類行業實際案例課程的網課平臺，都為當代學習者與授課方提供了極大的便利。在各類教學平臺中，均有大量的數據產出，對這些在線學習過程中產生的大量數據進行挖掘，可以有效地對學習者的學習行為模式提出建議與優化，同時，可以給授課方精準的授課效果分析，幫助授課方改進授課方針。在由大量用戶組成的學習社區生態下，通過多維度數據挖掘，可以對不同用戶給出精準的課業投放，大大提高用戶的學習體驗。

關鍵詞：學習行為分析；K均值聚類；樸素貝葉斯分類器；數據挖掘；數據可視化；在線學習

中圖分類號：TP393 文獻標識碼：A

文章編號：1009-3044（2019）11-0017-03

1 引言

在線學習與傳統學習方式相比，為學習者提供豐富的學習資源和書籍無法比擬的信息環境，能滿足學習者個性化學習的需求，為學習者提供更加自由的學習空間，學習者可以定制自己的學習方式，不斷提高學習效率，從而將被動地接受變成主動的學習[1-4]。

但是隨著在線教育的不斷發展，也面臨著巨大的挑戰，特別是在學歷教育或者正式教育方面，主要問題包括：

（1）教學的質量與效果問題；

（2）教學的個性化調整與適應問題；

（3）對學習的監控、教育、評價問題。

在大數據時代的背景下，各類“互聯網+”產業紛紛致力于數據挖掘的研發與應用，“云計算”與“人工智能”漸漸成為高頻詞，而“互聯網+”教育的相關產業中，針對上述三個主要問題，數據挖掘也同樣值得探索與開發。對于用戶在學習過程中產生的各類數據，通過科學的采集分析，能夠劃分學習者的類型，學習行為模式的類型，乃至學習效果的預測，將此反饋給用戶，能夠給予用戶更好的平臺使用體驗并優化改善學習方法，提高學習效率，同時對于授課方而言，這也是調節授課方針的雙向反饋[3-6]。

2 相關工作

2.1在線學習平臺研究現狀

當代在線學習平臺以及網絡教學平臺層出不窮，其中MOOC（massive open online courses）慕課網更是業內典范。將各行各業的各類課程分布在不同的大類小類之下，以樹狀結構的形式引導用戶選擇想要學習的課程。其理念與實踐得到了國內外眾多大學的認同，包括哈佛大學、麻省理工學院、斯坦福大學、北京大學、清華大學等，他們在慕課網上免費公開自己的課程，供全球學習者進行在線學習訪問，在這種網絡教學模式下，全球千萬用戶得以收益[1-2]。并且，其證書體系也在平臺的發展中日益完備，對于不同課程的考核方針以及考核過程具有不同的處理策略，確保其證書的有效性與真實性。然而，對于網絡教學平臺而言，學習者的學習效果，更多地取決于學習者的學習動機，并且由于網絡教學的模式局限于對于資源的展示與訪問，更需要學習者極大的自主學習欲望和較為高效的學習方法，否則，面對優質的課程資源，可能最終的學習效果難以達到學習者的心理預期。并且，不僅僅局限于慕課網，眾多的網絡教學平臺均存在著這個問題，當學習者的學習方法較差或學習動機較弱，其學習效果相較于傳統課堂教學并不盡如人意。因此，對于在線學習或網絡教學平臺而言，通過數據挖掘算法合理的定制個性化學習方案顯得尤為重要。

2.2 K-means聚類算法

3 學習平臺設計及在線行為分析

3.1學習平臺搭建設計

學習平臺采取Web應用程序的形式，以Python作為后端語言，包含業務邏輯處理和數據挖掘部分，使用Django框架搭建，在服務器端采用Nginx+uWSGI部署，以解決Django框架本身單線程的問題。數據庫部分因是測試平臺，采用MySQL數據庫進行全部數據的存儲。

平臺主要業務如下：

對于大部分用戶即學習者，平臺提供：在線學習、在線練習、在線測試、論壇系統、智能反饋等業務。

對于平臺的第二類用戶即教學者，平臺提供：開設課程、開設教學班、發布作業練習、發布考試、發布教學資源、導入題目、論壇系統、智能反饋等業務。

3.2 數據采集

在進行數據挖掘之前，數據采集是不可或缺的一步，無論是從關系型數據庫中直接讀取，還是從日志數據中篩選過濾，都是為后續的數據處理做準備。結合現有文獻及資料，基于測試平臺的構建設計，共收集九類特征數據。由于全部數據使用MySQL存儲，對于日志數據庫的設計采取分類分表的模式，操作日志、下載日志、搜索日志、錯誤日志分表存儲，包含請求內參數、用戶信息、瀏覽器信息、操作路徑、時間戳等常規日志字段。

當用戶進行相關操作時，請求中包含的參數信息，在業務模塊成功執行后，帶著請求信息、參數信息、時間戳信息共同存儲至對應表，如圖1所示，囊括頁面切換、資源訪問、模擬練習等用戶操作，同時資源下載、站內搜索等模塊也會被轉儲。平臺共涉及九類特征數據的采集，主要方法采用從數據庫中篩選調取后，進行一定統計轉儲為數據模型。

3.3 數據預處理

對于以上九類數據模型，首先對缺失值進行分析填補，采用均值插補法進行填充，確保全部數據模型的完整性，其次采取聚類算法將連續型數據離散化，最后將處理完畢的數據重新轉儲成數據模型，以供進一步處理。

預處理方法：

1）均值插補[7]：

由于平臺采集數據具有可度量性，因此使用該方法對缺失數據進行填補，通過計算某缺失值同類元素有效值的均值，將其填補進入空缺位置。

2）聚類算法：

算法流程：

（1）擬定K值，即總簇類數目；

（2）通過均值隨機數*數據樣本容量來擬定K個初始質心位置；

（3）設置最大迭代次數N；

（4）對于數據集中剩余非質心元素，測量其到各個質心距離，并將其歸到最近質心的類；

（5）更新已經得到的各個類的質心；

（6）迭代（4）（5）兩步直至新的質心與原質心相等或達到最大迭代次數；

（7）返回包含簇類劃分的數據集。

在采集到的九類數據模型中，在線時長信息、論壇信息、資源信息、測評信息、搜索信息、在現時段信息均采用K均值聚類算法進行類目劃分，而基礎信息則直接對不同信息進行數字化處理，劃分類目。頁面訪問信息在進行歸一化處理后，也使用K均值聚類算法進行類目劃分。

3.4 數據挖掘學習行為分析

平臺采用樸素貝葉斯算法作為數據挖掘的主要算法。通過對數據預處理后的九類特征數據集進行先驗概率與條件概率的計算建模，來進行用戶的分類。

在經過K均值聚類算法離散化后，原有包含連續型數據的九類特征數據模型，全部轉化離散型數據模型，通過計算每一類特征中每一簇類出現的次數，即可獲得九類特征數據的先驗概率，而通過計算在指定用戶類別下的某類特征數據中每一簇類的出現次數，即可獲得該類特征數據在指定用戶類別下的條件概率。通過對全部特征數據集的計算，完成樸素貝葉斯模型的建立。

樸素貝葉斯分類：

（1）設X={A1，A2，A3，…，Am}為一個待分類項，每個A為X的一個特征；

（2）有類別集合Y={C1，C2，C3，…，Cn}；

（3）分別計算P（C1|X），P（C2|X），P（C3|X），…，P（Cn|X）；

（4）若P（Ck|X）=max{P（C1|X），P（C2|X），P（C3|X），…，P（Cn|X）}，則X∈Ck。

平臺將成績數據作為打標數據，通過不同成績區段，將所有用戶區分為五類用戶，對于新用戶即新個體而言，在獲得足夠的數據以進行K均值聚類以后，即可通過其表現出的九類特征數據來進行用戶類別的預測評估。

樸素貝葉斯算法中，對于概率的計算存在著獨立事件假設，而在現實生活中往往不是如此。學生的各類學習行為之間往往存在著關聯性，同時，各類數據對于學生學習效果的影響并不相同，因此，在不對樸素貝葉斯算法進行改良的情況下，難以做出最為準確的評估，并且由于學生學習行為關聯性的存在，在數據集較小的情況下，難以計算得出最準確的樸素貝葉斯模型。因此，需要在計算的過程中，對樸素貝葉斯模型進行加權處理，對于不同影響力的特征數據賦予不同的權重值，并且需要進行較長時間的樣本訓練，才能提高模型的準確率[12-14]。初始的權重值采用現有學習行為分析研究中的部分結論，后在真實數據的訓練過程中，通過用戶反饋及預測準確率雙向調節各類數據權重值，以提高模型準確率[1-4]。

4 實驗及分析

在模擬數據試驗中，對九類特征數據，模擬生成共計7380條數據，通過參考現有文獻及資料，對不同特征采取不同概率分布，見表1。

將模擬數據經數據可視化處理后，見圖2，此為在線時長的柱狀圖，其x軸表示在線時長，y軸表示該單位在線時長的人數，顯而易見其符合N（36000，21000）的概率分布。

在聚類測試中對不同數據源采用不同k值選取，經手肘法測試后，生成的最佳k值，見表2。

將模擬數據經數據可視化處理后，見圖3，此為在線時長的聚類質心分布圖，由于是一維數據，所以其x軸與y軸均為在線時長，三個質心分別落在19000，40000，63000左右的位置，測試用算法并未設置最大迭代次數，因此此為最佳質心位置選取，圖4，此為聚類效果圖，x軸表示劃分類別，分別為0，1，2三類，y軸表示在線時長，結合圖2在線時長統計圖觀測，其聚類效果良好，每個類目人數分布合理。

在成績分段上，首先將成績百分化后，低于55分為一類，55-68為一類，68-79為一類，79-88為一類，高于88為一類，共計五類。將九類特征模擬數據中的前80%作為訓練樣本，剩余20%作為測試樣本，測試樸素貝葉斯分類器準確率，最終于源數據類別相符占62%，即在模擬數據實驗中，該分類器能達到62%的準確率。

5 結論及展望

在網絡教學平臺中，K均值聚類算法和樸素貝葉斯分類器的使用具有可行性，但由于網絡教學平臺中能獲取的特征具有局限性，并且當前算法并未對特征重要性進行加權處理，且各特征之間有著不可忽視的關聯性，因此在模擬數據下，達到了62%的準確率足以體現該分類器在實際應用中的可行性。當從真實網絡教學環境中獲取到大量數據后，不僅僅能夠對模型進行修正，同樣可以對算法進行改良，優化，這是為今后探索數據挖掘算法在網絡教學之中的應用做準備。對于該算法在在線學習平臺中的進一步開發，可以從對數據的加權處理以及對更科學的特征值選取兩方面入手。隨著越來越多的用戶群體加入，優質的網絡教學也將被更多人接受認可，網絡教學的意義與價值都將被放大，成熟的數據挖掘體系也將被建立。但在發展過程中，一定會存在著諸多問題，一步步優化改良是作為開發者不可或缺的素質。對于網絡教學平臺中用戶行為特征值選取，建立完備的預測體系與個性化推薦體系，深入了解用戶需求是接下來要面對的問題也是主要研究方向，同時，優化“教”與“學”之間的雙向反饋也是極為重要的研究任務。

參考文獻：

[1]蔣卓軒，張巖，李曉明.基于MOOC數據的學習行為分析與預測[J].計算機研究與發展，2015，52（3）：614-628.

[2]李曼麗，徐舜平，孫夢嫽.MOOC學習者課程學習行為分析——以“電路原理”課程為例[J].開放教育研究，2015，21（2）：63-69.

[3]胡藝齡，顧小清，趙春.在線學習行為分析建模及挖掘[J].開放教育研究，2014，20（2）：102-110.

[4]柴艷妹，雷陳芳.基于數據挖掘技術的在線學習行為研究綜述[J].計算機應用研究，2018（5）.

[5]劉瓊.在線學習系統的數據挖掘研究[D].武漢理工大學，2010.

[6]徐鵬，王以寧，劉艷華，等.大數據視角分析學習變革——美國《通過教育數據挖掘和學習分析促進教與學》報告解讀及啟示[J].遠程教育雜志，2013（6）：11-17.

[7]金勇進.缺失數據的插補調整[J].數理統計與管理，2001，20（6）：47-53.

[8]袁方，周志勇，宋鑫.初始聚類中心優化的k-means算法[J].計算機工程，2007，33（3）：65-66.

[9]楊善林，李永森，胡笑旋，等.K-means算法中的k值優化問題研究[J].系統工程理論與實踐，2006，26（2）：97-101.

[10]袁方，孟增輝，于戈.對k-means聚類算法的改進[J].計算機工程與應用，2004，40（36）：177-178.

[11]Hartigan J A，Wong M A.Algorithm AS 136：A K-Means Clustering Algorithm[J].Journal of the Royal Statistical Society，1979，28（1）：100-108.

[12]程克非，張聰.基于特征加權的樸素貝葉斯分類器[J].計算機仿真，2006，23（10）：92-94.

[13]范金金，劉鵬.樸素貝葉斯分類器的獨立性假設研究[J].計算機工程與應用，2008，44（34）：139-141.

[14]趙文濤，孟令軍，趙好好，等.樸素貝葉斯算法的改進與應用[J].測控技術，2016，35（2）：143-147.

[15]秦鋒，任詩流，程澤凱，等.基于屬性加權的樸素貝葉斯分類算法[J].計算機工程與應用，2008，44（6）：107-109.

[16]余芳，姜云飛.一種基于樸素貝葉斯分類的特征選擇方法[J].中山大學學報（自然科學版），2004，43（5）：118-120.

【通聯編輯：王力】