劉晉澤,肖楓濤,王伊



[摘? ? ? ? ? ?要]? 在MOOC教育蓬勃發展的背景下,軍隊在互聯網上開設了軍職在線平臺,并引進了學堂在線等知名地方學習平臺中的大量優質MOOC。為了更好地進行管理、維護,如何從這些引進的MOOC中找出相似的資源并歸類,成為當前軍職在線的資源運營工作所面臨的問題。鑒于此,實現了一種基于協同過濾的MOOC相似資源聚類算法,并基于軍職在線中的用戶真實學習數據開展了實驗,結果表明,該算法可有效發現軍職在線中的相似MOOC的資源并將其聚類,為平臺資源運營工作開展提供了便利。
[關? ? 鍵? ?詞]? 協同過濾;相似聚類;MOOC
[中圖分類號]? G642? ? ? ? ? ? ? ? ? ? [文獻標志碼]? A? ? ? ? ? ? ? ? ? [文章編號]? 2096-0603(2021)50-0140-02
一、引言
國內在線教育從2013年以來發展迅速,MOOC(Massive Open Online Courses,大規模開放在線課程)逐漸成為一種流行的學習模式[1],學堂在線、中國大學MOOC、智慧樹等一系列MOOC學習平臺應運而生[2]。在此背景下,我軍在互聯網上開設了軍職在線平臺,為部隊官兵和社會人員提供學習服務。根據相關政策,軍職在線、同學堂在線、中國大學MOOC等地方學習平臺開展了深度合作,引進了這些平臺中的大量優質MOOC,學習資源也得到迅速擴充。與此同時,為了更好地進行管理、維護,如何從這些來自不同平臺的MOOC中找出相似的資源并歸類,成為當前軍職在線的資源運營工作所面臨的問題。鑒于此,本文實現了一種基于協同過濾的MOOC相似資源聚類算法,旨在提升平臺運營人員對相似MOOC進行歸類的效率。
二、基本概念及研究現狀
聚類是指將一個數據集中的離散點劃分為不同的簇,使同一個簇中的數據點具有較高的相似性,而不同的簇之間的點具有較低的相似性[3]。聚類和分類最大不同之處在于聚類所要求劃分的類是未知的,聚類是觀察式學習,而不是示例式學習[4]。從機器學習的角度來講,聚類是搜索簇的無監督學習過程,它不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數據對象則由預先設置的類別標記。對于軍職在線的資源運營人員而言,他們事先不知道平臺上的MOOC應該被劃分為哪些類別,因此是一個典型的聚類過程。
聚類分析的常用方法是相似性度量,然而相似是比較主觀的概念,在實際計算中往往采用距離這一量化的數值來衡量相似性。德國數學家閔可夫斯基提出了一組用于衡量N維時空中的兩點之間間隔的定義,被稱為閔可夫斯基距離,其在一維空間和二維空間的特例分別又被稱為曼哈頓距離和歐氏距離[5]。印度統計學家馬哈拉諾比斯提出了馬氏距離,它與歐氏距離不同的是考慮到了各種特性之間的聯系,并且是尺度無關的[6]。余弦相似度首先將數據點映射為向量,再通過計算任意兩個向量的夾角余弦值來衡量它們之間的距離,進而評估相似度[7]。英國數學家皮爾遜提出了相關系數,它是研究變量線性相關程度的統計指標,也用于反映變量之間的距離[8]。俄羅斯數學家萊文斯坦提出了萊文斯坦距離,它是指兩個文本字符串之間,由一個轉成另一個所需的最少編輯操作次數[9]。
如果將一門MOOC映射為一條向量,其屬性包含標題、簡介、教師、所屬院校等,都是文本類字段,然而,對于MOOC來說,難以通過簡單的文本差異比對來衡量其相似性。因此,盡管研究者已經提出了很多基于距離度量的相似性量化算法以便于聚類分析,但不適合采用這些方法測算MOOC之間的相似度。
三、算法介紹
協同過濾是一種經典的推薦算法,最早被用于網絡新聞過濾[10],與基于距離度量的相似性量化不同,協同過濾算法,尤其是基于物品的協同過濾算法,不是根據物品自身的內容屬性來計算物品之間的相似度,而是通過用戶對物品的行為記錄來量化物品之間的相似性。本文基于MOOC數據類型的實際情況,通過分析用戶對MOOC的學習行為以求解MOOC之間的相似性,進而進行相似資源的聚類,由此實現了一種基于協同過濾的MOOC相似資源聚類算法,其總體流程如圖1所示。
在算法中,第一步是構建“用戶——MOOC倒排表”,表示每門MOOC被哪些用戶所喜愛,本文規定,如果用戶選擇了某一門MOOC,并且學習進度超過50%,則視為用戶喜愛該門課程,即:
Preferenceu,k=1 Progressu,k ≥ 0.50 Progressu,k < 0.5? 公式(1)
其中,Preference(u,k)表示用戶u對MOOC k的喜愛程度,Progress(u,k)表示用戶u在MOOC k上的學習進度。
第二步是計算MOOC之間的相似度,對于MOOC i和MOOC j,如果喜愛MOOC i的用戶中,有越多的用戶也喜歡MOOC j,則MOOC i和MOOC j的相似度越高,即:
Similarityi,j=■ ? ? 公式(2)
其中,Similarityi,j表示MOOC i和MOOC j之間的相似度,Ni表示喜愛MOOC i的用戶數,Nj表示喜愛MOOC j的用戶數。
然而,當一門MOOC k十分熱門,大部分用戶都喜愛它時,使用公式(2)進行相似度計算會造成所有MOOC都與該門MOOC k相似。為了避免這種情況,可將計算方法改進為公式(3):
Similarityi,j=■ ? ? 公式(3)
第三步是基于第二步的計算結果,填充MOOC相似度矩陣,接著第四步即基于該相似矩陣,利用譜聚類算法對MOOC集合進行聚類。
四、實驗分析
本文基于軍職在線中的用戶真實學習數據開展了實驗,通過分析超過1000萬條用戶的學習行為記錄,將平臺中的8000余門MOOC分成了若干類,再交由資源運營人員進行人工確認。表1列出了部分MOOC聚類的結果,實驗發現,大量用戶同時選修了“隋唐建筑概說”“明清古典園林”“元明城市與建筑”等,這些課程對建筑類專業的用戶大有幫助。“大國航母與艦載機”“我國周邊14個陸地鄰國基本情況介紹”“軍事理論”“孫子兵法中的思維智慧”也經常被一起選修,運營人員將其歸為了國防軍事類課程。此外,還有“貞觀之治”“光武中興”“楚漢之爭”等歷史愛好者喜愛的課程等。運營人員反饋,基于該算法的聚類結果,極大地提升了他們對相似MOOC進行歸類的效率。
五、結語
本文針對軍職在線MOOC數量較多、平臺運營人員難以歸類相似MOOC的問題,實現了一種基于協同過濾的MOOC相似資源聚類算法,并基于平臺的用戶真實學習數據開展了實驗。結果表明,該算法可有效發現軍職在線中的相似MOOC的資源并將其聚類,為平臺資源運營工作開展提供了便利。
參考文獻:
[1]王雪宇,鄒剛,李驍.基于MOOC數據的學習者輟課預測研究[J].現代教育技術,2017,27(6):94-100.
[2]程翥,李貴林,劉海濤.中國高等教育平臺現狀分析[J].高等教育研究學報,2014,37(2):15-19.
[3]白璐,趙鑫,孔鈺婷,等.譜聚類算法研究綜述[J].計算機工程與應用,2021(14):15-26.
[4]李璐萍,趙小兵.基于文本聚類的主題發現方法研究綜述[J].情報探索,2020(11):121-127.
[5]周志華.機器學習[M].北京:清華大學出版社,2016.
[6]黃飛,周軍,盧曉東.基于馬氏距離的一維距離像識別算法仿真[J].計算機仿真,2010,27(3):31-34.
[7]張振亞,王進,程紅梅,等.基于余弦相似度的文本空間索引方法研究[J].計算機科學,2005,32(9):160-163.
[8]何春雄,龍衛江,朱鋒峰.概率論與數理統計[M].北京:高等教育出版社,2012.
[9]Navarro G. A guided tour to approximate string matching[J].ACM computing surveys(CSUR),2001,33(1):31-88.
[10]Resnick P,Iacovou N,Suchak M,et al. Grouplens:An open architecture for collaborative filtering of netnews[A].Proceedings of the 1994 ACM conference on Computer supported cooperative work[C],1994:175-186.
◎編輯 栗國花