張雙祥



摘 ?要: 針對云計算環境下信息化教學資源的云存儲和個性化推薦問題,提出一種基于分布式文件系統(HDFS)和用戶興趣的教學信息化資源管理方法。該方法采用Hadoop平臺的HDFS技術來解決網絡教學資源的云端存儲問題,并對相應的HDFS云存儲架構進行分析。其中,教學資源推薦功能模塊采用LDA用戶興趣主題挖掘模型,并引入學生評分矩陣產生學生?課程屬性偏好相似度,提升推薦的質量和準確度。在Hadoop 2.2.0平臺上的實例仿真結果驗證了提出方法的可行性。此外,相比于基于標準關聯規則的推薦方法,提出的挖掘推薦方法表現出更高的準確性。
關鍵詞: 教育信息化; Hadoop; HDFS; LDA; 用戶興趣模型; 推薦服務; 云存儲
中圖分類號: TN99?34; TP393 ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)11?0087?03
Abstract: In allusion to the problems of cloud storage and personalized recommendation of information teaching resources in cloud computing environment, a teaching information resource management method based on Hadoop distributed file system (HDFS) and user interest is proposed. The method uses the HDFS technology of the Hadoop platform to solve the cloud storage problem of the network teaching resources, and analyzes the corresponding HDFS cloud storage architecture. The LDA user interest topic mining model is adopted in teaching resource recommendation function module, and a student scoring matrix is introduced to generate the "student?course attribute" preference similarity, so as to improve the quality and accuracy of the recommendation. The feasibility of the proposed method was verified by simulation results obtained in Hadoop 2.2.0 platform. In addition, the proposed mining recommendation method has higher accuracy than recommendation method based on standard association rules.
Keywords: educational informationization; Hadoop; HDFS; LDA; user interest model; recommendation service; cloud storage
0 ?引 ?言
互聯網和4G技術的快速發展和廣泛普及,使得人們隨時隨地的上網成為可能。上網的便捷改變了人們生活和工作的方式,也為教育教學活動帶來了新的途徑和手段。計算機網絡技術和多媒體技術相結合,產生了一種新的信息化教學形式,即遠程教育(遠程教學)。遠程教育在世界范圍內得到了許多教育機構的關注,并花費大量的人力資源來建設自己的遠程教育資源[1?3],例如,大型開放式網絡課程MOOC(Massive Open Online Courses)、網易云課堂等。
隨著在線課程的數量越來越多,教師教學工具也十分多樣,例如Word,PPT教案、音視頻素材、FLASH、Web網頁等,遠程教育資源變得越來越豐富。但是,隨著教學信息化資源的急劇增加,如何對其進行有效共享以便減少存儲空間浪費,如何根據學生的興趣推薦最適合的教學內容,成為目前急需解決的問題[4]。
因此,本文提出采用HDFS來實現教學信息化資源管理,以便根據學生的不同需求提供更準確的教育資源推薦。首先在分布式Hadoop平臺上設計適用于教學資源的HDFS云存儲架構。然后根據學生評分矩陣,利用LDA用戶興趣模型實現個性化教學信息資源推薦,并給出相應的參數估計方法。實例仿真結果表明,相比標準關聯規則Apriori方法,LDA用戶興趣模型具有更高的教學資源推薦準確度,有效提升了學生學習的效率。
1 ?HDFS模式下的網絡教學資源存儲問題
1.1 ?HDFS技術原理分析
由于在數據存儲和分析方面具有較大優勢,Hadoop分布式計算系統成為現代信息教學資源管理方面的主流平臺。目前,分布式Hadoop平臺主要采用大規模并行編程框架,包括HDFS和Map Reduce[5]。HDFS主要負責數據存儲。Map Reduce主要負責并行處理任務。在Hadoop平臺中,常用的HDFS原理如圖1所示。為了實現海量教學資源的整合,以便實現數據共享,提高數據存儲效率,本文采用Hadoop分布式HDFS實現教學信息化資源存儲和處理。

1.2 ?適用于教學資源的HDFS云存儲架構
本文的目標是將復雜的信息化教學資源通過云存儲技術進行整合,形成一個共享的教育云存儲服務。因此,需要設計一個適用于教學信息化資源管理的HDFS云存儲架構,其中存儲層通過HDFS完成數據的分布式存儲,包括各種形式的教學資源(數據源自各個教育機構),例如,動畫、PPT、文本文檔等。
在本文設計的云存儲架構中,教學資源推薦功能模塊運用LDA主題挖掘模型對海量的網絡教學資源進行處理,然后將符合學生興趣的教學資源進行推薦展示,如圖2所示。

2 ?基于LDA用戶興趣模型的教學資源推薦方法
2.1 ?LDA主題挖掘模型
LDA主題挖掘模型作為一種非監督的機器學習方法[4],主要由三層的貝葉斯模型構成。LDA主題模型生成過程如圖3所示。

在圖3中,方框[M]表示項目集合,方框[N]表示項目中主題[z]和關鍵詞[w]的集合,[α]為Dirichlet分布的先驗參數,[β]為被估計的矩陣參數,[θ]為某項目中所有主題的概率分布。
2.2 ?用戶興趣的偏好相似度矩陣
為了收集學生的興趣愛好信息,需要構建學生?課程評分矩陣[R],如表1所示。

本文根據學生對課程屬性的喜好,在傳統的LDA用戶興趣模型推薦算法中加入了“學生?課程屬性”偏好相似度。通過有效結合以上隱藏的信息,可以有效提升推薦的質量和準確度。
3 ?仿真結果
為了對本文提出的方法進行分析和驗證,在相同的測試數據中,分別對本文方法、基于標準關聯規則Apriori的推薦方法進行對比實驗。實驗數據源來自32所公立教育單位,主要是各大專本科院校。仿真實驗測試的教學信息化資源包括近1.3 TB的數字化資源,其中,Word資源格式占30%,PPT教案資源格式占35%,音視頻素材資源格式占10%,FLASH資源格式占20%,Web網頁資源格式占5%。課程共計237門。本文采用的評估指標為平均絕對誤差(Mean Absolute Error,MAE)[6]。
實驗采用分布式Hadoop 2.2.0平臺,包括10臺計算節點,具有Intel i7 處理器,CPU主頻為 3.2 GHz,8 GB 內存。JDK版本為[7]1.8.0。
兩種不同方法的MAE結果如圖4所示。從圖4中可以看出,隨著課程數量的增加,兩種方法的推薦平均絕對誤差均不斷降低。其中,標準關聯規則Apriori算法的下降速度較快,本文提出方法的下降速度次之,但是兩者的下降速度相差很小。此外,在相同課程數量條件下,相比標準關聯規則Apriori算法,本文提出算法的MAE更小。也就是說,本文提出算法具有更高的精準度,有效提高了在線課程資源的管理效率。

4 ?結 ?語
本文提出一種基于分布式HDFS和LDA用戶興趣模型的教學信息化資源管理方法。通過Hadoop 2.2.0平臺上的實例測試得出如下結論:基于HDFS架構的網絡教學資源云存儲管理是切實可行的;相比于標準關聯規則Apriori方法,基于LDA用戶興趣模型的推薦方法在HDFS模型下表現出更高的精準度,課程資源推薦效果更好,具有一定的參考價值。
參考文獻
[1] BOZKURT A, AKGUNOZBEK E, YILMAZEL S, et al. Trends in distance education research: a content analysis of journals 2009—2013 [J]. International review of research in open & distributed learning, 2015, 16(1): 330?363.
[2] EILEEN Scanlon, PATRICK McAndrew, TIM O′Shea. Desig?ning for educational technology to enhance the experience of learners in distance education: how open educational resources, learning design and MOOCs are influencing learning [J]. Journal of interactive media in education, 2015, 2015(1): 9.
[3] DE HART K, CHETTY Y, ARCHER E. Uptake of OER by staff in distance education in South Africa [J]. International review of research in open & distance learning, 2015, 16(2): 18?45.
[4] CLEGG J. Internationalisation in online distance learning postgraduate education: a case study on student views on learning alongside students from other countries [J]. Innovations in education & teaching international, 2015, 52(2): 137?147.
[5] ADDAIR T G, DODGE D A, WALTER W R, et al. Large?scale seismic signal analysis with Hadoop [J]. Computers & geosciences, 2014, 66(2): 145?154.
[6] 史慶偉,從世源.基于mRMR和LDA主題模型的文本分類研究[J].計算機工程與應用,2016,52(5):127?133.
SHI Qingwei, CONG Shiyuan. Text classification based on mRMR and LDA topic model [J]. Computer engineering and applications, 2016, 52(5): 127?133.
[7] KHAN M, JIN Y, LI M, et al. Hadoop performance modeling for job estimation and resource provisioning [J]. IEEE transactions on parallel & distributed systems, 2016, 27(2): 441?454.
[8] PAPANIKOLAOU Y, FOULDS J R, RUBIN T N, et al. Dense distributions from sparse samples: improved Gibbs sampling parameter estimators for LDA [J]. Statistics, 2017, 18(62): 1?58.