摘 要:根據教育部十三五規劃綱要文件,各高校需要重新制定未來五年發展計劃以適應高校信息化的要求。因此,需要利用大數據手段,深入探討高校教學方法,提高教學質量。當前,大數據技術的應用場景逐漸運用在教學管理中,其中,全面調整課程結構,優化各專業當前教學課程的設定,分析課程相關性和聯系性是高校提高教學質量,實現教學課程層次化中最為迫切需要解決的問題。為了解高校開設課程的相關性,改進教學質量,擬利用Apriori優化算法和大規模并行處理技術對學生成績進行課程相關性分析。
關鍵詞:大規模并行處理;Apriori優化算法;學生成績;課程相關性
中圖分類號:G642;TP311.13-4 文獻標識碼:A 文章編號:2096-4706(2019)03-0076-03
Research on Curriculum Relevance Analysis Based on Big Data Technology
ZHOU Yongta
(Guangdong Nanhua Vocational College of Industry and Commerence,Educational Technology and Information Center,
Guangzhou 510507,China)
Abstract:According to the 13th Five-Year Plan outline document of the Ministry of Education,colleges and universities need to redesign their development plans for the next five years to meet the requirements of University informatization. Therefore,it is necessary to make use of big data to probe into the teaching methods in Colleges and universities in order to improve the teaching quality. At present,the application scenario of big data technology is gradually applied in teaching management. Among them,adjusting the curriculum structure comprehensively,optimizing the current curriculum settings of various specialties,and analyzing the relevance of the curriculum are the most urgent problems to be solved in order to improve the teaching quality and realize the hierarchy of the teaching curriculum in colleges and universities. In order to understand the relevance of courses offered in colleges and universities and improve the quality of teaching,this paper intends to use Apriori optimization algorithm and large-scale parallel processing technology to analyze the curriculum relevance of students’achievements.
Keywords:large-scale parallel processing;Apriori optimization algorithm;student performance;curriculum relevance
0 引 言
隨著大規模并行計算技術的不斷發展,使用數據庫進行數據分析已不能適應數據規模的要求,需要使用新一代企業級數據倉庫開展更為復雜的數據分析工作。隨著機器學習等技術的不斷發展,大量優秀的機器學習算法會應用到教學管理上。當前,學校對學生學習情況的分析僅限于基本統計上,他們會使用傳統的數據統計方法,如平均分、方差、標準差等衡量一個學生的學習情況,這種基本的統計方法僅僅能了解學生總體水平,不能針對某一個學生,做出詳細的分析,這對高校的教育改革來說,是一個前所未有的挑戰[1]。本研究將詳細探討如何利用ETL工具Kettle將存儲在Oracle數據庫的學生成績數據導入到大規模并行數據倉庫Greenplum中,并利用大規模并行處理技術,將學生成績數據進行分布式計算,最后利用數據挖掘工具Madlib,結合數據挖掘Apriori優化算法,研究如何實現對學生各門課的成績進行分析,實現公共課成績對專業基礎課成績的影響、專業基礎課成績對專業核心課成績的影響、專業核心課成績對專業核心課成績的影響三個業務場景的分析。
1 解決關鍵問題
在傳統的方法中,學校僅能夠評估學生在各個科目中的掌握情況,但在上某一門課的時候,缺乏對學生前導課程掌握情況的了解,因此,不便做出合理的教學計劃,導致基礎較為薄弱的學生無法跟上課堂的節奏,優秀學生的知識量不夠飽滿,導致后進生越來越弱,優秀生無法得到更大的提高[2]。為了解決這個問題,各高校利用大數據的手段,深入探討高校的教學方法,提高教學質量。當前,大數據技術的應用場景逐漸運用在教學管理中,其中,全面調整課程結構,優化各專業當前教學課程的設定,分析出課程的相關性和聯系性,是高校提高教學質量,實現教學課程層次化中最為迫切需要解決的問題。針對高校的人才培養體系,人才培養方案主要分為公共課、專業基礎課、專業核心課、專業實踐課等四種不同的課程,為了了解各課程在教學中的相關度,了解學生前導課程的學習質量,需要對這幾種課程進行相關性分析,從而進一步提高教學質量,幫助教師改進教學內容和方法。在并行化后采取不包含任何候選k項集的事務不可能包含任何k項頻繁集方法,在數據庫掃描過程中可以將這些事務進行標記,從而減少需要掃描的事務數目,提高挖掘效率。
本研究主要利用大規模并行處理技術進行復雜數據查詢,通過優化后的Apriori算法了解公共課成績對專業基礎課成績的影響、專業基礎課成績對專業核心課成績的影響、專業核心課成績對專業核心課成績的影響,讓教師在基礎課、專業基礎課、專業核心課等課程的設定上進行合理評估,并得到課程與課程間的聯系,從而調整教學方法和內容。
2 關鍵技術實現
利用ETL工具Kettle將存儲在Oracle數據庫的學生成績數據導入到大規模并行數據倉庫Greenplum中,并利用大規模并行處理技術,將學生成績數據進行分布式計算,最后利用數據挖掘工具Madlib,結合優化后的Apriori算法,研究如何實現學生各門課的成績進行分析,實現公共課成績對專業基礎課成績的影響、專業基礎課成績對專業核心課成績的影響、專業核心課成績對專業核心課成績的影響三個業務場景的分析。
大數據智能分析會創建多個DB進程來處理學生成績數據的查詢。在Master上的稱為執行分發器,執行分發器負責創建、分發查詢計劃,匯總呈現最終結果。在Instance上,處理進程被稱為查詢執行器,查詢執行器負責完成自身部分的處理工作以及與其他處理進程之間交換中間結果。在進行課程相關性分析的時候,查詢計劃的每個處理部分都至少涉及一個處理工作,執行進程只處理屬于自己部分的工作。在查詢執行期間,每個Instance會并行地執行一系列的處理工作。同一部分相關的處理工作稱為簇。在一部分處理完成后,數據將從當前處理向上傳遞,直到查詢計劃完成。圖1顯示查詢處理如何在Master和2個Instance之間被逐步執行的。這真正做到數據的分布式查詢,提高了復雜查詢的查詢時間。
使用ETL工具Kettle將Oracle的學生成績數據導入到大規模并行倉庫中,在導入過程中,可以通過改變開始復制的數量、緩存利用、添加數據庫索引、修改JVM參數等方式改進Kettle的性能,并通過實時計算系統實施將數據導入大規模并行處理倉庫。恒華數據實時采集系統是一個面向流的、實時的數據ETL平臺;通過設計和實現一個類SQL、可擴展的流運算系統,能為實時數據處理提供基礎設施和數據供給。它由實時導入模塊、實時處理模塊、實時探索模塊三個模塊組成,實時導入模塊數據清洗、歸并、結構化從pipe系統導入的數據并映射成流。實時處理模塊負責執行流算子,通過應用流類SQL算子,可以生成一個或多個邏輯流;每個邏輯流都可被下游零個或多個數據使用方訂閱。實時探索模塊用于進行數據消費,通過改進ETL工具的使用,能迅速將基于Oracle數據庫的OLTP數據轉換成基于大規模并行處理技術的OLAP數據,提升了學生成績數據的分析能力。
數據導入到大規模并行倉庫后,需要對學生成績進行課程相關性分析。關聯性分析所需用到的算法是Apriori。Apriori算法是一種挖掘關聯規則的頻繁項集算法,其核心思想是通過候選集生成和情節的向下封閉檢測兩個階段來挖掘頻繁項集。在高校管理中,根據挖掘規則可以有效地輔助學校管理學生成績,并對成績進行相關性分析。將數據庫的掃描過程實現并行化后,而數據庫掃描是Apriori算法的主要瓶頸之一。在主程序產生候選項集的過程中應用先驗剪枝,對候選項集的數量產生限制作用。此外進一步采用事務縮減的思想來減少數據庫事務的掃描次數。事務縮減思想同樣基于頻繁項集的一種性質即:不包含任何k-1項頻繁集的事務不可能包含k項頻繁集,因此在數據庫掃描過程中可以將這些事務進行標記,從而減少需要掃描的事務數目,提高挖掘效率。而文中利用了與此相似的另外一種性質即:不包含任何候選k項集的事務不可能包含任何k項頻繁集。
基于事務縮減的算法改進策略需要解決的第一個問題就是如何唯一地標識每一條事務記錄。在HDFS中,每個文件都會以64MB的塊為單位進行存儲,每個塊都有一個唯一的URL。此外,在MapReduce執行過程中,每個Mapper都需要單獨處理一個split(split與HDFS中的block是相對應的),采用按行讀入事務記錄的方式時,key值為該行記錄在文件中的偏移字節數,對于該記錄而言,此key值可以作為其在該split中的唯一標識。這樣,由split的URL加該事務記錄的key值便可以將其唯一地標識出來。按照該策略,改進的重點就在Mapper的執行邏輯中。即Mapper首先需要獲取split的URL,存入Mapper中的一個成員變量。同時根據split的URL,根據約定的路徑找到存儲其剔除列表的文件,并將剔除列表讀入一個HashSet中。map函數對候選項集計數時,如果發現該條事務不包含任何候選項集,則將其加入最新的剔除列表。最后在Mapper的cleanup函數中將新的剔除列表附加到剔除文件中,以供下一次掃描時使用。隨著挖掘的不斷進行,剔除的事務量會不斷增多,挖掘效率的提升也更加明顯。
4 結 論
使用優化之后的Apriori算法對公共課成績對專業基礎課成績的影響、專業基礎課成績對專業核心課成績的影響、專業核心課成績對專業核心課成績的影響這三個專題進行分析,擺脫傳統成績分析中只有平均分、方差、標準差等統計方式,深入洞悉課程間的關系,為高校提供更細化的教學數據,讓教師更好地調整教學方法,實現教學質量的提高。
參考文獻:
[1] 廖大強,鄒杜,印鑒.一種基于優先級的網格調度算法 [J].計算機工程,2014,40(10):11-16.
[2] 廖大強.面向多目標的云計算資源調度算法 [J].計算機系統應用,2016,25(2):180-189.
作者簡介:周永塔(1981.12-),男,漢族,廣東汕尾人,本科,碩士,信息系統項目管理師,研究方向:大數據分析。