摘要:現如今,各高校招生計劃不斷擴大,招生的辦法也越來越多樣,各地區高校之間招生競爭也越來越激烈。為了保證生源數量和質量,高校把招生前的宣傳工作作為吸引生源的主要方法,這就需要高校在網絡高速發展的今天,以大數據為依托。首先定位生源對象,再結合云計算技術中的計算模型和框架來分析高校過去年份招收的生源對象情況,可以利用并行隨機森林來預測招生的策略,這種方法在數據的采集上要比一般的預測樹更加優越。
關鍵詞:大數據;高校招生;策略預測
在高校招生信息多元化、生源招生日趨激烈、計算機技術高速發展的今天,想要確定一個準確適宜的招生策略,需要大量數據的整合與支持,但是當今所能參考的信息有一個數量龐大的數據庫,統稱為招生信息大數據,且這些數據已經不足以滿足日益增長的信息需求,這就需要對高校招生進行策略預測,在眾多專業學者的研究下,我國總結提出了高校招生策略的預測方法,本文就通過Hadoop平臺來分析隨機森林算法這一有效利用方法。
在云計算的所有應用技術中,Hadoop是最準確最先進的技術,是管理大數據和實現數據并行處理的最主要技術。它是一個開源式軟件構架,它的焦點內容是分布式文件系統和并行式計算模型。
根據云計算技術的構造和數據處理的具體工具,再利用高校實際招生的數據資料,按照以保存、分析、計算為主的模式來創建高校招生數據云平臺,其中包括數據的采集、保存、整理計算以及再應用等幾個系統,它是Hadoop技術的具體體現形式,通過建立大數據存儲系統和內存并行計算技術,共同組成數據分析計算系統,能夠迅速又合理地對高校招生數據進行計算與評估。
該系統主要把高校的招生數目、學生畢業分數、專業分類等所有來源不盡相同、數據種類不一、模態也完全不同的招生數據作為數據的子集,構成了大量的異構數據。再通過數據整合技術,把這些數據移動到Hadoop的集群中,把所有數據進行統一的存檔與分類管理。
數據倉庫中的所有數據資料都存儲于Hadoop的集群當中。它首先要對搜集到的所有高校往年的招生數據進行原始數據的階段處理,包括清理、抽取、整合等環節,待把這些預處理工作完成后,再把數據分門別類提取到數據倉庫,此過程能夠進一步保證數據倉庫里的所有數據都是分類明確的全局信息。
云平臺主要運用并行化計算模型MapReduce對招生數據進行挖掘并合理分析,它能夠為使用者展示出大量設計性強的并行計算軟件結構,能夠在集群中利用計算任務將數據自動分類再把集群中的所有數據資源完成自動任務分配,而且還可以自動完成監控任務,最后再把集群中的所有計算結果統一收集起來進行存儲。所以,此種計算模型把數據的計算與存儲、數據的通信、數據的容錯率等這些操作困難的細枝末節全部集中在軟件上解決,大大減輕了軟件的開發困難,提高了用戶的辦公效率。緊接著,另一個并行化計算模型Spark再對龐大的數據進行迭代式計算,它主要是以內存集群和Hadoop為基礎再經過改良演變而成的集群計算系統。在這其中,所有運行過的中間數據都統一在內存中進行存檔處理,這對于迭代式計算方法完成的更好具有很大的用處。
云服務計算平臺中提到:用戶應用就要為用戶提供優質服務,并以應用即為服務的原則作為支撐,數據應用系統在實踐中主要體現在為高校招生預測提供優質的服務,主要有:利用文件夾的方法為各個地區的高校招生計劃發送數據一覽表、為高校專業分類提供建議、招收學生所在地選取、招生宣傳攻略等眾多應用服務。
在當前大數據的運用階段,主要運用決策樹等不同計算預測進行分析整理,其中決策樹這一方法近些年來得到了細致分析與研究,且應用效果也絕佳。隨之演變出來的隨機森林預測計算方法,綜合了不同分類的回歸樹進行集中分類預測計算,為隨機森林算法做到并行化數據提供了重要條件。每當輸入一個樣本數據,不同的決策樹會產生很多個計算結果,再通過軟件內部投票形式對所有計算結果進行集中分類得出結論。隨機森林的最大優點就是使并行化實現更加便捷,它集中了決策樹的所有優點,使計算效率提高了很多倍,更增強了算法對數據整理的獨特處理能力。
多個決策樹的集合為隨機森林算法的應用實現提供了前提條件。與此同時,袋裝算法和隨機子空間思想也為它提供了具體的理論基礎。其中,袋裝算法主要通過概率分布的原理對數據進行集中抽樣并放回,在進行數據抽樣時,設定有三分之一的數據不可被抽到,這些數據無法進行數據計算訓練,剩余的部分主要是為數據的泛化能力做進一步實驗使用。袋裝算法能夠使隨機森林算法并行完成計算全過程。而隨機子空間思想則是指在決策樹進行不同節點的各個屬性抽樣時,能夠在不被其他因素的影響下把所需要的樣本快速提煉出來,過程非常隨機化,所以數據可以同時并行地被抽取,從而讓幾個決策樹一起生成。這兩者使隨機森林算法同時進行計算生成,且預測更加準確、迅速,對于數據的處理能力非常強大。
在大數據研究的背景下,通過國內外研究學者的實驗結果可以得出,對于高校招生的大量數據,通過Hadoop并行式隨機森林算法模型來對這些數據進行分類整理計算,能夠令數據分析速度和大數據處理能力迅速提高,預測性也更強,能夠對高校招生策略進行準確預測。
參考文獻:
[1]于春,柳柳,徐曉麗.在讀大學生在高校招生宣傳體系中的獨特優勢及策略研究——以南京農業大學大學生回訪母校為例[J].教育教學論壇,2020(17):35-36.
[2]唐玉生.基于考生反饋的高校招生宣傳策略研究[J].湖南科技大學學報(社會科學版),2020,23(02):164-169.
[3]王金超,李佳思,曹建民.高校大類招生模式實踐運行中存在的問題及其優化策略[J].輕紡工業與技術,2020,49(02):102-103.
[4]蔡何智.高職院校招生工作的創新策略探討[J].創新創業理論研究與實踐,2019,2(17):168-169.
朱莉(1976.10.23),女,漢族,江蘇省明達職業技術學院,招生就業處,郵編224300,研究方向:高校招生工作和行政管理工作。