肖琪
(常熟理工學院,常熟215500)
習近平總書記明確提出,堅決打贏脫貧攻堅戰,確保2020 年我國現行標準下農村貧困人口實現脫貧,脫貧縣全部摘帽[1]。在脫貧攻堅戰分層次分類的具體實踐中,其中包括根據貧困地區的人力結構進行不同方式的教育扶貧[2]。教育扶貧領域,高等教育的精準扶貧工作至關重要[3],一直是教育界甚至全社會廣泛關注的問題。為了做好高等教育領域的精準扶貧[4]工作,很多高校都采取了建檔立卡的方式實現精準資助[5],但由于地方工作粗放,存在建檔立卡貧困生識別不清的風險。
目前各高校主要根據教育部文件的相關要求對貧困生進行主觀認定,這種認定方法存在很多主觀因素,影響了評定結果的準確性。近年來,我國學者基于貧困生數據建立相關數學模型如決策樹法[6]、模糊綜合評價法[7]、層次分析法[8]、回歸分析法[3]等,但以上方法各有利弊,如回歸分析法針對線性關系的表達比較有效,而不能準確反映非線性關系。柴政等人[9]采用反向傳播算法的前饋神經網絡模型對高校貧困生等級進行評定,但容易陷入局部極小值。陸桂明等人[10]采用機器學習算法建立了XG-Boost 模型實現對高校貧困生等級的精確分類,但存在查準率較低的問題。
BP(Back Propagation)神經網絡模型是一種非常重要而經典的人工神經網絡,具有高度非線性、自學性和映射性等優點[12],它不需要尋求非線性樣本數據間的顯性關系式和數學模型,便可以準確地逼近刻畫訓練樣本數據規律的最佳函數,從而克服現有客觀認定方法的許多局限性和困難。在實際應用中,BP 神經網絡存在收斂速度慢以及局部極小值等問題。為此,本文采用自適應遺傳算法(Adaptive Genetic Algorithm,AGA)優化BP 神經網絡模型對高校貧困生等級進行精準認定。
本文利用常熟理工學院的學生樣本收集貧困生認定數據。從資助管理系統中導出該校貧困生信息,從中隨機抽取2015 名貧困生個體作為樣本。根據任俊等人[10]采用多粒度粗糙集理論挖掘影響貧困生精準認定的關鍵性因素,從中篩選家庭人口數、父母親職業、家庭收入、家庭住房情況等10 個認定指標作為輸入變量,貧困生等級作為輸出變量,具體如表1 所示。

表1 貧困生認定指標體系
在對模型訓練之前,需要對10 個認定指標進行量化處理。各指標的具體量化標準如表2 所示。如指標A 是指家庭人口數,賦值為1-4。當家庭人口數6 人及以上時,A 為1;當家庭人口數為5 人時,A 為2;當家庭人口數為4 人時,A 為3;當家庭人口數為3 人時,A為4。其他指標按照此方法進行量化。模型的輸出變量是貧困等級,取值為1-3。當學生特別貧困時,貧困等級為1;當學生比較貧困時,貧困等級為2;當學生一般貧困時,貧困等級為3。
根據上述數據處理方法,得到認定指標量化數據如表3 所示。
在進行BP 神經網絡預測之前,為避免原始數據過大造成網絡麻痹,要對原始數據進行歸一化處理。因此本文對表3 中的原始數據規范在[-1,1]之間,這樣可以盡可能地平滑數據,從而消除預測結果的噪聲,歸一化的數據作為模型的訓練樣本。

表2 貧困生認定指標量化標準

表3 認定指標量化數據
遺傳算法(Genetic Algorithm,GA)是一種模擬自然界遺傳機制和生物進化論而成的一種并行隨機搜索最優化方法。遺傳算法優化BP 神經網絡簡稱(GA-BP)是用遺傳算法來優化BP 神經網絡的初始權值和閾值,使優化后的BP 神經網絡能夠更好地預測函數輸出。交叉概率和變異概率是影響遺傳算法性能的關鍵因素,因此,本文采用自適應遺傳算法,通過自適應交叉概率和變異概率來提高遺傳算法的性能。
GA-BP 模型是一種對網絡的權重和閾值進行全局搜索的過程。具體的流程如圖1 所示。

圖1 GA-BP模型流程圖
個體編碼方法為實數編碼,每個個體均為一個實數串,由輸入層與隱含層連接權值、隱含層閾值、隱含層與輸出層連接權值以及輸出層閾值4 部分組成。個體包含了神經網絡全部權值和閾值,在網絡結構已知的情況下,就可以構成一個結構、權值、閾值確定的神經網絡。
根據個體得到BP 神經網絡的初始權值和閾值,用訓練數據訓練BP 神經網絡后預測系統輸出,把預測輸出和期望輸出之間的誤差平方和的倒數作為個體適應度值f,計算公式如式(1)所示。


式中,n 為網絡輸出節點,yi為BP 神經網絡第i 個節點的期望輸出,oi為第i 個節點的預測輸出,E 為誤差平方和,f 為個體適應度值。
2.3.1 選擇操作
遺傳算法選擇操作有輪盤賭法、錦標賽法等多種方法,本文采用輪盤賭法,即基于適應度比例的選擇策略,每個個體i 的選擇概率pi為式(3)所示。

式中,fi為個體i 的適應度值,pi為個體i 的選擇概率。
2.3.2 交叉操作
由于個體采用實數編碼,所以交叉操作方法采用實數交叉法,第k 個染色體ak和第l 個染色體al在j 位的交叉操作方法如式(4)所示。

式中,fmax為群體中最大的適應度值,favg為群體的平均適應度值,f’為要交叉的兩個個體中較大的適應度值。k1,k2為常量系數,分別取(0,1)區間的值。
2.3.3 變異操作
選取第i 個個體的第j 個基因aij進行變異,變異操作方法如式(6-7)所示:

式中,amax為基因aij的上界;amin為基因aij的下界;r2為一個隨機數;g 為當前迭代次數;Gmax為最大進化次數;r 為[0,1]間的隨機數。
自適應變異概率根據式(8)進行計算。

式中,fmax為群體中最大的適應度值,favg為群體的平均適應度值,f 為要交叉的兩個個體中較大的適應度值。k3,k4為常量系數,分別取(0,1)區間的值。
本文對模型準確性的評價方法是根據預測等級與真實貧困等級之間的誤差來判定的。誤差的評估采用相對誤差百分比、均方根誤差和平均絕對誤差作為評估指標,具體計算如式(9-11)所示。

式中,MAPE 為相對誤差百分比,abs 為絕對值,A(i)為模型輸出值,B(i)為實際值,k 為樣本數量。

式中,RMSE 為均方根誤差,k 為表示樣本數量,A(i)為示模型輸出值,B(i)為實際值。

式中,MAE 為示平均絕對誤差,abs 為絕對值,A(i)為模型輸出值,B(i)為實際值,k 為樣本數量。
模型對高校貧困生等級進行預測,分為訓練和驗證兩個部分。從表3 中選取1800 組數據作為訓練樣本,100 組數據作為測試樣本,15 組數據作為驗證樣本。因此,訓練樣本的輸入節點數為10,輸出層節點數均為1,隱含層節點數根據公式(12)計算。

式中,N 為隱含層節點數,m 為輸入節點數,n 為示輸出節點數,a 為[1,10]之間的常數。根據式(12),本文隱含層節點取值范圍為[4,13]。根據隱含層節點的取值范圍,改變數值,
本文利用MATLAB R2016 自帶的人工神經網絡工具箱來完成模型的建立。根據隱含層節點數的取值范圍對貧困生數據進行訓練,不同隱含層節點數的BP 模型預測誤差如表4 所示。從表4 可以看出,誤差最小時對應的隱含層節點數為6。這主要是因為隱含層節點數過少時,不足以反映訓練數據的客觀規律,誤差會出現波動;隱含層節點數數過多時,會增加網絡學習時間,可能出現“過擬合現象”,也會導致誤差較大。因此,隱含層節點數的選取要適中。

表4 不同隱含層節點數BP 模型的預測誤差
輸入層和輸出層的傳遞函數選取宗旨是使預測準確。在網絡結構和權值、閾值相同的情況下,BP 模型預測誤差與隱含層、輸出層的傳遞函數之間的關系如表5 所示。

表5 不同傳遞函數對應的預測誤差
從表5 可以看出,隱含層和輸出層的傳遞函數選擇對BP 模型預測精度有較大影響。其中誤差最小的隱含層和輸出層的傳遞函數分別為purelin、purelin。
根據上述模型參數的確定,相關訓練參數的設置如表6 所示。

表6 訓練參數的設置
根據上述訓練參數,訓練BP 神經網絡。高校貧困生的貧困等級預測值與實際值對比結果如圖2 所示。從圖2 可以看出,BP 模型對貧困生等級的預測結果與實際貧困等級之間偏差比較大。實際值和預測值之間的接近程度一般采用相關系數來表征。對BP 模型的預測結果進行相關性分析,結果如圖3 所示。從圖3可以看出,BP 模型對貧困生的貧困等級預測的相關系數為0.23。
采用GA-BP 模型、AGA-BP 模型分別對網絡進行訓練和測試。GA-BP 模型的測試結果如圖4 所示。從圖4 可以看出,GA-BP 模型對貧困生等級的預測值與實際值的接近程度比BP 模型有所改善。這主要是因為GA-BP 模型克服了局部最小值的缺陷。對貧困生等級的相關度分析如圖5 所示。從圖5 可以看出,GA-BP 模型對貧困生等級預測的相關系數為0.80。與BP 模型的相關系數對比,GA-BP 模型在預測相關性上有所改善。
AGA-BP 模型的測試結果如圖6 所示。從圖6 可以看出,AGA-BP 模型對貧困生等級的預測值與實際值比較一致。這主要是因為AGA-BP 模型相比GABP 模型來說,通過不斷調整交叉概率和變異概率,更能夠平衡局部搜索和全局搜索能力,有效避免了GABP 模型出現早熟收斂問題,從而找到內部最優解。AGA-BP 模型貧困生等級的相關度分析如圖7 所示。從圖7 可以看出,AGA-BP 對貧困生等級預測的相關系數為0.96。與GA-BP 的相關系數對比,優化模型在預測相關性上有了很大改善。
為了驗證遺傳算法優化模型的優越性,利用15 組驗證樣本數據對三個模型的預測精度進行驗證,結果如表7 所示。從表7 可以看出,AGA-BP 模型的預測誤差最小,即預測精度最高。因此,AGA-BP 模型的預測效果比BP 模型、GA-BP 模型的預測效果更好。

表7 各模型的預測誤差對比

圖2 BP模型的預測結果

圖3 BP模型的相關性分析

圖4 GA-BP 模型的預測結果

圖5 GA-BP 模型的相關性分析

圖6 AGA-BP 模型的預測結果

圖7 AGA-BP 模型的相關性分析
自適應遺傳算法優化的BP 神經網絡模型能有效表明具有非線性關系的輸入量與輸出量之間的關聯性。由于高校貧困生等級與其主要認定指標間存在著復雜的非線性關系,篩選家庭成員數、父親職業、母親職業等10 個認定指標作為神經網絡模型的輸入參數,對高校貧困生等級進行預測,對比了BP 模型、GA-BP模型、AGA-BP 模型的相關系數、預測精度。結果表明,采用自適應遺傳算法優化的BP 神經網絡模型預測貧困生等級更接近真實情況,充分說明自適應遺傳算法優化神經網絡對高校貧困生精準認定的有效性。