基于注意力機制的區域小學入學規模預測

2021-12-17 09:18:08雷建軍

華中師范大學學報(自然科學版) 2021年6期

關鍵詞：模型

陳宇，邢銳，雷建軍

(1.湖北第二師范學院計算機學院，武漢 430205；2.湖北省教育云服務工程技術研究中心，武漢 430205；3.湖北省教育信息化發展中心(湖北省電化教育館)，武漢 430071)

義務教育均衡是我國基礎教育的基本政策，合理的配置教育資源是政府教育管理部門的重要目標.學齡人口是各級教育管理部門對教育資源進行配置的主要依據，而每年小學入學規模的變化是區域內學齡人口波動的重要原因.當前，隨著我國經濟的迅猛發展，城鎮化的進程加速，大量的人口從農村向城鎮和發達城市遷移，也因此在區域間造成了教育資源需求的變化波動.由于，教育資源比如校舍的建設、教師的培養及配置都需要較長的周期.因此，如何適應人口的機械增長變化，科學預測未來區域內小學入學規模的變化趨勢，準確把握區域內教育資源的配置需求，及時對教育資源進行合理配置對提高我國各級教育管理部門的治理能力，促進教育公平，創辦讓人民滿意的教育具有重要意義.

1 入學規模預測方法

目前針對區域內入學規模預測的研究尚少，而入學規模的預測問題是人口預測的一種.因此，對入學規模的預測可參考人口預測的相關研究工作.當前對于人口預測的研究可以分為基于統計的方法和基于機器學習的預測模型.

1.1 基于統計的人口預測模型

現有的人口預測模型大多采用傳統的統計模型，國外最早對人口問題進行定量研究的是英國人口學家 Malthus建立了人口指數增長模型Malthus模型[1]，隨后，荷蘭科學家Verhulst對人口指數增長模型進行了修正，把影響人口增長的社會環境、自然環境等相關因素考慮進去提出了logistic 人口阻滯增長模型[2].Leslie提出了一個能夠綜合考慮多個影響因素的預測模型，即著名的 Leslie 矩陣模型[3]，在人口預測領域得到了廣泛的應用.

近年來，我國有不少學者借鑒了人口預測的研究開展了學齡人口的預測研究工作.李玲等利用CPPS軟件基于人口普查第六次數據，對我國2016—2035年義務教育階段學生規模進行預測[4]；薛耀鋒等采用LESLIE人口模型，以全國第六次人口普查數據模擬預測了2016—2025年的我國學齡人口變化趨勢[5]；周志等針對天津義務教育情況，采用灰色預測模型和線性回歸原理對天津市戶籍學齡人口的規模進行了預測[6].以上學者針對學齡人口預測普遍采用數理統計方法，如灰色預測、CPPS人口預測、Logistic回歸預測以及隊列要素法等.但從已有研究表明，采用灰色模型對人口發展趨勢做預測，通常只能反映出人口的邏輯增長，無法解釋生育率變化及遷移引發的人口規模變動，CPPS人口預測系統中設定的生育率為全國人口普查的全國維度，不適用于省級預測，Logistic模型只適合在短時期內的、較小區域的預測.雖然Leslie矩陣模型，有效解決了上述存在的問題，但Leslie矩陣模型的基本假定是所分年齡組內的人數穩定，但通常情況下分年齡人口數的數據很難獲取，使其很難得到大規模應用.

1.2 基于機器學習的預測模型

隨著人工智能技術的發展，神經網絡模型在求解時間序列預測問題上得到了廣泛的關注.在人口預測的問題上，Folorunso等在其論文中使用了具有反向傳播的前饋人工神經網絡對人口進行了預測[7]，Tang在其論文中證明了采用神經網絡的方法在預測人口方面比Logistic回歸預測模型更有效[8].我國的譚永宏采用神經網絡理論來建立了基于 BP 神經網絡的人口預測模型，較好地表現了人口增長的非線性動力學的特點，其預測結果具有較高的精度[9].Zhan在其論文中使用了LSTM-RNN模型較好的解決了人口時間序列通常較短的問題[10].近年來，在旅游人數預測和交通流量人口預測等特殊場景下，Shi采用了神經網絡預測了某地每年的旅游人數變化，取得了較好的效果[11]，上述模型雖然為預測入學規模提供了思路，但都是基于一個特征的建模預測，沒考慮入學規模在實際中和各地經濟、人口等相關特征的關聯關系，得到的預測結果會存在一些片面性.Berry的研究表明在影響人口變化的因素方面，許多社會和自然因素與人口趨勢相互作用，如人口總量和經濟增長具有較強的相關性[12]，Goldstein的研究得出了區域內生育率與經濟的關系[13].

隨著我國統計數據的逐步完善，各年度學齡人口數、經濟、人口數據逐漸開始累積，本文通過構建包含經濟、人口等相關參量的多元時間序列來避免單一變量預測的局限性，挖掘學齡人口與各地經濟、人口等相關特征和時序關系.與此同時，為了充分利用特征間的關聯和時序間的依賴關系，本文在時間序列模型長短時記憶網絡 (long short-term memory，LSTM)的基礎上引入注意力(ATTENTION)機制.提出了基于ATTENTION-LSTM的小學入學規模預測模型，利用注意力機制對多元時間序列不同特征不同時刻的特征值描述其對待預測指標的權重，提取特征在歷史時間點與待預測指標之間的關系，提高小學入學規模預測模型的精度.

2 問題定義

本文研究的問題可以表示為給定包含n個外部時間序列在t—1時刻的值預測某個目標序列在t時刻的值，通過學習得到它們之間的非線性關系.即：

(1)

式中，y=(y1，y2，…，yT-1)是目標序列，F函數就是準備利用深度學習的函數.

3 基于注意力機制的循環網絡學齡人口預測模型設計

利用多元時間序列對學齡人口進行預測問題，一個重要的挑戰是如何捕捉多變量之間的不同時間步的依賴關系.但是循環神經網絡由于本身結構問題很難捕捉到這種依賴關系，因此，我們引入了注意力機制，同時，由于LSTM在時間序列預測上的良好表現，選擇了LSTM模型作為循環神經網絡單元構建了ATTENTION-LSTM模型對學齡人口進行預測.

3.1 長短時記憶網絡

長短時記憶網絡 (LSTM)是一種特殊的RNN結構，由Schmidhuber教授于1997年提出，在許多時序預測的研究中，LSTM模型都取得了很大的成功，得到了廣泛的應用[14].傳統的循環神經網絡RNN在修正權重的過程中，面臨梯度爆炸或梯度消失的問題.而LSTM對有意義的信息通過引入細胞狀態進行保存，并通過“遺忘門”“更新門”“輸出門”增加或者去除權重到細胞狀態中，從而能夠有效解決梯度爆炸或梯度消失問題.

3.2 注意力機制

注意力機制是利用了人們視覺在處理圖像時，對關注的信息能夠自我增強同時抑制其他無效信息，從而派生出一種從大量信息中自主選擇最關鍵信息的一種信息處理方式，其已在深度學習里的語音識別、自然語言處理和圖像描述等多個領域里取得了良好的效果[15].近年來，隨著其應用的發展也逐漸應用于時間序列處理上.

注意力機制在時間序列上的應用主要由編碼器和解碼器兩部分組成，編碼器負責計算時間序列在某時刻上各特征的注意力權重，權重代表了各特征在某時刻對當前預測指標的重要程度，輸入時間序列的所有特征值權重和為1，以注意力權重對初始輸入的時間序列進行加權產生新的時間序列向量；解碼器利用循環神經網絡等時序分析模型對新的時間序列向量以及預測目標歷史信息進行綜合處理，得到當前的近似輸出，注意力機制模型公式如下：

αt=fattetion(x)，

(2)

ct=αtx，

(3)

(4)

其中，fattetion為權重函數.

3.3 基于注意力機制的輸入序列編碼器

基于上述原理，本文通過采用注意力機制分別學習人口、經濟等相關指標的時間序列中各時間點的特征值對待入學規模的重要程度，以進一步提升待預測入學規模的預測質量.ATTENTION-LSTM模型結構圖如圖1所示.

圖1 ATTENTION-LSTM結構圖Fig.1 Architecture of ATTENTION-LSTM Model

(5)

(6)

(7)

(8)

(9)

(10)

LSTM的細胞狀態和隱藏狀態由下面兩個公式進行更新：

(11)

(12)

其隱藏狀態由下面公式更新：

(13)

編碼器輸出t個時間步的隱藏單元的狀態值.上述式中，Wf、bf、Wi、bi、Wc、bc、Wo、bo分別為遺忘門、輸入門、輸出門和門控單元的權重和偏置.

3.4 基于注意力機制的解碼器

模型同樣使用了LSTM單元進行解碼，為了克服LSTM隨著時間步數的增長而帶來的權重下降的問題，在解碼階段同樣也引入了注意力機制，對于編碼器輸出的單元含有t個時間步的編碼器隱藏狀態進行相應的解碼工作.

(14)

(15)

(16)

以環境變量和目標序列t時刻的值為解碼器的輸入：

(17)

解碼器的三個門的更新公式為：

(18)

(19)

(20)

其細胞狀態由以下公式更新：

(21)

(22)

隱藏細胞的更新公式為：

(23)

預測結果：

(24)

式中，Wy、bw、bv為權重系數和偏置參數.

4 實驗結果與分析

4.1 實驗平臺及數據集說明(預處理)

本文全部數據來源于國家統計局網站(http：//data.stats.gov)，選取了31個省(區、市)的1978—2017年的年度數據構建多元時間序列數據集.其中選取指標普通小學招生數為預測指標，人口出生率、年末常駐人口數、居民消費水平指數為相關序列，反映預測指標小學入學人數與人口、經濟等指標的相關性.

對于多元時間序列數據集通過設置滑動時間窗口大小進行重新劃分，對于缺失數據，取相鄰的兩個數據的平均值填充，所有時間序列的值采用最大-最小歸一化的方法進行預處理，經過預處理所有數據取值范圍在[0，1]之間.

訓練集和測試集的劃分采用截斷法，選取31個省市自治州的1978—2011年的數據作為訓練數據構造訓練數據集，2012—2017年的數據作為驗證數據集.

4.2 評價指標

為了對預測模型進行評價，采用平均絕對誤差(mean absolute errors，MAE)，均方誤差(root mean square error，RMSE)，平均絕對百分比誤差(mean average percentage error，MAPE)三個評價指標來評定預測模型的準確性.

(25)

(26)

(27)

4.3 入學規模預測模型訓練和性能分析

根據前述入學規模預測模型的訓練原理，本文的模型使用python 3.6、tensorflow 2.0、keras實現.tensorflow是谷歌公司開發的一個開源機器學習庫，用于輔助構建和部署機器學習模型.Keras是一個神經網絡API，具有界面友好、模塊化、可擴充的特點，并支持Tensorflow，本文以Tensorflow作為后端.

模型參數由兩部分組成，一部分為普通參數，包括注意力的權重系數、LSTM各隱藏單元的權重系數及全連接層內的連接參數和權重，這部分參數通常用模型通過梯度算法求得最優解，另一部分為超參數，主要包括：

1)訓練迭代次數epoch：模型訓練完整的數據集次數.通常根據經驗所得；

2)訓練塊大小batch＿size：一次輸入模型訓練的樣本個數；

3)訓練學習率learning＿rate：通過調整學習率可調整各權重的超參數，學習率越低，收斂速度越慢，但精度較高，學習率越高，收斂速度越快，但易陷入局部最優解；

4)隱藏層數和神經元個數cells：這兩個參數直接確定整個神經網絡的基本結構，層數越多，神經元越多，參數就越多，模型訓練所花時間就越長.

5)時間窗口寬度windows：通過設置時間窗口寬度限定時間序列的長度.

為了能夠取得較好的超參數，我們采用網格搜索方法對訓練塊大小batchsize、學習率learningrate、時間窗口寬度、隱藏層數和神經元數進行優選.首先，固定訓練迭代次數 epoch=300隨機種子數 seed=1；訓練塊大小batchsize=32等非關鍵參數值，然后，設定三個參數的取值范圍：歷史數據時間窗寬度 windows={4，6，8，10，12}，LSTM 細胞數cells={64，128，192，256}，學習速率learningrate={0.001，0.003，0.005，0.01，0.03，0.05}；以均方根誤差(RMSE)值最小為測試集上預測精度最高，以此進行相關參數優選.實驗記錄入學規模預測模型在不同參數組合下的仿真結果，由于篇幅所限，以下列出學習率learing＿rate為0.001，0.01，0.05的仿真結果.

圖中，顏色較淺代表RMSE越大，圖2中，顏色普遍較淺，說明當學習率為0.01時，RMSE較大.根據圖3和圖4可知，當神經元個數cells較大及時間窗口windows長度偏小時，RMSE值較好，模型精度較高.參數尋優結果中5組最優的參數組合及對應的RMSE如表1所示.

圖2 參數尋優(learning＿rate=0.01)Fig.2 Parameter optimization (learning rate=0.01)

圖3 參數尋優(learning＿rate=0.001)Fig.3 Parameter optimization (learning rate=0.001)

圖4 參數尋優(learning＿rate=0.05)Fig.4 Parameter optimization (learning rate=0.05)

表1 最優參數組合及RMSE對應表Tab.1 Optimal parameter combination and RMSE correspondence table

通過參數優選最后選取的相關參數為windows=8，cell=256，batchsize=32，learning＿rate=0.001．

4.4 對比方法

為了進一步驗證本文的ATTENTION-LSTM模型在提升入學規模預測的有效性，將本文中的模型與傳統基于統計的時序預測算法歷史平均模型(HA)及整合移動平均自回歸模型(ARIMA)及不帶 ATTENTION機制的長短周期記憶網絡LSTM模型進行比較.其中傳統的LSTM模型包括兩層LSTM層以及一個全連接層.HA模型使用三個歷史時間段的入學規模平均值作預測.ARIMA模型通過序列的一階差分進行預處理，根據AIC準則定階P、Q的值分別為3和1.

圖5 給出了四種模型分別對某省市2012—2017年入學規模的預測結果.

圖5 入學規模預測模型比較Fig.5 Comparison of enrollment scale forecasting models

從圖中可知，對于入學規模變化的規律，四種模型都能夠對未來年份的入學規模進行一定的有效預測，但ARIMA模型和HA 模型與真實曲線存在較大偏差；LSTM 模型曲線除某階段效果較差以外，其余預測效果較 HA模型有大幅提升.ATTENTION—LSTM 模型與真實曲線形態最為接近.

四種模型分別在測試集上進行10次實驗后的平均結果如表2所示.

表2 模型測試集結果對比表Tab.2 Comparison of model test set results table

實驗結果表明，ARIMA和HA 模型兩種傳統的統計時序預測模型由于沒有考慮復雜的非線性序列變化規律，主要還是應用于時序平穩的場景，因此，實驗精度相對最差.LSTM模型作為非線性時序預測模型可以通過細胞的狀態來解決時間序列數據的長期依賴問題，保留預測變量變化的長短期變化規律，各項指標對比有所提升，但由于其只利用單個時間序列數據訓練，無法挖掘其他因素如人口、經濟等對區域內入學規模人數的影響.而ATTENTION—LSTM模型與其他模型比較更貼近實際結果，在所有測試集中MAE、MAPE、RMSE三個指標的值均優于其它模型.

5 結束語

小學入學規模預測對我國區域內義務教育工作具有重要意義，傳統基于統計的時序預測方法由于無法描述學齡人口會隨經濟條件造成的人口遷移、生育政策影響等產生不規則的波動關系，難以取得較好的效果.本文利用機器學習，根據學齡人口時間序列的時序特征，結合人口因素、經濟因素等相關時間序列，建立了一種基于Attention-Lstm網絡的區域小學入學規模預測模型，利用Attention機制為不同的輸入特征賦予權重，以突出對小學入學規模預測起到關鍵作用的特征，通過實驗表明本文提出的模型能夠充分挖掘人口、經濟等因素于小學入學規模中規律的信息，具有較好的魯棒性，比傳統的時序預測方法具有更好的準確率，提高了中長期預測的精度，有助于教育管理部門更好的提前進行布局和規劃.