張玄弋 張瀟霄 徐英超
北京首都國際機場股份有限公司 北京 100000
引言
隨著近幾年不斷發展,機場航班數量以及旅客的吞吐量不斷上升,機場水資源的消耗也隨之同步增長,例如北京首都國際機場,據了解,2016年的首都國際機場實際總用水量就達到了1089.9511萬立方米,用水量驚人,但機場高用水量與水資源利用水平卻存在著矛盾,表現在機場用水規劃不合理,用水浪費,供水方水資源分配不合理,供水水壓過大或過小,本文簡單構思并舉例介紹了機器學習在機場用水方面的應用,討論了建立用水量預測模型的方法,從而有助于實施節水措施,更加合理的分配水資源供給,使機場朝著綠色機場的方向發展,保障機場水資源服務質量。另一方面,機器學習與深度學習技術的快速發展,算法落地實際場景解決實際問題的可行性越來越高;深度學習與機器學習相比,存在明顯的可解釋性弱,維護成本大的問題;本文以機器學習算法為例,深度分析機器學習算法應用于機場用水量預測的問題。
機場的用水量影響因素有很多,主要影響因素就是機場進出港人數以及影響其人流量的各種因素,比如天氣與氣溫、季節、是否節假日、機場當地是否有大型活動、以及政治因素等等。
機器學習的本質是在大數據的基礎上的統計學習,擁有深厚的數學理論支撐。機器學習算法發展至今已經演化出了多種建模角度、幾何或物理意義的算法,例如邏輯回歸算法、支持向量機算法、決策樹算法以及集成學習類的隨機森林、梯度提升決策樹等。
支持向量機(Support Vector Machine, SVM),是一類試圖在多維度、多特征的數據中尋找能夠分隔不同類別數據的超平面的算法,引入核函數的SVM算法對高維數據有很好的適應性,對分類結果也有較強的可解釋性。SVR(支持向量回歸)是SVM中的一個重要分支,多用來解決回歸問題,回歸通俗意義上講就是尋找一堆數據的內在關系,不論這堆數據由幾種特征值構成,回歸結果得到一個超平面又或是一個函數,使所有的樣本點距離這個超平面或者函數的距離最小。傳統回歸是所有樣本點完全處在某個超平面或者完全符合某個函數才認為是預測正確,而SVR是事先設置好一個閾值,只要樣本點距離超平面或函數的距離偏離程度小于此閾值,就認為預測正確。

公式 1 SVR最優化表達式

公式 2 超平面解析式

圖表 1 SVR示意圖

圖表 2 SVR幾何意義

圖表 3 實驗流程圖
集成學習是機器學習算法思想的又一次創新,其核心思想可以簡單用一句中國經典諺語——“三個臭皮匠賽過諸葛亮”來概括。顧名思義,集成學習在機器學習經典算法的基礎上,采用多模型融合的思想,將例如:邏輯回歸、決策樹、支持向量機等單一模型作為元模型,然后將元模型組合或疊加,綜合決策結果作為最終輸出,已經證明多模型融合的決策的合理性理論上高于單模型決策,集成學習以多個元模型為基礎,具體決策方案分為boosting和bagging兩種[3];boosting在訓練時,元模型的粒度上是串行的,用前一個元模型的輸出與真實值的差距作為下一個元模型的輸入,循環這一過程直至滿足條件就得到了最終模型,常見的boosting算法有gbdt、xgboost、lightgbm等;bagging是另一類算法,訓練時元模型粒度上是串行訓練,決策時元模型同時決策,然后對元模型的結果進行加權平均即可得到最終的預測結果,常見的bagging算法有random forest、extra random forest等。
機場的用水量是連續型的數值,外界影響的因素很多,存在峰值波動幅度較大的特點,對于每天累計的用水量預測,可將其看做分類問題,查看歷史流量波動、歷史平均用水量等數據,將用水量數值按照頻次分位數分為100等份,即將此問題轉化為一個多分類問題;另一方面每天累計的用水量預測也可直接作為回歸問題處理。對于上述兩種方法在不同的場景下各有優劣,本文以回歸問題為例繼續討論。
使用地下管網水流量傳感器分時段統計用水量信息,并記錄對應日期的外界條件,比如:天氣狀況、日平均氣溫以及每日出入港人數等;對收集到的相關數據整理,對于連續型特征,若存在缺失值,則采取補0、填充中位數或平均數等操作,然后對其使用最大最小歸一化;對于離散型特征,若存在缺失值,則將其單獨作為一類處理或填充出現次數最多的類別。
此模型適用于機場在一個短周期內每日出入港人數變化波動較小的情況下,此時不考慮機場每日出入港人數的影響,把7天作為一個周期,將連續的7天內每日用水量作為一個訓練集,采用支持向量機算法,可使用matlab中libsvm工具來實現,來預測第8天的用水量。

圖表 4 樣本用水量數據表
此模型相比前兩個模型需要的數據維度更為廣泛,所以預測的結果也會更為準確,我們將進出港人數總和,季節,天氣氣溫,是否節假日,當地是否有大型活動等一切可以量化的指標都作為訓練樣本的特征,例如,我們將春夏秋冬分別設定為1、2、3、4,節假日設為1,非節假日為0,有大型活動為1,無大型活動為0,以及其他可量化并且與用水量有一定相關性的特征都添加到訓練樣本中,增加樣本的特征數量來提高模型的泛化能力,以及提高預測的準確率。

圖表 5 樣本數據特征表
以上述結構化數據作為模型的訓練數據,對SVM和集成學習GBDT模型進調優;SVR模型作回歸分析預測的時候需要調節的參數主要是懲罰參數c和核函數g,集成學習GBDT算法的主要參數有迭代樹的顆數n_estimators、學習速率learning_rate以及抑制過擬合的正則化參數等。
選取合適的參數能夠使預測模型預測準確率大大提高,對于SVM和GBDT算法,搜索超參數以及模型評價的方法一般采用交叉驗證(CV,Cross Validation) 的方法。常見的CV方法如下:
(1)多折交叉驗證 (K-fold Cross Validation, K-CV)
原始數據被平均分為K組,將每一組數據輪流分別做一次測試集,剩下的K-1組作為訓練集,一共會得到K個模型,將這K個模型最終分類準確率到平均數作為此K-CV下的評估指標。
(2)留一法 (Leave-One-Out Cross Validation, LOO-CV)
假設一共有N個樣本,將每個樣本都單獨作為一次測試集,剩下的N-1個樣本作為訓練集,訓練后會得到N個模型,將這N個模型最終分類準確率的平均數作為LOO-CV下分類器的評估指標。
將搜索的結果比對評價指標,得到性能最優的超參數組合放入模型即可訓練出最終模型。
機場地下管網系統作為機場基礎服務的保障,水量供給方面需要做到未雨綢繆,合理高效的對機場用水量進行預測可以很好地解決這個問題。而另一方面隨著機器學習、深度學習技術的不斷向前發展,算法落地的配套設施更加完善,實際應用人工智能算法解決實際場景的復雜問題成為了可能。本文對機場地下的用水量預測這一問題進行了適當的討論,探討了應用傳統機器學習為機場用水量預測的可行性與合理性,并對具體的操作流程做出來適當的描述總結。