耿 飛 金 雁
(武漢理工大學交通學院 武漢 430063)
升船機是三峽樞紐通航設施的組成部分之一.長航局在2016年開展了升船機通行船舶航行控制標準及升船機適應船型尺度等相關研究,制定了《三峽升船機試通航工作方案》,進行了兩次試通航試驗.由此制定了升船機通行船舶技術要求,確定了通過三峽升船機船舶的主尺度要求為:船舶總長≤105 m,船舶總寬≤16.8 m,船舶最大吃水≤2.65 m,船舶自水線以上高度≤18 m,船舶排水量≤3 000 t,船舶進出升船機航速≤0.5 m/s.然而該技術要求主要是基于試驗結果得出的結論,并沒有進行更多理論方面的探討.為了進一步提升三峽升船機的社會經濟綜合效益,挖掘目前及未來三峽樞紐的通航能力,本文做了兩項理論方面的研究:①通過相關性分析圖挖掘船型要素與通航時間的關聯關系,找出各個船型要素對通航時間影響程度,并對其原因進行分析研究,得出適應升船機的船型;②根據船舶的船長、船寬及吃水等船舶主尺度數據來預測其通過三峽升船機的通航時間,根據預測結果可以實時判斷是否讓該船舶通行.
近年來,一些學者將梯度提升機和決策樹結合起來,得到梯度提升決策樹(GBDT)算法,并應用到預測領域[1-3].基于此,文中提出基于梯度提升決策樹的三峽升船機船舶通航時間預測模型,與傳統的神經網絡和線性回歸等預測模型相比較,該模型具有較好的預測性能[4-5].
三峽升船機的運行流程分為船舶進出廂和設備運行兩大流程,因此,升船機總歷時也主要由船舶進出廂歷時和設備運行歷時兩部分所組成.
1) 船舶進出廂流程 船舶進廂:船舶接到進廂指令(從靠船墩解纜(駛離靠船墩(進入閘首、船廂(在船廂停泊妥當、系纜完畢(報告集控室泊妥.正常情況下,該過程平均時間為22.8 min.船舶出廂:船舶接到出廂指令(從船廂解纜(駛出船廂及另一側閘首(駛出閘首(船尾駛過最遠端靠船墩.該過程平均時間為11.25 min.
2) 設備運行流程 收到船舶在船廂內泊妥報告(核驗并確認具備解除對接條件(解除船廂對接(核驗并確認具備上下行條件(船廂上行或下行(船廂對接(發出廂指令.該過程約30 min.
試通航指揮部組織進行的三峽升船機完善工程復航后滿負荷運行及實船補充測試顯示,廂次平均歷時為66.11 min,設計每日工作時間為22 h,每天大約可以運行19.97廂次.結果可見,升船機日運行次數較少,主要是由于集裝箱船、商品車滾裝船等大型船舶過機時間較長.
根據三峽通航管理局提供的2016年9月—2017年12月所有通行升船機船舶基礎數據,從中選取510個樣本數據進行模型構建.通航船舶數據片段見表1.
表1 通航船舶數據片段
統計表1中不同類型船舶過升船機總歷時中船舶平均進出廂用時和設備平均運行用時,見表2.
表2 不同類型船舶通行升船機用時 單位:min
結合表1,2對通航數據初步分析可知:
1) 過機的設備運行平均用時與船型無關,是一個固定值,約為30 min,故而可以主要考慮船舶進出廂用時.
2) 從統計平均值可以看出,滾裝船、集裝箱船和貨船等大型船舶的船舶進出廂用時明顯高于客船及其他小型船舶,猜測大的船舶尺度對船舶進出廂用時存在較大影響.
由初步分析可知:用傳統數理統計方法繪制圖表對各種船型逐一分析較為困難,且難以得出船舶尺度與通航時間之間的關聯.故而本文采用數據挖掘和數理統計方法,使用GBDT和相關性分析圖對數據進行整體分析[6-7].從一個全新的角度對通航數據進行整體統計和分析,力求找出船舶影響升船機運行時間的主要因素及其影響程度,根據船舶主尺度對船舶通航時間進行預測,為管理部門制定提高升船機通行效率的管理辦法提供決策依據.
該案例中相關性分析使用Rapidminer數據挖掘平臺來完成,利用其中相關性分析矩陣并應用到船舶尺度樣本數據集.根據現有船舶主尺度如船長、船寬、吃水等計算出其他可能有關聯的船型要素如船長船寬比、型深吃水比等,利用相關性分析得出各船型要素間的關聯程度并用具體數值體現出來[8].分析結果是一張相關性分析圖,可得到所有屬性間的相互關聯度,將其中最重要的船型要素與通航總歷時的關聯關系制成關聯度分析表見表3.
表3 船型要素與通航時間關聯度分析表
船型要素是影響通航時間的重要因素,由表3可知,與船舶通航總歷時關聯度較大的船型要素有船長、船寬、排水量、廂體平面充滿率、廂體體積充滿率等.已知三峽升船機船廂有效平面尺度為120 m(長)×18 m(寬),其中,船廂上下游防撞鋼絲繩之間的長度為120 m,防撞鋼絲繩的保護裝置為破斷保護型,正常情況下不允許船舶碰撞.以下主要從碰撞角度對關聯系數較大的船型要素原因進行分析.
1) 排水量、廂體平面、體積充滿率對船舶進出廂用時影響 此三者均是衡量船舶大小的指標歸為一類,由表3中關聯系數可知其對通航時間影響最大.根據從2016年9月至今升船機試運行和兩個階段的實船試驗的實際運行情況發現:船舶越大,則慣性越大;低速情況下舵效、速度控制等操縱性能相對較差.
2) 船長對船舶進出廂用時影響 為避免船舶碰撞,當船舶在船廂內停泊時,船艏艉與防撞鋼絲繩均應保持5 m以上的安全距離.超過105 m船長船舶進出升船機時,由于船舶進廂時速度低于0.5 m/s,靠泊時速度更低,船舶低速狀態下很難精準定位,當船舶長度超過105 m接近110 m時,很難確保船舶靠泊后船艏或船艉距離防撞鋼絲繩都保持5 m安全距離.
3) 船寬對船舶進出廂用時影響 觀察升船機的實船運行狀態發現,17.0 m以上船寬較大的船舶進出升船機時,由于上、下閘首工作大門止水座相對突出,易被進出廂船舶撞損.如果閘首工作門止水座被撞變形將會導致漏水,升船機將無法正常運行.船舶寬度越大,撞擊止水座的機率越大,歷時越長.
4) 其他船型要素對船舶進出廂用時影響 船舶主尺度比方面,與船舶通航總歷時關聯度由大到小排序為:型深吃水比(-0.357)>船長型深比(0.354)>船長船寬比(0.153)>船長吃水比(0.112)>船寬吃水比(0.039).通航時間影響最大的因素是型深吃水比,且關系系數為負,說明該值越大,通航時間越短.其次是船長型深比,該值越大,通航時間越長.對通航時間影響最小的因素是船型,從相關性分析圖來看,船型與其他船舶主尺度特征關聯度均不大,說明在不考慮船舶主尺度情況下,船型這個單一因素對通航時間影響較小,并且作為數據集中唯一的標稱屬性,單獨進行分類研究效果較好.
為提高通航效率,在制定適應升船機的船型標準時,應減小船長型深比,增加型深吃水比.應對大噸位船舶,如貨船、集裝箱船、商品車滾裝船等大型船舶加以限制,優先通過公務船、一般干貨船、小型客船、普通客船等小型船舶,將有效提高三峽升船機運行效率.
GBDT是一種基于梯度提升框架的決策樹類算法,其基本原理就是在損失函數負梯度的方向上生成多棵弱回歸樹,然后再將這些樹組合在一起生成一棵強回歸樹,即最終的時間預測模型[9-11].
對于訓練樣本集T={(X1,y1),(X2,y2),…,(XN,yN)},Xi∈χ?Rn,yi∈γ?R,訓練樣本的總數為N,對于每個變量矩陣Xi,都含有z個變量(x1i,x2i,…,xzi),迭代次數設定為M,損失函數為L(y,f(x)).基于此,GBDT的核心步驟如下:
1) 模型初始化 尋找常數值c使損失函數L最小化.
(1)
g(x)為模型預測值,y為時間真實值,采用平方損失函數,即
(2)
2) 進入迭代過程 迭代總次數為M.對于i=1,2,…,N,利用最速下降法,搜索方向為模型的負梯度方向,逐步接近目標值.求得損失函數L的負梯度為
(3)
3) 利用(Xi,rmi),i=1,2,…,N作為訓練數據,生成一顆弱回歸樹,獲得第m顆弱回歸樹的葉節點區域Rmj,j=1,2,…,J.其中:J為第m顆弱回歸樹的葉節點數.采用線性搜索的方法找到在每個區域中使損失函數L最小的最佳常數值c為
(4)
4) 得到強回歸模型:
(5)
式中:I()為指示函數;v為學習速率,當Xi落入Rmj區域時,它的值就為1,區域外便為0.
5) 迭代過程結束后,根據式(6)得到最終的預測模型F(X)=fM(X).F(X)為最終的預測結果,其預測值為
F(X)=f0+f1(X)+f2(X)+…+fm(X)
(6)
式中:m為弱回歸樹數量;X為屬性向量;f0為模型初始值,每棵樹的預測值為fi(X),i=1,2,…,m.
本試驗數據處理流程主要包括特征屬性選擇,數據預處理,訓練數據集,模型應用結果展示等幾個部分.試驗所用升船機通航數據樣本為510個,無缺失數據.除去10個異常值后訓練樣本所占比例為80%,即400個樣本用來訓練,剩余100個樣本用來測試訓練好的預測模型.
GBDT算法模型參數設置如下:損失函數采用平方損失函數,葉子節點深度為5,迭代次數100,學習速率為0.1,弱回歸樹的數量取20棵,采用平方誤差損失函數.該模型輸入為各船舶主尺度及船型,具體包括船長、船寬、型深、吃水、排水量以及船型,輸出為船舶通航時間.
為探究GBDT模型在通航時間回歸預測時較其他模型的優劣,采用人工神經網絡中的BP(back propagation)算法及線性回歸(linear regression)算法來做對比試驗,將BP-NN與LR模型與其進行對比分析,3種模型預測結果見表4,預測誤差比較見表5,預測曲線對比見圖1.此處通航時間為船舶進出廂時間之和,不包括設備時間,以提升精度,方便比較.
表4 三種模型預測結果片段 單位:min
表5 三種模型誤差比較
圖1 三種模型預測結果對比圖
由圖1可知,GBDT模型的預測曲線與實際時間曲線吻合度極高.很大程度上是因為GBDT算法中,參與預測的屬性包括了船型這一特征.船型是一個標稱屬性,在用BP-NN與LR算法進行回歸預測時,數據特征一般都是數值屬性,而非標稱屬性,因而除去了船型這一特征.而GBDT算法卻可以克服這一缺陷,靈活處理各種類型的數據,包括連續值和離散值.該模型通過將GBM和決策樹相結合,在損失函數負梯度的方向上生成若干棵弱回歸樹,不斷更新預測結果,從而進一步提高預測精度.其外,它還能有效地減小各特征之間關系互嵌、信息冗余對預測結果的負面影響,具有正確性和有效性.并且對異常值的魯棒性很強,從而使預測精度顯著提高.
數理統計中均方根誤差,絕對誤差,相對誤差,平方誤差均是衡量誤差的指標,用來評價數據的變化程度,其值越小,說明預測模型精確度越高.而平方相關值,表示的是通過回歸關系,因變量的變化可以被自變量解釋的程度并用比例表示出來,比例越接近1則模型效果越佳.例如表5中,R2為0.849,意味著因變量84.9%的變化能夠使用該回歸模型解釋,換言之,在自變量不變的情況下,因變量的變化程度能夠降低84.9%.由表5可知,相比于BP-NN和LR兩種時間預測模型,GBDT模型各項統計指標誤差值更小且平方相關度更高,對通航時間的預測精度顯著提高.因此,相比于傳統的BP-NN和LR預測模型,基于GBDT的通航時間預測模型具有更好的預測性能.
1) 對船舶通航時間與船型要素的關聯關系進行的挖掘分析結果表明,船長過長、船寬過寬,船舶進出升船機存在明顯的碰撞升船機設備現象,導致通航時間增加.在制定適應升船機的船型標準時,應減小船長型深比,增加型深吃水比.限制排水量、廂體平面、體積充滿率較大的船舶如集裝箱船、商品車滾裝船通行,多使公務船、普通客船等較小船型通行,可有效提高三峽升船機運行效率.
2) 基于GBDT的三峽升船機通航時間預測模型的算例結果分析表明,相比于傳統BP-NN和LR預測模型,該模型具備更優良的預測性能.不僅可以靈活處理各種類型的數據,包括數值屬性和標稱屬性,還能有效地減小各特征之間關系互嵌、信息冗余對預測結果的負面影響,體現了該模型的正確性和有效性.對升船機船舶通航時間的預測使得通航管理部門能根據船舶尺度實時判斷是否使其通過,對通航歷時較久的船舶加以限制,提高了升船機運行效率.