■ 庫都孜·庫娜吉 黃文妤
(1.新疆交投科技有限責任公司, 烏魯木齊 830000;2.新疆公路橋梁試驗檢測中心有限責任公司, 烏魯木齊 830000)
公路建設成本指數(HCCI) 是一種綜合價格指數,反映了一段時間內該行業價格的平均變化。 它是由公路建設項目中主要行項目的價格信息(即材料、勞動力、設備)組成的無單位指標[1-2]。 HCCI 的作用主要有4 個:(1) 作為成本通貨膨脹的參考因素;(2)作為一般建筑市場價格指標;(3)作為建設單位和施工單位進行工程成本計算的依據;(4)比較各省市之間的市場狀況。HCCI 的一個主要問題是,隨著時間的推移,HCCI 表現出顯著的變化,這主要是由復雜的交互效應造成的,如市場因素和工程項目特定因素。 這種變化阻礙了用戶把握市場趨勢的能力,從而對公路工程建設單位和施工單位等業主在正確預算和成本估算方面帶來了不便[3]。為了解決這一問題,本研究集中在預測HCCI 并用定量模型解釋其變化。
目前預測HCCI 的兩種常用定量方法:(1) 時間序列分析;(2)統計學習方法(即回歸和其他更復雜的機器學習算法)[4-5]。時間序列建模仍然是這一研究領域中最常用的定量方法之一。 以往的研究除了無法預測趨勢變化和變化外,還在指數的建模和預測過程中暴露出3 大問題:一是對某些模型中要預測的數據有不同的要求,例如平穩時間序列模型的假設和回歸方法中的高斯分布誤差,建模假設限制了模型在不同數據源情況下的應用[6];二是現有研究中的許多模型只適用于低波動性數據[7]。 當研究人員完全專注于分析誤差指標以評估模型,對低錯誤率感到滿意時,很少有人考慮兩個重要問題:數據(或問題)是否需要復雜的算法,以及該算法是否對預測數據有重要貢獻;三是一個好的預測模型應該能夠對不同的時間范圍進行未來的預測。
本研究包括3 個主要步驟:數據收集、模型開發和模型驗證,研究程序圖如圖1 所示。 本研究的主要目的是探索一種適用于高波動性數據的方法,對長期預測(8 年)、中期預測(2 年)和短期預測(1 年)3 種不同的預測情景進行模擬, 在預測HCCI 指數上具有較高的精度和有效的實現,提出了一種關于公路工程建設成本指數的先進的人工智能算法,為公路工程建設成本計算提供依據。

圖1 LSTM 模型研究程序圖
長短期記憶網絡 (LSTM,Long Short-Term Memory)是一種時間循環神經網絡,LSTM 適合于處理和預測時間序列中間隔和延遲非常長的重要事件[8-10]。先進的深度學習算法LSTM 以其強大的結構和不同時間范圍的滾動預測過程成功地克服了這些挑戰。更具體地說,LSTM 提供了一種序列到序列(seq2seq)體系結構。 LSTM 在短時記憶和長時記憶中都有顯著的表現, 它是一種特殊的遞歸神經網絡,它比普通神經網絡具有更復雜的單元結構。
LSTM 建模有3 個步驟:數據預處理、超參數調整、預測和預測評估。LSTM 不需要數據具有平穩性等要求,但建議將數據歸一化或標準化作為預處理的一部分,以加快收斂速度。 在本研究中,通過最小-最大標度標準化可以快速收集小范圍內的所有數據, 這有助于產生一個更規則的數據搜索空間,從而加速權值的收斂。 第二步是確定模型中超參數的設置,研究中考慮了六個超參數:神經元數目、批量大小、時間步長、時期、調整系數、丟失率,模型超參數設置見表1。 第三步是seq2seq 體系結構的LSTM 模型預測功能的實現。通過將數據輸入LSTM模型,預估出預測周期內的HCCI 指數。

表1 LSTM 預測模型超參數的默認設置
本研究通過采集江蘇省1998-2016 年實際工程建設成本指數為LSTM 模型提供真實數據基礎,分別預測長期、中期和短期結果,并與真實數據曲線進行對比,觀察LSTM 模型預測的準確性,并使用平均誤差百分比作為誤差度量。
長期預測通過將1998-2008 年間的HCCI 指數輸入LSTM 模型, 預測出2008-2016 年的HCCI 指數, 模型輸出結果見圖2。 從圖2 可以看出,LSTM模型的預測的結果大致能夠捕獲到數據的未來趨勢,但未能發現2016 年附近的下降趨勢。 LSTM 在2008 年附近預測的下降趨勢做得很好, 從而使得LSTM 的整體預測平行向下移動, 更加貼近實際水平。 就準確度而言,結果并不樂觀,LSTM 長期預測結果僅表達出大致的上升趨勢。 在實際情況中,該模型不需要預測如此長的周期,中、短期預測結果更具實用性。

圖2 LSTM 模型預測的HCCI 長期預測結果
LSTM 模型中期預測縮小了時間范圍, 增加了模型預測的頻率。 通過以下方式依次對兩年的指數進行預測:(1) 輸入1998-2008 年的HCCI 數據,預測2008-2010 年的HCCI 指數;(2) 輸入1998-2010年的HCCI 數據, 預測2010-2012 年的指數;(3)輸入1998-2012 年的HCCI 數據,預測2012-2014 年的HCCI 指數;(4)輸入1998-2014 年的HCCI 數據,預測2014-2016 年的HCCI 指數。 由于輸入的HCCI 數據趨勢突變,導致對2008-2010 年HCCI 指數預測產生較大困難,但從圖3 可以看出,LSTM 模型仍表現出良好的能力來察覺這種變化。 其他三種預測周期的結果較為貼近實際HCCI 數據變化,二者之間的平均絕對百分比誤差見表2。 從表2 可以發現, 當數據較為平穩時,LSTM 模型預測的HCCI指數的準確性在6.38%~11.39%。

圖3 LSTM 模型預測的HCCI 中期預測結果

表2 LSTM 模型中期預測結果的平均絕對百分比誤差
LSTM 模型短期預測結果通過設置輸出時間為一年, 分別輸入1998-2015 年的真實HCCI 數據,從而得到輸入年份的后續一年的HCCI 指數的預測數據, 預測結果見圖4。 由圖4 可以看出,LSTM 模型預測的結果與HCCI 指數的實際情況吻合程度較高, 只有在數據波動較大的年份(2008-2009、2015-2016)才會出現較小的偏差。 短期預測結果的平均百分比誤差見表3,從表3 可以看出,在數據波動性較小的情況下,誤差可以控制在5.521%~8.71%。相比較于長期、中期預測結果,短期預測結果已經能夠做到較高程度的貼近實際HCCI 指數變化曲線。

圖4 LSTM 模型預測的HCCI 短期預測結果

表3 LSTM 模型短期預測結果的平均絕對百分比誤差
本研究通過LSTM 模型預測HCCI 指數在長期、中期和短期三種場景下的變化趨勢,可以發現,隨著預測周期的逐漸縮短,LSTM 模型的預測精度顯著提高。 公路工程成本指數的微小改進對于工程預算估算的準確性有著極大的提高, 更準確的HCCI 指數有助于避免工程造價的低估和高估問題。 低估會導致成本超支、投資決策中出現財務問題、項目延期或取消;高估會導致公共資金預算分配效率低下。 通過LSTM 模型加強對HCCI 指數的預測,提高工程成本的估算和預算的準確性至關重要。 本研究中所提出的LSTM 方法的獨特性使其能夠有效地滿足公路建設行業成本估算師的實際需求,該方法能夠同時滿足高預測精度和低開發工作量的雙重目標。