秦玲







摘要:針對點估計在項目概念階段成本預測中的不足,文章提出一種基于自舉抽樣的公路養護項目概念階段成本區間估計方法,以估計值的概率范圍來表示成本的不確定性。分析表明:相較于點估計,區間估計在成本預測中所顯現的確定性和預見性更少,也更符合項目概念階段成本特征。
關鍵詞:成本預測;自舉抽樣;區間估計;公路養護項目
中圖分類號:U418 文獻標識碼:A DOI:10.13282/j.cnki.wccst.2019.10.054
文章編號:1673-4874(2019)10-0195-04
0引言
大多數公路養護機構都將項目成本編制視為一個點估計。但點估計的問題在于:它在成本預測中傳達了一種錯誤的信心,可能會導致基于成本估計的資金決策出現預測偏差。具體而言:(1)當成本表示為點估計時,對于那些不知道點估計缺陷的人來說它似乎是準確的,從而造成應用點估計可能會產生一種成本可控與可預見的假象;(2)那些在項目概念階段使用點估計的人,可能并未意識到最終的實際成本會經歷的極端情況或范圍波動;(3)點估計會使得管理者過于錨定概念階段成本的估計結果而存在錨定誤差的可能。點估計以特定的假設和相應的單點數值來驗證預測結果,對于充滿不確定性的項目概念階段成本來說顯然極不合理。因此,本文探索了一種能充分考慮項目不確定性的成本編制新方法。
1文獻綜述
Koplon在量化風險時認識到概率曲線的優勢,并指出點估計不足以表述出成本的不確定性;而區間估計利用廣泛的經驗來定義一個分布概率范圍,相較于點估計在成本預測中所顯現的確定性和預見性更少,也更符合項目概念階段的成本特征。自那時起,區間估計的優勢就被許多學者所探索。美聯邦公路管理局(FHWA)在其《成本估算指南》中允許公路機構將概念成本估計表述為具有指定置信水平的區間范圍。Molenoor為華盛頓州運輸部(WSDOT)創建了一種專門針對項目金額超過1億美元的公路成本區間估計方法,并于最近成功實現此方法。據其描述,區間估計方法更好地傳達了項目概念階段成本的不確定性,通過有效透明的溝通,可以更好地管理公共資金及增強公眾信心。盡管該方法有效,但該方法的開發費用高達300萬美元,且須長期聘用一位風險專家。因此該方法并不適用于公路養護工程的成本估計。而Sonmez使用自舉抽樣同多元回歸分析(MRA)與人工神經網絡(ANN)相結合,成功計算了單個建筑項目的隨機區間估計成本值。但是該方法的準確性受限于有限的數據集,若能進一步擴大數據集,模型的魯棒性及預測性能都能得到有效提升。考慮到ANN預測性能要明顯優于MAR,因此本文擬用自舉抽樣結合ANN,通過顯著增加數據集規模,對公路養護工程概念階段成本進行區間估計。
2 點估計與區間估計建模
為實現研究目的,本文擬分為三個步驟:
(1)建立基于ANN的點估計預測模型,并通過計算平均百分比差(MAPE)來驗證模型預測值同實際值的差異性;
(2)使用步驟1中的ANN模型結合自舉抽樣開發出區間估計模型,得到測試項目的成本預測值及累積分布函數(CDF),并將CDF同實際值進行比較;
(3)比較點估計與隨機區間估計的差異性。
2.1點估計模型
經大量問卷調查及結合自身經驗,明確了12個與公路養護項目最相關的最佳成本特征指標。此次問卷共發放312份,發放對象為公路養護領域具有多年豐富經驗的專業人員。問卷回收份數為202,回收率64.7%,有效份數為192,回收有效率為95.1%,因此本次問卷調查數據本文予以采信。本文為分類輸入還創建了高中低復雜性評分表,如地質情況、路權獲取困難性等。如表1所述。
表1中地質評定情況為平原=H、丘陵=M、山地=L,面層材料為瀝青量化為2,為混凝土則量化為1,路權獲取難度依賴專家打分法。使用MATLAB神經網絡模塊創建一個基礎ANN,ANN預測模型構建主要分為三個步驟:初始神經網絡的搭建、模型的學習與訓練、模型預測。限于篇幅,ANN計算步驟不再贅述,詳參文獻。
2.2 區間估計
ANN是數據驅動的估計技術,模型輸出隨所選擇的引導樣本變化而變化。因此,若能有系統地控制引導樣本集來獲得相應變化的成本估計值,便可得到成本的區間估計。基于此思路,本文通過組合不同的引導樣本集,使用多次迭代的方式來獲得成本的估計區間,成本估計值的概率分布可用離散方法或將離散結果轉換為連續概率函數。
在不使用自舉抽樣的情況下,產生隨機概率的技術的確存在。例如蒙特卡羅模擬通過軟件來產生隨機概率也可用于模擬結果,但自舉抽樣具有不依賴原始分布的假設和計算優勢。自舉抽樣提供了一個簡單的隨機重采樣數據集的過程。如圖1中,引導數據集通過隨機抽取原始數據集的方式產生,引導數據集的取樣方式有兩種:(1)不放回抽樣(WQR);(2)放回抽樣(VR)。WOR抽樣是指從從原始數據集中提取指定百分比的項目。在這個過程中,n被定義為引導樣本數,N為原始數據集中樣本數,并規定n
為訓練隨機區間估計的神經網絡預測模型,本文采用引導抽樣的方式從151個樣本中隨機抽取了80%(121個)的項目作為模型的引導樣本,然后使用這些引導樣本完成神經網絡的訓練,并以余下38個項目來測試模型的訓練結果。考慮計算量將迭代次數設置為100次。由于用于訓練ANN模型的121個項目在每次迭代中都是不同的組合,這為38個測試項目分別產生了100個不同的預測值。為建立成本估計值的經驗分布,將它們從小到大依次排列,并通過公式(1)來確定每個項目成本估計的概率分布F(i),并利用各自項目成本依次繪制出100個樣本水平的累積分布函數(CDF)。
F(i)=i/n (1)
式中:i=1,2,3,…,n,n=100,概率F(i)表示預測值等于低于第i個值的概率。由于此時輸出是一個區間,因此無法適用MAPE來評估區間估計的預測性能。相反,為驗證隨機估計,可將實際成本與CDF進行比較,看其是否包含在概率區間的最大和最小值的范圍內。
2.3 區間估計與點估計差異性比較
為比較區間估計與點估計兩者的輸出差異,在同一個項目中用兩種方法進行測試。兩種方法應用的具體信息如表2所示。
對于點估計,使用189個項目中的80%(151個引導項目)對ANN模型進行訓練,并以余下的38個項目來測試經訓練后的ANN模型的預測性能。使用平均百分比差(MAPE)來表示這38個測試項目的點估計誤差。MAPE是成本估計模型最常見的驗證方法之一,計算式見式(2):
式中,n為測試數據集中的數據數量,P為測試項目集中第i個項目的預測成本估算,A是測試項目集中第i個項目的實際成本。然而,比較點估計模型的MAPE與區間估計模型的CDF的優劣性是困難的。一個是單點估計值,另一個卻是具有相關概率的估計范圍。因此,本文將從項目的不確定性角度進行定性分析來評估點估計與區間估計的差異性。
3案例分析及結果
3.1結果一:點估計模型
限于預算及其它原因,本文僅搜集了S地區2010-2016年間所完成的189個公路養護項目成本數據,主要工作為灌縫補強、罩面、局部修補和重鋪。189個項目金額從5萬元到400萬元不等,其中148個是農村項目,41個為市政項目。將這189個項目數據集分為兩組:訓練組和測試組。鑒于以往研究大多使用20%-30%的項目用于測試模型,因此本文選用了20%(38個)的項目數據以測試模型。項目實際成本應按年通貨膨脹系數(3%)折算到基準年(2016),以反映不斷上漲的建設成本。
在MATLAB軟件的ANN模塊中選擇3層單隱層網絡,激活函數采用S型函數,初始權值為(-0.05,0.05),神經元個數依照“2×輸入變量數+1”確定為25個,訓練次數設置為1000次,目標誤差設置為0.01。ANN模型在測試時表現良好,預測誤差較小,38個項目的MAPE為23%,在概念階段該誤差完全符合使用要求。圖2顯示了38個測試項目估計值與實際值間的關系,圖中斜率為1的直線表示估計值與實際值相等。由圖2可知,基于ANN的點估計值精度十分不錯,估算者似乎可以認為:如果項目使用點估計,那么實際成本值應在預測值的23%以內。但這并非正確,MAPE是根據預測值與實際值的平均誤差來計算的,由于沒有提供特定的置信水平,因此基于MAPE的估計范圍并不可信。
3.2 結果二:區間估計模型
對項目S#01-S#38進行區間估計,限于篇幅,本文僅展示一部分預測結果,如表3所示。最大值和最小值是在100次迭代過程中所產生的兩個極值,而5%、15%、85%、95%均表示為成本等于低于該預測值的概率。
本文最大的預測概率范圍為90%,即5%-95%,相應的15%-85%表示70%的概率范圍,概率范圍越窄則表示成本的不確定性越小,即精度越高。據預測結果,38個測試項目有35個位于預測最小值與最大值范圍內,有27個位于5%-95%的概率范圍內,有18個位于15%-85%的概率范圍內。由此可知,隨著置信區間的不斷縮小更多的項目超出了置信區間,這與實際相符。
圖3顯示了表3中的4個項目的區間估計結果。項目S*28是一個路面罩面工程,其成本估計的范圍極窄,這表明該項目在概念階段比其它項目更為明確。項目S*01和S# 21分別是長度為7.5km和5.1km的路面重鋪工程,由于相似的特點兩個項目具有大致平行的概率區間,但由于項目里程影響項目S*21的實際成本與估計值都相對較高。項目S*37顯示出的確定性最小,即其估計的最小值與最大值的范圍最廣。盡管這三個項目的實際成本極為接近,但項目S*37的估計范圍卻比其它兩個項目要大得多。這是因為項目S*37為一個橋梁維護項目,其成本的復雜性和不確定性都較高,在編制項目S*37的概念階段成本考慮了大量意外因素而實際上卻并未發生,從而導致了極寬的估計范圍。
對于所有的項目來說,預測的成本值并非是恒定的,其估計值的分布范圍取決于該項目信息的不確定性,而并不依賴于實際成本。例如,與項目S*01和S*21相比,項目S*37的實際成本更低但其成本估計值的分布范圍卻更廣。
4 結語
本文研究了如何在公路養護方面利用現有數據進行成本區間估計,及如何正確表達項目概念階段成本的不確定性。通過在同一組數據中借助ANN程序同時開發點估計與區間估計技術進行差異性分析。研究表明:點估計可以很好地預測項目成本,但此方法可能不太準確,也未顯示出成本估計過程中的不確定性;而利用區間估計所產生的隨機分布范圍,可以很直觀地幫助管理者比較各種項目的概念階段成本。
由于點估計是單值輸出并未顯示出其置信水平,在項目的后期階段當工程量明確時,公路項目可以更加準確地以這種形式來表示成本。而在項目信息不明確的概念階段,成本更應以描述置信水平的方式來表達。但要改變企業從點估計轉換到區間估計的成本編制習慣需要巨大的努力。在項目投資回報存在重大不確定性的情況下,使用區間估計的投資決策更具挑戰性,它需要一種能夠容忍甚至接受這種模糊性的企業文化和魄力。