999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機(jī)森林和XGBoost的鐵路工期指標(biāo)預(yù)測方法研究

2022-06-18 08:00:08寇智聰
電子元器件與信息技術(shù) 2022年4期
關(guān)鍵詞:因素影響模型

寇智聰

中鐵第五勘察設(shè)計院集團(tuán)有限公司,北京,102600

0 引言

鐵路工期進(jìn)度指標(biāo)是進(jìn)行鐵路施工組織編制的基礎(chǔ)和依據(jù),獲取準(zhǔn)確的進(jìn)度指標(biāo)值能夠為組織施工方案和優(yōu)化施工工期提供更為可靠的數(shù)據(jù)支撐。中國鐵路總公司發(fā)布的《鐵路工程施工組織設(shè)計規(guī)范》(Q/CR 9004-2018)[1]是施工組織編制的綱領(lǐng)性文件,其中對施工工期的主要參考指標(biāo)進(jìn)行了明確。該指標(biāo)主要用于指導(dǎo)性的施工組織設(shè)計,然而各建設(shè)項目所在區(qū)域與施工條件各具特點(diǎn),現(xiàn)場施工常會受到多種因素的影響,使得工期參考指標(biāo)指導(dǎo)實際施工的意義大打折扣,容易造成計劃與實際的脫節(jié)[2]。

部分專家學(xué)者通過實際調(diào)研與典型案例相結(jié)合的方法,收集相關(guān)數(shù)據(jù)作為確定工期指標(biāo)的參照[3],而這種研究方法需要廣泛收集資料,使得及時、準(zhǔn)確地獲得工期指標(biāo)的難度較大。隨著大數(shù)據(jù)和計算機(jī)科學(xué)的不斷發(fā)展,新的信息技術(shù)和智能算法被越來越多地應(yīng)用于工程建設(shè)領(lǐng)域[4-5]。一些學(xué)者也開始嘗試應(yīng)用智能算法來進(jìn)行工期預(yù)測的研究[6-7],但目前此類研究仍處于起步階段。上述相關(guān)研究中大多采用的是單一的回歸預(yù)測模型且樣本數(shù)量較少,雖然有效地解決了工期預(yù)測中出現(xiàn)的一些問題,提高了預(yù)測效率,但仍存在算法高度依賴數(shù)據(jù)準(zhǔn)確性的問題,易陷入局部最優(yōu)等缺陷,可能會導(dǎo)致實際使用時的預(yù)測結(jié)果不可靠。此外,針對鐵路工期指標(biāo)預(yù)測影響因素多、噪聲干擾復(fù)雜的特點(diǎn),需要有效地選擇關(guān)鍵的影響因素,才能得到更為準(zhǔn)確的預(yù)測結(jié)果。

為此,本文引入機(jī)器學(xué)習(xí)中的隨機(jī)森林(RF)和XGBoost算法,提出一種結(jié)合兩種算法的工期指標(biāo)預(yù)測模型。使用RF對輸入的影響因素進(jìn)行重要程度排序,結(jié)合特征選擇中的循序向后選擇法對無關(guān)影響因素進(jìn)行剔除,得到工期指標(biāo)預(yù)測的最優(yōu)影響因素集,然后以此為模型輸入建立基于XGBoost的工期指標(biāo)預(yù)測模型,從而實現(xiàn)對工期指標(biāo)的準(zhǔn)確預(yù)測。

1 相關(guān)算法

1.1 隨機(jī)森林算法

隨機(jī)森林(RF,random forest)作為一種綜合的算法,最先由Breiman[8]在2001年提出,主要應(yīng)用于預(yù)測和特征選擇等問題。該算法結(jié)合了CART樹和Bagging方法,利用Bootstrap對原始樣本集進(jìn)行有放回的抽樣,使用抽取出的每一個樣本集來構(gòu)建對應(yīng)的決策樹模型,所有決策樹的內(nèi)部節(jié)點(diǎn)均采用隨機(jī)選擇特征的方式對屬性進(jìn)行分裂,最后組成一個完整的隨機(jī)森林,在綜合各決策樹所產(chǎn)生結(jié)果的基礎(chǔ)上,投票得到最終結(jié)果。

1.1.1 模型的泛化誤差

在對樣本集進(jìn)行有放回抽樣時,會產(chǎn)生36.8%的袋外數(shù)據(jù)(OBB),可作為計算模型泛化誤差的依據(jù)。模型的泛化誤差可以用下式表示:

在RF中,隨著決策樹的數(shù)目不斷增多,模型的泛化誤差將會趨近一個有限的上界。即:

1.1.2 特征的重要度

隨機(jī)森林中某個特征的重要程度為:

式(3)中,N為隨機(jī)森林中決策樹的個數(shù),和分別對應(yīng)未變換以及隨機(jī)對數(shù)據(jù)中某個特征順序進(jìn)行變換后的袋外數(shù)據(jù)的誤差值。

計算所有特征的重要度之后,使用循序向后的特征選擇方法對重要度最低的特征進(jìn)行分步去除,最終找出最合適的特征數(shù)量[9]。

1.2 XGBoost算法

XGBoost是2014年2月由Chen[10]提出的基于決策樹模型的提升算法,因其優(yōu)良的學(xué)習(xí)效果以及較高的訓(xùn)練速度獲得大量關(guān)注,廣泛應(yīng)用于解決工程領(lǐng)域的分類和回歸預(yù)測等問題[11]。該算法是對梯度提升樹方法的改進(jìn),適用于大規(guī)模的稀疏數(shù)據(jù),具有運(yùn)算速度快、準(zhǔn)確率高等優(yōu)點(diǎn)。基于多個決策樹的組合模型可寫作K個可加函數(shù)的和:

對于固定的樹形結(jié)構(gòu),用二階近似方法優(yōu)化得到葉子權(quán)重的最優(yōu)解。之后根據(jù)權(quán)重的值來計算樹形結(jié)構(gòu)的得分函數(shù),以該得分為評價指標(biāo),最后使用貪婪算法進(jìn)行樹的生長和剪枝。

2 基于RF-XGBoost的工期指標(biāo)預(yù)測模型構(gòu)建

基于RF-XGBoost的工期指標(biāo)預(yù)測模型的建模流程如圖1所示,分為工期指標(biāo)影響因素篩選和工期指標(biāo)預(yù)測兩個主要的過程。

圖1 基于RF-XGBoost的工期指標(biāo)預(yù)測建模流程

2.1 基于RF的工期指標(biāo)影響因素篩選

2.1.1 確定初始數(shù)據(jù)集

對相關(guān)文獻(xiàn)資料和工程實踐經(jīng)驗進(jìn)行學(xué)習(xí)總結(jié),從人機(jī)料法環(huán)等多個維度進(jìn)行考慮,以現(xiàn)場收集到的工期影響因素作為輸入、鐵路工期進(jìn)度指標(biāo)作為輸出,建立工期指標(biāo)預(yù)測的初始數(shù)據(jù)集。

2.1.2 工期影響因素篩選

直接使用原始的數(shù)據(jù)集進(jìn)行訓(xùn)練,得到的工期指標(biāo)預(yù)測模型精度未必很高,還會增加模型訓(xùn)練所需的時間。結(jié)合RF算法與循序向后選擇法對初始影響因素進(jìn)行剔除,篩選出最優(yōu)影響因素集,可作為后續(xù)預(yù)測模型的輸入變量。在利用RF分析影響因素的大小時,有兩個重要的模型參數(shù)需要設(shè)置,分別是決策樹的隨機(jī)特征數(shù)量mtry和決策樹個數(shù)Ntree。為使模型預(yù)測結(jié)果穩(wěn)定,建議將mtry設(shè)置為特征數(shù)的1/3,Ntree的取值大于500。同時,采用k-折交叉驗證的方法以提高模型的預(yù)測精度。

2.2 基于XGBoost的工期指標(biāo)預(yù)測模型

2.2.1 數(shù)據(jù)預(yù)處理

2.2.2 XGBoost模型超參數(shù)選擇

XGBoost模型中主要的超參數(shù)包括樹的個數(shù)、樹的最大深度、學(xué)習(xí)速率以及最小葉子節(jié)點(diǎn)的樣本權(quán)重和等。在參數(shù)調(diào)整過程中,可采用網(wǎng)格搜索法和5折交叉驗證的尋優(yōu)策略,對以上超參數(shù)進(jìn)行優(yōu)化。

2.2.3 預(yù)測效果評價

選取均方誤差(Rmse)和擬合優(yōu)度(R2)作為XGBoost模型的預(yù)測性能評價指標(biāo)。Rmse衡量的是預(yù)測值與真實值之間的偏差,R2用于評價模型的擬合效果,兩個指標(biāo)的計算公式如下:

式(9)~(10)中,yi和分別為實際值和預(yù)測值;為樣本的均值; n表示樣本數(shù)據(jù)的個數(shù)。

3 實例分析

3.1 數(shù)據(jù)來源

以新村隧道工程某工點(diǎn)為研究對象,從隧道施工臺賬中獲取隧道施工進(jìn)度的數(shù)據(jù)樣本,其中工期指標(biāo)為隧道正洞開挖進(jìn)尺長度,共收集了731組施工進(jìn)度數(shù)據(jù)作為樣本集,部分?jǐn)?shù)據(jù)如表1所示。

表1 隧道施工臺賬部分初始數(shù)據(jù)

3.2 基于RF算法的工期指標(biāo)影響因素篩選

3.2.1 數(shù)據(jù)預(yù)處理

為使數(shù)據(jù)能夠讓算法正確識別且更易學(xué)習(xí),需對數(shù)據(jù)進(jìn)行特征轉(zhuǎn)換從而獲取更佳的數(shù)據(jù)表示方式。本研究中將初始數(shù)據(jù)集中的日期轉(zhuǎn)換為季節(jié),將施工時間轉(zhuǎn)換為工作時長,同時去除了部分重復(fù)特征,得到變換后的數(shù)據(jù)集,如表2所示。采用獨(dú)熱編碼對上述數(shù)據(jù)進(jìn)行進(jìn)一步處理。

表2 經(jīng)特征變換后的數(shù)據(jù)集

3.2.2 影響因素重要度排序

載入Python語言里專門用于機(jī)器學(xué)習(xí)的sklearn庫,調(diào)取庫中與RF相關(guān)的函數(shù)命令建立分析模型,計算得到初始數(shù)據(jù)集中工期指標(biāo)影響因素的重要度,并對結(jié)果進(jìn)行排序,如圖3所示。由圖中信息可得,重要度排名較高的影響因素包括圍巖等級、工作時長、季節(jié)等,從工程實踐經(jīng)驗來看,圍巖等級的影響最為明顯,而季節(jié)和施工部位與工期指標(biāo)的相關(guān)性也較大,因此RF算法得到的分析結(jié)果具有合理性。

圖3 影響因素的重要性排序圖

3.2.3 關(guān)鍵影響因素篩選

設(shè)定RF模型中參數(shù)mtry的取值為5,Ntree的取值為600,選擇使用5折交叉驗證的方式測試模型精度。根據(jù)圖3給出的重要性排序結(jié)果,使用循序向后的特征選擇方法,得到不同特征組合個數(shù)下模型預(yù)測精度的變化曲線,如圖4所示。

圖4 不同影響因素組合時模型精度變化趨勢圖

由圖中分析可知,隨著特征數(shù)量的減少,模型預(yù)測精度有了一定程度的提高,這意味著某些冗余的影響因素被剔除了;在到達(dá)某一個值時,繼續(xù)減少特征個數(shù),模型的精度也隨之下降;隨著特征數(shù)量的進(jìn)一步減少,模型精度開始急劇下降,說明一些重要的影響因素被刪除了。在本案例中,當(dāng)影響因素集合中的特征個數(shù)為9時,可以訓(xùn)練得到預(yù)測精度最高的模型。篩選出的關(guān)鍵工期影響因素為圍巖等級_V加、工作時長、圍巖等級_Ⅳ加、季節(jié)_秋、實際方量、圍巖等級_Ⅲ一般、圍巖等級_Ⅳ一般、施工部位_上臺階、施工部位_全斷面。

3.3 基于XGBoost的工期指標(biāo)預(yù)測模型構(gòu)建

3.3.1 數(shù)據(jù)預(yù)處理

將3.2節(jié)篩選出的工期影響因素結(jié)果作為XGBoost預(yù)測模型的輸入特征參數(shù),將隧道進(jìn)度指標(biāo)作為輸出,收集多組隧道工期指標(biāo)數(shù)據(jù)作為樣本數(shù)據(jù)集,并對輸入和輸出特征數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。將數(shù)據(jù)集進(jìn)行隨機(jī)劃分,抽取全部樣本的70%作為模型的訓(xùn)練集,剩余30%的樣本則作為測試集,用來評價模型的泛化性能。

3.3.2 模型調(diào)參

加載Python語言sklearn庫中的網(wǎng)格搜索函數(shù)GridSearchCV搜尋XGBoost模型的最優(yōu)超參數(shù)集合,該函數(shù)命令自帶交叉驗證功能。最終的工期指標(biāo)預(yù)測模型采用的超參數(shù)值如表3所示。

表3 工期指標(biāo)預(yù)測模型中超參數(shù)的最優(yōu)值

3.3.3 預(yù)測結(jié)果評價與比較

根據(jù)所確定的模型參數(shù)最優(yōu)值訓(xùn)練XGBoost模型,對工期指標(biāo)進(jìn)行預(yù)測。分別在訓(xùn)練集和測試集上對其進(jìn)行測試,預(yù)測結(jié)果如圖5和圖6所示。從圖中結(jié)果可得,該模型通過對訓(xùn)練集數(shù)據(jù)的學(xué)習(xí),得到了較好的擬合效果。模型在測試集數(shù)據(jù)上的預(yù)測值與實際值相貼近,說明該模型對工期指標(biāo)的預(yù)測效果良好。

圖5 工期指標(biāo)預(yù)測模型訓(xùn)練集預(yù)測結(jié)果與實際結(jié)果對比

圖6 工期指標(biāo)預(yù)測模型測試集預(yù)測結(jié)果與實際結(jié)果對比

為了進(jìn)一步評估提出的RF-XGBoost方法在工期指標(biāo)預(yù)測上的性能,將其與支持向量機(jī)(SVM)、人工神經(jīng)網(wǎng)絡(luò)(BPNN)和多元線性回歸等預(yù)測方法構(gòu)建的模型相比較,不同預(yù)測模型得到的結(jié)果對比見表4。該結(jié)果包含了各個模型對案例數(shù)據(jù)預(yù)測結(jié)果的RMSE和R2的值。一般來說,R2越接近1、RMSE越接近0表明模型的預(yù)測性能越好。

表4 模型性能比較

由表中結(jié)果可知,RF-XGBoost模型的RMSE在所有參與比較的模型中最小,R2也更加接近1,說明該模型的擬合效果和預(yù)測精度優(yōu)于其他模型,預(yù)測結(jié)果更加接近實際值,具有不錯的泛化性能。綜上所述,使用基于RF-XGBoost模型對工期指標(biāo)進(jìn)行預(yù)測,獲得的預(yù)測結(jié)果具有較高的準(zhǔn)確性和可靠性。

4 結(jié)語

本文建立了一種基于RF-XGBoost的工期指標(biāo)預(yù)測模型,利用RF算法對工期指標(biāo)的影響因素進(jìn)行篩選,得到最優(yōu)影響因素集作為XGBoost模型的輸入,為鐵路工期指標(biāo)高精度預(yù)測提供了分析方法。以某隧道項目為背景,提取施工臺賬中的數(shù)據(jù)作為分析樣本,建立了RF-XGBoost工期指標(biāo)預(yù)測模型,通過將預(yù)測結(jié)果與實際數(shù)值相對比驗證了模型在工期指標(biāo)預(yù)測中的有效性。與其他常用預(yù)測模型相比較,該模型的預(yù)測效果更加準(zhǔn)確和穩(wěn)定,在鐵路工期指標(biāo)預(yù)測中,具有一定的指導(dǎo)意義和實用價值。

猜你喜歡
因素影響模型
一半模型
腹部脹氣的飲食因素
中老年保健(2022年5期)2022-08-24 02:36:04
是什么影響了滑動摩擦力的大小
群眾路線是百年大黨成功之內(nèi)核性制度因素的外在表達(dá)
哪些顧慮影響擔(dān)當(dāng)?
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
擴(kuò)鏈劑聯(lián)用對PETG擴(kuò)鏈反應(yīng)與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
短道速滑運(yùn)動員非智力因素的培養(yǎng)
主站蜘蛛池模板: 波多野结衣第一页| 成人亚洲天堂| 欧美自拍另类欧美综合图区| 欧美日韩另类国产| 丰满人妻被猛烈进入无码| 九九热精品免费视频| 亚洲精品大秀视频| 国产美女视频黄a视频全免费网站| 国产成人精品无码一区二| 久操线在视频在线观看| 久久久久久尹人网香蕉| 日韩欧美高清视频| yjizz视频最新网站在线| 久久综合结合久久狠狠狠97色| 青草视频久久| 亚洲av日韩综合一区尤物| 久久精品国产精品青草app| 九九视频在线免费观看| 免费国产黄线在线观看| 丰满人妻一区二区三区视频| 永久免费av网站可以直接看的 | 欧美亚洲日韩中文| 亚洲色图欧美视频| 免费a级毛片18以上观看精品| 88av在线看| 国产av一码二码三码无码 | 国产精品网址你懂的| 不卡网亚洲无码| 2020国产精品视频| 亚洲天堂日韩av电影| 女人天堂av免费| 成人福利在线免费观看| 国产18在线播放| 18禁不卡免费网站| 日韩色图在线观看| 亚洲第一黄片大全| 亚洲精品爱草草视频在线| 五月婷婷激情四射| 国产伦片中文免费观看| 777午夜精品电影免费看| 国产精品美人久久久久久AV| 国产在线小视频| 日本人妻丰满熟妇区| 日韩成人免费网站| 在线观看国产精美视频| 国产精品亚洲五月天高清| 欧美亚洲网| 真实国产乱子伦视频| 夜夜爽免费视频| 久久伊人操| 波多野结衣无码AV在线| 婷五月综合| 欧美在线三级| 99re热精品视频中文字幕不卡| 福利片91| 女人18毛片久久| 国产原创自拍不卡第一页| 午夜电影在线观看国产1区| 亚洲男人天堂2020| 午夜爽爽视频| 日本欧美视频在线观看| 在线亚洲小视频| 亚洲成人免费看| 婷婷在线网站| 免费观看成人久久网免费观看| 国产日韩av在线播放| 熟妇丰满人妻av无码区| 无码高潮喷水专区久久| 天堂岛国av无码免费无禁网站| 国产91线观看| 香蕉色综合| 精品人妻无码区在线视频| 91国内在线观看| 国产香蕉一区二区在线网站| 凹凸精品免费精品视频| 在线观看精品国产入口| 亚洲av无码牛牛影视在线二区| 伊人AV天堂| 国产麻豆永久视频| 国产成人高清在线精品| 久久久久久尹人网香蕉| 国产91透明丝袜美腿在线|