郭園園,原慧敏,馮 飛,田青青,李澤宣
(1.河南水投輿源水生態實業有限公司,河南 駐馬店 463400;2.河南欣峰信息科技有限公司,鄭州 450003;3.河南水利投資集團有限公司,鄭州 450000;4.華北水利水電大學 水利學院,鄭州 450046;5.河南省水環境模擬與治理重點實驗室,鄭州 450002)
隨著全球經濟的不斷發展和人口的不斷增加,建筑業發展迅速,對建筑材料的需求也越來越大。然而,傳統的混凝土材料在生產和使用過程中會產生大量的廢棄物和污染,給環境帶來了極大的壓力。因此,再生混凝土作為一種環保型建筑材料,已經成為當前建筑材料領域的研究熱點之一。
再生混凝土在生產和使用過程中,其性質和強度等方面都受到影響,這給其在實際工程中的應用帶來了一定的難度。因此,預測再生混凝土的強度是實現其應用的關鍵之一。目前,國內外已有很多學者對再生混凝土的強度預測進行了研究。在國內研究中,如高蔚[1]使用深度學習方法對再生混凝土抗壓強度進行預測,并取得精確的預測結果。廖小輝等[2]使用BP 神經網絡對再生混凝土抗壓強度進行預測,并取得了較高的預測結果。白浩杰等[3]使用基于GA 優化BP 神經網絡模型預測再生混凝土抗壓強度,證實經過GA 算法優化權閥值的BP 神經網絡精度更高,朱偉等[4]使用GA 算法優化支持向量機模型對再生混凝土進行抗壓強度預測,并與支持向量機模型進行對比,證實GA 算法優化模型可以提升其精度。鄒超英等[5]使用模擬退火原理構建模型預測混凝土徐變參數,并證實其預測結果與實際相吻合,具有較高的精度。黃煒等[6]使用PSO-BP 模型和GA-P 模型對再生混凝土抗壓強度進行預測,并發現PSO 算法參數優化能力好于GA 算法。
與此同時,國外學者對再生混凝土強度預測研究也在不斷深入,如Deng 等[7]使用softmax 回歸開發預測模型,對再生混凝土強度進行預測,并與傳統神經網絡相比,證實深度學習算法具有更高的精度。Marian 等[8]使用多元線性回歸,對再生混凝土抗壓強度進行預測,并通過預測結果得出為不影響其強度,骨料替代率不要超過30%。Gregori 等[9]使用SVM 算法和GPR 模型對再生混凝土強度進行預測,都取得了精確的預測結果,并且GPR 模型精度高于SVM 模型精度。Li 等[10]使用稻殼灰提到水泥制備再生混凝土,并使用堆疊集成學習的方法對其抗壓強度進行預測,并取得了精確的預測結果。Mai 等[11]使用隨機森林模型對含油棕殼的再生混凝土抗壓強度進行預測,并取得較為精確的預測結果。
基于上述已有研究,在再生混凝土強度預測中,基于參數優化機器學習模型研究甚少,故本文提出了一種基于粒子群優化(PSO)和梯度提升決策樹(GBDT)的再生混凝土強度預測模型,通過優化GBDT 模型的超參數,提高了模型的預測精度和穩定性,對再生混凝土相關領域的實際工程具有指導作用。
本研究數據來自文獻[12],根據實際情況,選取其中再生粗骨料數據集118 組,為研究所用數據分布情況,采用SPSS 軟件對其28 d 抗壓強度進行正態Q-Q圖分析,如圖1 所示,可以看出,抗壓強度數據點緊密圍繞理論直線,且除兩端點部分,其余大量數據均基本以理論直線重合。

圖1 抗壓強度正態Q-Q 圖
為進一步驗證其是否符合正態分布,采用單樣本K-S 檢驗,以設定95%置信區間,進行檢驗,證實其顯著性P=0.099,所得顯著性大于0.05,故保留原假設,數據符合正態分布。
所用數據配合比中,不同成分所帶自身量綱不同,直接將數據代入模型,可能會對最終結果造成影響,故此處采用最大值最小值方法進行歸一化,歸一化公式見公式(1)
式中:X表示歸一化之后的數值,x1表示試驗值,xmax表示數據列中最大的值,xmin表示數據列中最小的值。
模型建立并進行數據預測之后,為了檢驗模型的泛化能力和預測準確性,故需設定模型評價指標從而更加直觀地了解模型性能。因此,選用決定系數R2、均方根誤差(RMSE)和平均絕對誤差(MAE)為模型評價指標,其中決定系數R2表示試驗值和預測值之間的擬合程度,其越接近于1,表明其預測結果越接近試驗值,RMSE 表示試驗值和預測值之間差異的樣本標準差,MAE 表示試驗值和預測值之間絕對誤差的平均值,二者大小越接近0 越好,以上評估指標計算原理見公式(2)(3)(4)。
式中:N為數據庫中數據總數;為試驗值數據的平均值,MPa;Qi為試驗值,MPa;為模型預測值,MPa。
粒子群算法(PSO)是目前眾多尋優算法之一,其設計原理是通過模擬鳥類捕食,主要是通過在給定區域定義一塊食物(即尋優目標最優解),讓鳥類進行尋找,通過信息交流等報送自己位置,從而確定是否找到最優解,最后所有鳥類都到達最優解處,即尋優完成。
理論解釋主要分為以下幾步。
1)初始化所有粒子,即給其速度和位置賦值,并將個體的歷史最優Best1 設為當前位置,群體中的最優個體作為當前的Best2。
2)在每一代的進化中,計算各個粒子的適應度函數值。
3)如果當前適應度函數值優于歷史最優值,則更新Best1。
4)如果當前適應度函數值優于全局歷史最優值,則更新Best2。
5)對每個粒子i的第d維的速度和位置分別按照公式(5)和公式(6)進行更新
梯度提升決策樹(GBDT)是一種利用殘差擬合弱學習器的集成算法,通過將多個弱學習器串聯起來,每個學習器學習的都是前一個學習器輸出的結果,最終逼近最終預測值,其計算流程如下。
1)初始化學習器。
2)計算殘差。
將所得rt,i作為預測值,計算當i=1,2,…,i時擬合得到第t棵回歸樹。
3)遍歷節點,計算回歸樹Tt的每個葉子節點Rt,j的輸出值ct,j
4)更新學習器。
式中:I表示學習率;J為葉子節點個數。
5)最終學習器。
本次研究所使用數據共118 組,為了增加模型泛化能力,采用隨機打亂的方式,將數據集按照7∶3 的比例進行訓練集和測試集的劃分,以粉煤灰、細骨料、粗骨料、粗骨料取代率、減水劑和水膠比作為模型輸入變量,以28 d 抗壓強度為輸出變量并將其代入所提出的PSO-GBDT 模型中,如圖2 所示,表示模型訓練集和測試集中試驗值和預測值的擬合情況。

圖2 PSO-GBDT 模型訓練集和測試集擬合圖
由圖2 可知,PSO-GBDT 模型訓練集決定系數R2=0.962 4,測試集決定系數R2=0.976 8,由圖2 可以發現經過PSO 算法優化的GBDT 模型擁有較為精確的預測精度。
為了更加全面地分析預測結果,如圖3 所示,繪制PSO-GBDT 模型試驗值和預測值的折線對比圖,并計算其誤差。

圖3 PSO-GBDT 模型折線誤差圖
通過圖3 可知,PSO-GBDT 模型訓練集絕對誤差在[0.01,4.57]之間,測試集絕對誤差在[0.26,3.75]之間,經過PSO 算法優化之后,模型的訓練集和測試集誤差減少,模型預測性能提升。
因模型未出現過擬合情況,測試集為反映模型訓練情況,所有通過計算測試集評估指標可知,PSO-GBDT 模型測試集決定系數R2=0.976 8,RMSE 為1.75,MAE 為1.50。
本研究首先通過數據分析,得出再生混凝土抗壓強度數據符合正態分布規律,然后使用PSO 算法優化GBDT 模型,從而使得模型具有較高的精度和較小的預測誤差,可以較大程度上縮短工程中獲取抗壓強度結果,減少試驗材料消耗,降低工程成本,對工程實際具有指導作用。