基于隨機森林回歸的清防垢加藥量預測方法

2022-02-22 12:20:40李春生張圣權張可佳

計算機技術與發展 2022年1期

關鍵詞：特征模型

李春生，張圣權，張巖，張可佳

(東北石油大學計算機與信息技術學院，黑龍江大慶 163318)

0 引言

制定科學的清防垢方案是油田解決采出系統結垢的主要手段，清、防垢劑的藥量控制是方案實施的關鍵，因此更加精確的預測加藥量對油田的穩產具有重要意義。

目前，國內外對清防垢加藥量預測主要有以下三個方向：

(1)室內模擬試驗。針對不同油田，室內模擬預測加藥量。由于不同油田具有差異性，該方法泛化能力弱，可移植性差，難以推廣應用。

(2)數據分析預測。通過挖掘數據間的聯系進行數學建模，得到加藥量預測模型。主要有決策樹、支持向量機、人工神經網絡等類別。CART多用于分類，處理特征多、相關性強的數據時準確率低。SVM難以訓練大規模樣本，難與油田大數據匹配。ANN收斂速度慢、易過擬合，在波動劇烈時段常出現較大偏差，且其多數研究是對浮選過程加藥量預測。

(3)人工經驗預測。通過經驗預測不同結垢階段的加藥量。該方法具有效率慢、預測精度低、清防垢效果差等弊端。

經研究發現隨機森林回歸應用在采出井結垢預測領域效果較好，而結垢預測與加藥量預測相似程度較高，通過大量研究，發現隨機森林回歸泛化能力強、對誤差的敏感度不高、可分析特征重要度，且能同時處理連續、離散屬性，運行效率高。綜上所述，該文應用隨機森林回歸算法進行清防垢加藥量預測。

1 隨機森林回歸算法

隨機森林是Leo Breiman在21世紀提出的基于決策樹的機器學習算法，在機器學習算法中，隨機森林回歸預測精度較高，在環境、電力、醫學等領域得到了廣泛應用，但將其應用在油田領域的卻少之又少。

1.1 隨機森林回歸算法原理

隨機森林回歸算法以其子模型決策回歸樹為基學習器，在結合Bagging方法的基礎上，在決策回歸樹的訓練過程中引入隨機特征屬性的選擇，該算法由多棵決策回歸子樹構成。其原理為：首先，采用bootstrap抽樣方式從原訓練集中抽取相同樣本容量的

個樣本，然后按隨機選取一定數目特征的方法將

個子訓練集生成決策回歸樹，以構成隨機森林，最后，對于

個測試樣本，以每棵決策回歸樹輸出的均值為最終結果。其示意圖如圖1所示。

圖1 隨機森林回歸示意圖

隨機森林應用隨機特征子空間和裝袋算法，使模型的泛化能力得到提高。通過研究表明，決策樹的數量、最大特征數和樹最大深度對隨機森林回歸模型的預測影響很大，所以這三個參數的取值至關重要。

1.2 模型參數確定及評價標準

影響模型效果的因素有很多，其中最為關鍵的就是參數選擇，它可以有效避免過擬合，從而提高模型的泛化能力。在機器學習和統計學中常用K折交叉驗證的方法評價模型的泛化能力，K折交叉驗證基本流程如下：

(1)將原始訓練集進行互不相交的劃分處理，分成

個子集；(2)將

個子集中的

-1份取出，用于訓練，剩余1份用于測試；(3)重復

次訓練，將各次指標的均值作為交叉驗證模型的指標。

網格搜索是一種調參方法，通過指定參數值，循環遍歷參數范圍，采用交叉驗證方法得到最優參數。該方法既簡單又高效，同時又有很強的通用性，因此，該文采用網格搜索算法進行參數選擇，進而得到參數最優的模型。

在評價模型時，采取通用的模型精度和效率作為評價指標，作為模型結論與實際值的吻合程度的衡量標準。

(1)模型精度。

平均相對誤差MRE和確定性系數R是評價模型預測精度的兩個主要指標，MRE越小、R越大，則模型精度越高。

(1)

(2)

(2)模型效率。

模型效率主要以模型的訓練時間作為評價依據，訓練時間越短，則模型效率越高。

2 特征篩選與數據預處理

2.1 隨機森林特征篩選

特征選取涉及影響清防垢加藥量的不同要素，在預測的時候，將先驗樣本輸入模型，會出現特征相關性較小的現象。因此，建立預測模型的關鍵，就是篩選出信息量大的、有關聯的、有差異的影響特征。為了使預測模型更加準確，該文利用隨機森林回歸篩選出樣本中的關鍵特征，算法原理是隨機改變某特征的取值，認為對訓練樣本的特征加入噪聲，對訓練集上的袋外錯誤率進行計算。袋外誤差是一種無偏估計，經過多次重復，它們的平均數接近參數真值。袋外錯誤率代表了模型的泛化能力。如果誤差增加得越大，說明該特征越重要，因此可以得到輸入樣本特征的重要程度分布，根據分布可以對輸入特征進行篩選，忽略與預測無關或者相關性系較小的特征，從而提高模型的預測精確度，增加模型的魯棒性。設模型原袋外誤差為

，對樣本特征值

增加噪聲干擾，現模型的袋外誤差為

，則該特征的重要度

為：

(3)

其中，

為模型先驗輸入的特征集。

2.2 數據預處理

經過對油田專家充分的調研和實驗分析，選取預測加藥濃度、實際加藥濃度、計算排量等20種特征因素作為特征分析對象。表1列出了選取出的具體特征因素。

表1 特征因素選取

其中采出井的生產數據、藥劑濃度、加藥泵流量、加藥泵計算排量屬于數值型特征，其余為非數值型特征。該文對非數值型特征進行量化，轉化為數值型特征并放入“[]”中。例如：“預測結垢類型”取值為“[1,2]”，分別代表2種結垢類型：碳酸鹽垢、硅酸鹽垢；“藥劑類型”取值為“[1,2,3]”，分別代表3種藥劑類型：碳酸鹽防垢劑、硅酸鹽防垢劑、緩釋阻垢劑；“結垢階段”的取值為“[1,2,3]”，代表3種結垢階段：結垢前期、結垢中期、結垢后期；“加藥類型”取值為“[1,2]”，代表2種加藥類型：井口加藥、計量間加藥；“加藥方式”取值為“[1,2,3,4]”，代表4種加藥方式：間歇加藥、集中加藥、連續點滴加藥、清防一體加藥。

3 基于隨機森林的清防垢加藥量預測模型建立

根據隨機森林基本原理，隨機森林回歸預測清防垢加藥量的模型構建流程如圖2所示。

圖2 隨機森林回歸模型預測流程

由圖2可知，隨機森林回歸預測清防垢加藥量的模型構建的具體步驟如下：

步驟一：特征選取與預處理。根據經驗選取輸入特征，收集數據并進行預處理，得到樣本集。

步驟二：網格搜索及交叉驗證。可分為以下8個子步驟：

(1)將樣本集劃分為訓練集和測試集，對訓練集進行

折劃分；(2)根據經驗和特征維度設定網格搜索的參數范圍，設定決策樹數量

、最大特征數

、樹最大深度

；(3)選取訓練集中的任意

-1折數據；(4)選取網格搜索范圍內的任一組參數，從選取的

-1折數據中有放回地抽取樣本數據(等于樣本總數)作為單棵決策樹的樣本；(5)利用網格搜索參數中的特征集選擇方法從特征集中選取

個特征，當樹深小于樹最大深度時，根據最優分支特征和分割點，將該節點樣本分支到下一層兩個節點中，直到達到預定的樹的棵數

；

(6)對上述隨機森林預測剩余的一折數據進行計算，得出預測數據的確定性系數，將其作為評價指標；

(7)重復步驟(4)～(6)，完成測試集數據

-1種組合的遍歷，計算出所有組合的評價指標，并求其平均值，作為該組參數所確定的模型的評價指標；

(8)重復步驟(3)～(6)，直到遍歷網格搜索的所有參數組合，選取最優的模型參數。

步驟三：構建隨機森林回歸模型。根據步驟(8)選取的最優參數，對測試集的所有數據重復步驟(5)建立隨機森林回歸模型。

步驟四：特征篩選。整理樣本的各個特征取值，并對其進行噪聲處理，用公式(3)計算各個特征的重要度。

步驟五：將特征重要度比較高的

個特征篩選出來，重復步驟二，構建參數優化后的隨機森林回歸模型。

步驟六：輸入測試集數據，得到每棵樹的回歸結果，進行取均值操作，最終得到模型預測結果。

4 實例驗證

4.1 特征集選取

該文選取大慶市某采油廠某三元復合驅區塊的189口采出井2020年1月至9月的清防垢數據，先驗輸入特征選取結垢預測數據、生產數據及加藥數據等20維數據，其中，訓練集為9月1日零時前的數據，共6 086個，測試集為9月1日零時后的數據，共764個。

4.2 初始模型參數設定

參數設定的范圍決定了網格搜索計算的時間，范圍越大，計算時間就越長。該文根據經驗確定了決策樹數量的范圍，參考樣本條件確定了最大特征數和樹最大深度的范圍，設定參數范圍如表2所示。最終通過計算，得到各個參數在訓練集上的交叉驗證表現情況，其中交叉驗證分數最高為0.531 0，對應的參數如下：決策樹數量為27，最大特征數為12，樹最大深度為3。

表2 初始模型參數設定

4.3 特征篩選

通過網格搜索確定參數后，改變訓練集各個特征的取值，得到各特征的重要性，分別如圖3所示。

圖3 特征重要度分布

由該結果可知原特征集20維特征中重要性最高的為預測日當天的計算排量數據，其次為前一天的實際加藥量數據，剩余18項特征的重要性排序依次為：實際加藥濃度、預測加藥濃度、泵流量和前兩天實際加藥量數據，而其他14項特征與預測日實際加藥量的關聯性較低，不會對加藥量預測模型效果產生影響，所以將這14項特征進行剔除。最終選取輸入特征6個，分別為預測日當天的計算排量數據、前一天的實際加藥量數據、實際加藥濃度、預測加藥濃度、泵流量和前兩天實際加藥量數據。

4.4 預測模型參數設定

利用網格搜索方法，計算各個參數在新的樣本訓練集上的交叉驗證得分情況，其中交叉驗證分數最高為0.592 0，對應的參數為決策樹數量為44，最大特征數為3，樹最大深度為4。參考上述結果，選取最優參數如表3所示。

表3 預測模型參數設定

4.5 模型預測結果

為了避免隨機森林回歸在構建模型過程中的隨機性，該文進行了60次試驗，得到所有結果中的最小值、最大值及平均值，如表4所示。其中指標MSE、R分別為預測集上的均方誤差、確定性系數，time、oobscore分別為模型運行時間和袋外誤差。

表4 隨機森林模型預測結果統計

從表4得知，R的平均值為0.763，說明模型的精度較高，oobscore的平均值達到了0.835，說明模型的泛化能力較強，因此，模型的預測結果是比較穩定的。

4.6 模型對比

為了驗證特征篩選方法和隨機森林回歸模型在清防垢加藥量預測的實用效果，該文使用相同數據集進行相同次數的訓練實驗，分別利用人工神經網絡回歸模型、支持向量機回歸模型、決策回歸樹進行預測，得出了各個模型在最優參數下的預測結果，數據如表5所示。其中RFR代表未經特征篩選，RFR’代表經過特征篩選。

表5 模型預測結果對比

整體分析以上預測結果可以得出如下結論：

(1)從模型預測的平均誤差來看，經特征篩選后的隨機森林模型取得了最高的預測精度，與ANN、CART和SVR相比，平均誤差分別減少了25.3%、34.4%和24.4%；未經特征篩選的隨機森林模型預測精度也比較高，比ANN、CART和SVR的平均誤差分別減少了23.7%、33%和23%；

(2)從特征篩選的結果來看，經特征篩選后的隨機森林模型的預測精度更高，平均誤差較未經特征篩選的隨機森林回歸模型減小了1.86%，證明了特征篩選對提高模型的預測精度具有一定作用；

(3)在訓練時間方面，人工神經網絡和支持向量機的訓練時間是隨機森林模型的幾十倍，說明隨機森林模型計算效率更高，具有明顯的時間優勢，更適合大規模樣本的訓練。

綜上所述，經特征篩選后的隨機森林回歸模型比其他預測模型具有更強的優越性。

5 結束語

該文將隨機森林回歸應用于復合驅清防垢加藥量的預測，為了提高預測精度，通過隨機森林特征重要性評估功能對輸入的20維特征進行篩選，以此來剔除不必要的干擾項，分析清防垢數據特點，完成加藥量預測模型的構建。對于模型的預測結果，通過真實數據進行驗證，證實該模型預測精度高、穩定性強，并且經過特征篩選后，模型預測精度更高。因此，將基于隨機森林回歸的預測模型應用于清防垢作業中來解決加藥量預測問題是一種切實可行的思路和方法。