陳衛明,王家文,凡 東,郝世俊,趙江鵬,邱 雨
(1.中國地質大學(武漢) 工程學院,湖北 武漢 430074;2.中國地質大學(武漢) 自然災害風險防控與應急管理實驗室,湖北 武漢 430074;3.陜西省煤礦水害防治技術重點實驗室,陜西 西安 710077;4.中煤科工西安研究院(集團)有限公司,陜西 西安 710077)
煤炭作為我國重要能源之一,煤炭資源百分之九十以上為地下開采,且賦存條件較為復雜[1]。近年來,隨著煤礦資源開發的不斷深入,淺部煤層已開采殆盡,需增加礦區開采深度以滿足對煤礦能源的需求,多數采礦深度已經達到了800 m 以上,所處地質條件復雜。礦井透水、瓦斯等事故給煤礦安全生產帶來挑戰,礦山事故救援難度增大[2]。在礦難事故發生時,解救困在井下巷道的人員,快速建立應急救援通道是減少人員傷亡和經濟損失的關鍵[3]。目前救援方式主要有井下和地面兩種,相較而言,井下救援方式受制于災后巷道條件且危險系數大,因而地面鉆進救援技術應運而生,地面救援一般是通過小直徑鉆孔形成搜救孔結合探測設備搜尋被困人員,然后采用大直徑鉆孔構造救援孔營救被困人員[4]。在建立救援孔的鉆進過程中,由于地質構造復雜、鉆孔施工工藝及設備等各種因素會增加鉆進作業的危險性。其中井涌井漏事故屬于經常發生,且對人員生命與財產危害較大的鉆進事故類型[5]。為構建安全高效的救援通道,在鉆進過程中加強對該類事故的控制、建立高可靠性的事故預警預測系統顯得尤為重要。確保系統及時診斷鉆進事故并預測其發展狀態、使現場人員及時采取有效的事故控制措施,是保障礦山井下事故成功救援的關鍵[6]。
隨著機器學習技術在人類生產生活中的運用愈發廣泛,諸多國內外學者已將這類技術用于鉆孔鉆探行業的風險、事故識別控制中[7]。目前國內外學者對于鉆進過程事故診斷識別和預警研究開展了大量的研究工作,主要通過引入動力學建模、傳統機器學習、計算機大數據與神經網絡等算法實現對鉆進過程事故的預警預測[8]。(1)在動力學建模方面,國內外學者主要是采用精確的地質建模與壓力預測技術,配合隨鉆測量系統并建立數據更新模型實現鉆進過程事故預警[9];此外,還通過鉆進參數變化仿真建模模擬事故發生時的參數特征變化,為操作人員在鉆進過程事故診斷提供參考[10]。(2)在傳統機器學習方面,有學者提出將鉆進過程的實時工程參數作為輸入,鉆進狀態作為輸出,采用人工神經網絡實現井涌的早期計算和監測[11],后續研究又將鉆孔、地質等數據作為動態神經網絡的輸入,實現鉆孔井漏的預測計算[12],其研究思路是采用動態神經網絡模型學習鉆井工程參數的變化趨勢與事故之間的關聯關系從而建立石油鉆井事故預警方法[13]。(3)大數據技術與神經網絡算法相結合的方法是近年來的研究熱點,其基本研究思路是在歷史作業數據的基礎上,通過建立神經網絡模型實現對作業過程態勢預測,所采用的模型主要有BP神經網絡、案例推理、貝葉斯網絡、深度學習等。如利用鄰井作業數據,通過BP 神經網絡預測鉆井過程中鉆井液出口流量,并與正常鉆進過程的出口流量進行對比,實時監測井涌事故發展狀態[14];基于案例推理技術與鉆進事故表征數據,實時分析現場數據與歷史事故數據之間相似度,實現鉆進過程事故預警[15];基于貝葉斯網絡模型與鉆井工程參數,模型通過提取鉆進參數與井涌井漏事故之間邏輯關系,實現鉆進過程井涌井漏事故的預警預報[16]。基于LSTM 神經網絡模型與鉆井工程參數,學習鉆進參數時間序列數據與鉆進事故類型對應關系,實現鉆進過程事故預警[17]。綜上,國內外學者針對鉆進過程中的井涌井漏事故預警預測技術進行了大量的科學研究,也取得了較多的研究成果,但對于井涌井漏事故的診斷以及事故發展狀態預測的研究還處于探索階段,尚需進一步挖掘鉆進過程中的工程數據與井涌井漏事故之間的關聯,解決模型實際應用過程中存在預警預測效果不理想和泛化性較差等問題。
針對以上問題,構建了一種礦山地面救援通道鉆進過程中井涌井漏事故預警預測模型。模型由XGBoost事故診斷預警模型與PSO-LSTM 事故發展狀態預測模型組成。該模型首先對實時采集的鉆進參數進行數據清洗處理,提取時間節點的參數變化趨勢;然后通過XGBoost 集成分類模型對鉆進過程中井涌井漏事故進行早期的診斷識別;最后采用PSO-LSTM 神經網絡對事故發生后的孔底壓力參數發展趨勢進行預測,進而掌握井涌井漏事故的發展狀態與風險等級。該模型深度挖掘鉆進數據與事故之間的邏輯關系,且充分發揮機器學習技術在精準分析、快速高效判斷等優勢,實時分析鉆進數據、監測井涌井漏參數變化趨勢,實現實時預警預測,為救援鉆孔過程中井漏井涌事故控制提供了全新的思路。
在地面救援通道鉆孔過程中,轉盤或動力頭(頂驅)驅動鉆桿帶動鉆頭回轉,給進裝置或絞車通過控制鉆具的下放速度給予鉆頭適當鉆壓,泥漿泵循環泥漿沖洗井底、攜出巖屑,并維持井內壓力,保證井壁的相對穩定[18]。當地層中有自然形成的漏失通道或鉆井液密度過高時,地層壓力低于井筒內壓力,導致鉆井液從井內流入地層,造成井漏事故。當鉆遇高壓地層或起鉆速度過高時,地層壓力高于井筒內壓力,導致地層孔隙內的流體滲入井內,造成井涌事故[18]。井漏事故如未及時采取堵漏措施,會導致井下復雜情況或井下安全事故的發生;井涌事故如未及時采取控制措施,會對鉆井液造成污染,隨著井涌量增大,最終會演變為井噴等重大安全事故[19]。井涌井漏事故的失控會導致救援通道構建速度減緩、延誤最佳救援時間、降低鉆孔救援成功率,甚至危及救援鉆孔作業人員的生命安全[20]。
在井涌井漏事故發生初期,可通過鉆進工程參數的異常變化診斷事故,但依據某一項參數的變化識別鉆進事故并不全面。為充分挖掘鉆進參數與事故之間的邏輯關聯,需綜合考慮多項鉆進參數來識別井涌井漏事故,以此確保預警模型的準確性與科學性。經過對井涌井漏事故的分析,選取以下4 項鉆進參數進行討論。
(1) 總池體積:整個鉆進循環系統鉆井液量保持不變情況下,如遇井涌事故,鉆井液返出量增大,泥漿池液面高度會增加,故泥漿液總池體積增大;如遇井漏事故,鉆井液地層內滲漏導致井筒內鉆井液減少,鉆井液返出量減少,故泥漿液總池體積減小。
(2) 立管壓力:在正常鉆進時,立管壓力通常保持相對平穩的狀態,而發生井涌事故時,會導致立管壓力上升或下降;發生井漏事故時,鉆井液返速減小,與環空間的摩阻減小,會導致立管壓力下降。
(3) 出入口流量差:在正常鉆進過程中入口流量保持不變的情況下,如發生井涌事故,鉆井液的出口流速、流量增大,導致出入口流量差增高;如發生井漏事故時,井筒內泥漿部分滲入到地層中,出口流量減小,導致出入口流量差減小。
(4) 動力頭負荷:地層內流體密度與鉆井液密度存在差異,通常地層流體密度小于鉆井液密度,如有井涌井漏事故時,密度差產生的浮力變化會導致動力頭載荷產生上下浮動。
出入口流量差導致總池體積發生變化,由于監測過程不同且鉆進參數在傳輸過程可能產生數據丟失或者是信號弱的情況,二者可作為互補參數以提高模型可靠性;立管壓力與動力頭負荷這兩項參數在正常鉆進過程中變化不大,在出現井涌井漏事故時這兩項參數上升或下降的比例相對增加,能一定程度表征井涌井漏事故的發生。
綜合以上討論,選取這4 項鉆進參數,作為井涌井漏事故診斷的特征參數,通過其變化發展趨勢判斷是否發生井涌井漏事故。鉆進參數的發展變化趨勢與事故類型的邏輯關系見表1。

表1 鉆進參數與事故邏輯關系Table 1 Logic relationship between drilling parameters and accidents
實時監測鉆進參數的變化情況,根據表征參數在一定時間窗口內的變化趨勢,即可預知井涌井漏事故的發展態勢,為現場作業人員提供充足的數據支持與準備時間,迅速采取科學合理的應急措施,有利于鉆孔作業繼續開展。此外,在鉆進過程中,維持孔底壓力與地層壓力之間的動態平衡至關重要,當孔底壓力與地層壓力之間的平衡被打破時,會導致井涌井漏事故發生。因此,孔底壓力是現場技術人員重點關注的參數,也能直接反映井涌井漏事故的發展狀態。孔底壓力參數的變化是由多種因素綜合導致的,既與當前鉆進的地質構造條件有關又與人為操作等因素有關,若設想采用多相方程去計算孔底壓力參數的變化趨勢,則需要考慮的因素過多、計算過程復雜,難以滿足救援鉆孔施工現場實時預測的需求,無法快速準確預測孔底壓力參數發展趨勢。孔底壓力參數的變化與時間關聯密切,數值并非隨機產生而是具有一定規律性,因此,本文考慮將其視為一維時間序列數據去進行分析。通過預測孔底壓力參數在事故發生后的變化趨勢,掌握井涌井漏的嚴重程度與發展狀態。
綜合分析各個事故表征參數的特點,選取總池體積、立管壓力、出入口流量差及動力頭負荷這4 個參數作為事故預警模型的特征參數,將孔底壓力作為預測模型的特征參數。
模型首先對鉆孔現場實時采集的鉆進參數進行數據清洗處理,提取時間節點的參數變化趨勢;然后通過XGBoost 事故診斷預警模型對井涌井漏事故進行早期診斷識別;最后采用PSO-LSTM 事故發展預測模型對事故發生后的孔底壓力參數的發展趨勢進行預測分析,實現事故發展趨勢和風險程度的提前預警,使司鉆人員及時采取有效科學的安全控制措施,保證救援鉆孔作業高效開展。
作為目前機器學習領域最熱門的研究方向之一,集成學習在工程技術方面的應用愈發廣泛,XGBoost 作為集成學習中一種高效的梯度提升決策樹算法,在原有的梯度提升樹(GBDT,Gradient Boosting Decision Tree)基礎上優化改進,使得模型運算效果得到大幅提升[21]。作為一種前向加法模型,采用集成思想-Boosting思想,將多個弱學習器組合為一個強學習器[22]。即用多棵樹共同決策,并將所有的結果累加得到最終的結果,以此提升模型的性能[23]。構建XGBoost 事故診斷預警模型,挖掘鉆孔過程中鉆進參數趨勢變化規律與井涌井漏事故之間的映射關系,實現對鉆進過程井涌井漏事故進行早期的診斷識別。根據井涌井漏事故表征規律的分析,構建多分類XGBoost 機器學習模型,基于實際工程數據,訓練XGBoost 分類模型。通過輸入總池體積、立管壓力、出入口流量差和動力頭負荷這4 項鉆進參數的時間節點變化趨勢,輸出無事故風險、井涌風險、井漏風險這3 種標簽,判斷事故類型。
由于在鉆孔施工現場監測采集到的鉆進參數單位各不相同,變化范圍往往也具有較大差異,例如立管壓力的變化范圍大概為0~10 MPa,而總池體積的變化范圍大概為0~120 m3。并且由于地質和工程技術等因素,對于同一項工程參數,不同鉆孔的變化范圍也都有所差異。雖在發生井涌井漏事故時對應參數的變化趨勢大體相同,但由于具體數值不同,不利于模型的訓練與驗證。為了保證后續參數趨勢特征提取以及模型訓練的準確性,需要對采集到的鉆進參數進行數據清洗工作。為消除不同單位與量綱之間的影響,以及在網絡訓練中更快達到收斂。由于本文采集到的數據集中,故選用消除量綱和數據取值范圍影響的最簡單的Min-Max 標準化進行數據歸一化。采用歸一化處理,使得各個鉆進參數都映射到[0,1]。Min-Max 標準化如下式:
經過Min-Max 標準化處理后的數據能夠屏蔽數據值不同帶來的影響,專注于保留數據本身的發展趨勢特征,有效提升了模型的準確性與泛化性。
此外,由于外界因素的干擾,所采集到的鉆進參數往往含有噪聲,如果對含有過多噪聲的數據進行趨勢特征提取往往無法保證趨勢提取的準確性,為降低噪聲對趨勢特征提取的影響,采用對周期性干擾有良好的抑制作用的滑動平均法對歸一化后的數據進行處理,公式如下:
經過滑動平均法處理后的數據規避了某單個噪聲點所帶來的不確定性,平緩了數據抖動、完整地保留了原始數據的整體趨勢,在確保關鍵信息沒有丟失前提下,加快趨勢特征提取算法的運算速度與準確性。
對鉆進參數進行歸一化和滑動平均法處理后,消除了不同鉆孔之間的數據差距,著重于數據的趨勢特征提取。引入長短期均值差值概念來判斷時間節點的參數變化趨勢。當前時間節點前S-T 秒時間窗口內的數據均值作為此時間節點的短期時間窗口均值,記為MST;當前時間節點前L-T 秒時間窗口內的數據均值作為該點的長期時間窗口均值,記為MLT。那么長短期均值差就被定義為MST與MLT的差值,記為MD,公式如下:
選取的時間窗口長度大于數據隨機波動周期,故當參數呈上升趨勢時,短期均值始終大于長期均值,MD值大于零;同理當參數呈下降趨勢時,MD值小于零。
識別井涌井漏事故發生后,如提前掌握事故發展狀態,方可為后續的井涌井漏事故處置提供科學方法與數據支持,有利于鉆孔過程順利進行。孔底壓力參數的變化情況能夠迅速準確表征井涌井漏事故的發展狀態。將孔底壓力參數視作一維時間序列數據,采用經粒子群算法優化的長短期記憶網絡(PSO-LSTM)預測一定時間窗口后的孔底壓力變化情況。
LSTM 是應用最廣泛的循環神經網絡之一,針對RNN(Recurrent Neural Network)長期記憶力不足、存在梯度消失與梯度爆炸等問題而提出[24]。LSTM 相比于RNN,在訓練長時間序列時有更好的性能表現。LSTM引入門控機制來控制長期信息的累積程度,有選擇地加入新信息,有選擇地遺忘累積的信息[25]。LSTM 網絡結構如圖1 所示。

圖1 LSTM 網絡結構Fig.1 LSTM network structure
LSTM 有遺忘門、輸入門和輸出門3 個門控單元。
(1) 遺忘門:控制上一個時刻的記憶單元狀態Ct-1需要遺忘多少信息、保留多少信息到當前記憶單元狀態Ct。計算如下式:
(2) 輸入門:決定當前時刻輸入xt有多少信息輸入到當前記憶單元狀態Ct。計算如下式:
(3) 輸出門:控制當前時刻的記憶單元狀態Ct有多少信息給到輸出狀態ht。計算如下式:
雖然長短期記憶網絡的出現解決了傳統循環神經網絡的些許不足,但在模型訓練過程中,其網絡超參數往往難以確定,不同參數的選取對預測結果存在很大的影響[26]。粒子群優化算法最初是受到飛鳥集群活動的規律性啟發,利用群體智能而建立的模型[27]。粒子群算法在對動物集群活動行為觀察基礎上,利用群體中的個體對信息的共享使整個群體的運動在問題求解空間中產生從無序到有序的演化過程,從而獲得最優解[28]。因此,粒子群算法廣泛應用在解決各種超參數優化問題。應用粒子群優化算法對LSTM 神經網絡的隱藏層個數L1、學習率ε和訓練迭代次數k這3 個超參數進行搜索,建立PSO-LSTM 模型,尋找最優參數組合使預測結果更加精準。基于PSO 優化LSTM 網絡超參數的具體步驟如下。
(1)預處理原始數據,使用歸一化、滑動平均法進行處理,將數據縮放到一個區間,消除不同單位與量綱帶來的影響,同時降低了噪聲對趨勢特征提取的影響。
(2)建立LSTM 模型,確定使用粒子群算法尋優的超參數,隱藏層個數L1,學習率ε,訓練迭代次數k,并確定各超參數的尋優范圍。
(3)初始化PSO 粒子群參數,包括尋優粒子數、迭代次數、權重系數和加速因子。
(4)隨機初始化每個粒子的位置和速度:
(5)采用均方根誤差(ERMS)設置為PSO 的適應度函數f(x):
(6)計算對比粒子每次迭代時的適應度值,確定個體最優及全局最優位置,依據式(10)、式(11)不斷更新粒子的速度和位置,直到達到迭代次數或者滿足收斂條件。此時,適應度達到最優值,方可確定LSTM 網絡模型的隱藏層個數、迭代次數和學習率的最優超參數組合。
PSO-LSTM 神經網絡模型的預測流程如圖2 所示。

圖2 PSO-LSTM 預測模型流程Fig.2 PSO-LSTM prediction model process
選取3 組井的實際鉆進數據作為XGBoost 模型的訓練數據集,這3 組工程數據包括了402 項井涌事故數據、267 項井漏事故數據以及124 項正常鉆進的數據。總池體積、出入口流量、立管壓力、動力頭負荷這4 項參數在實際情況中同步獲取。
訓練數據集中4 種鉆進參數的變化趨勢符合井涌井漏事故表征規律分析,3 組數據采樣時間間隔均為30 s,選取的時間窗口長度大于經過數據清洗處理后數據的隨機波動周期。因此,長短期均值差的值可快速準確地表征數據的變化趨勢,得到時間節點參數變化情況以及對應的鉆進狀態。由于發生事故時這4 種參數的變化趨勢會有所差異,訓練數據要包括所有可能發生的情況,以確保模型的準確性與通用性。表2-表4 中的所有數據都已經過標準化處理。由于數據量較大,因此,表2-表4 從完整數據集中隨機選取具有代表性的幾組數據。模型部分的訓練數據見表2,其中標簽1 代表無事故風險、標簽2 代表存在井涌事故風險、標簽3 代表存在井漏事故風險。

表2 XGBOOST 事故診斷模型訓練數據Table 2 Training data of XGBOOST
表2 中序號50~55 這6 行數據是正常鉆進過程無井涌井漏事故的訓練數據,理想情況下數值不應有波動,即長短期均值差值MD都應為零。考慮到在數據監測以及數據處理過程中存在誤差,因此,這些無事故的訓練數據都為絕對值較小的數值且不考慮正負。
選取一組井涌數據和一組井漏數據驗證模型預警的有效性。對這兩組數據進行歸一化以及滑動平均法處理,驗證數據采樣時間間隔與訓練集相同也為30 s。對這兩組數據進行趨勢特征提取,得到時間節點鉆進參數的長短期均值差,由此表征參數的變化趨勢。針對這兩組井段數據特點,短時間窗口選擇3 min,長時間窗口選擇5 min。驗證集井涌數據各時間節點鉆進參數變化趨勢與實際鉆進狀態見表3。驗證集井漏數據各時間節點鉆進參數變化趨勢與實際鉆進狀態見表4。

表3 井涌時參數變化趨勢Table 3 Variations trend of kick parameters

表4 井漏時參數變化趨勢Table 4 Variations trend of lost circulation parameters
通過將表3、表4 的數據輸入模型,通過事故報警是否及時這一評價指標去評價XGBoost 事故診斷模型的有效性。針對井涌事故數據,該模型在第35 個時間節點診斷出該井段發生井涌事故,這與數據的所記錄的事故發生時間節點一致;針對井漏事故數據,該模型在第37 個時間節點診斷出該井段發生井漏事故,也與數據所記錄的時間節點相同。
綜合實際鉆進數據實驗分析,得出XGBoost 集成分類模型適用于鉆進過程中的井涌井漏事故預警,其診斷速度快、準確性高,不存在虛報漏報的情況。XGBoost模型的參數多達幾十個,其分類效果很大程度上依賴于參數的選擇。用傳統方法尋找最優參數存在效率低下、準確性低等問題。在未來的研究中可考慮應用模擬退火(Simulated Annealing)、遺傳算法(Genetic Algorithms)和貝葉斯優化(Bayesian Optimization)等智能優化算法實現超參數的尋優,更好地發揮模型的優勢。
針對PSO-LSTM 事故發展預測模型,應分別選取井涌、井漏事故后的孔底壓力參數作為模型驗證數據。由于兩種情況實驗分析原理類似,因此,選取發生井涌事故的孔底壓力參數作為模型驗證數據進行實驗分析。數據的變化趨勢符合事故發生后的孔底壓力參數變化的一般規律。數據采樣間隔為一個時間節點30 s,孔底壓力參數在第160 個時間節點附近發生明顯下降,發生井涌事故。孔底壓力隨時間變化情況如圖3 藍色線條所示。

圖3 孔底壓力時序與各模型預測結果對比Fig.3 Comparison of downhole pressure time series data and various model prediction results
基于井涌事故發生前的孔底壓力參數數據去訓練PSO-LSTM 神經網絡模型,學習孔底壓力變化發展規律,預測井涌事故發生之后孔底壓力參數的發展趨勢。同時選取BP 神經網絡、循環神經網絡(RNN)以及支持向量機(SVM)這3 個傳統時間序列預測模型作為對照組進行試驗,驗證PSO-LSTM 神經網絡模型預測孔底壓力參數的可行性。選取發生井涌事故之前的孔底壓力數據作為訓練集,事故之后的孔底壓力參數作為驗證集。這4 種模型預測的預測結果如圖3 所示。
通過觀察預測對比圖可得出BP、RNN、SVM、PSO-LSTM 這4 種預測模型都可以預測出孔底壓力時間序列數據發展的大概趨勢,BP 神經網絡與SVM 雖然成功預測了孔底壓力的大致發展趨勢,但是由于這兩個模型的網絡結構特點不擅長學習長期數據之間的關聯關系。導致數據預測值與真實值誤差較大,不能很好地反映出井涌事故的發展狀態;RNN 與PSO-LSTM 都屬于循環神經網絡,能夠很好地學習并且長時間序列數據的波動性與趨勢性,但是由于RNN 存在長期記憶力不足和無法確定最優超參數組合等問題。因此在預測數據的準確性上遜于加入了粒子群優化算法的PSO-LSTM神經網絡。
綜上PSO-LSTM 模型在訓練長時間序列時,通過其他神經網絡模型所不具備的三個門控單元更好學習孔底壓力參數發展規律。能夠很好地預測孔底壓力參數的趨勢性,對具有波動性的趨勢突變數據點預測及時準確,與真實數據擬合的效果最好,可作為高效精準的孔底壓力參數預測工具。
為定量評價4 種預測模型的準確性,采用均方根誤差(ERMS)、平均絕對百分比誤差(EMAP)、平均絕對誤差(EMA)以及決定系數(R2)共4 項作為預測模型性能的評價指標,對模型預測準確性進行分析判斷。其中ERMS、EMAP、EMA這3 項評價指標都能夠反映出真實值與模型預測值的誤差大小,指標數值越小代表預測精度越高;R2的取值范圍為[0,1],用來描述模型對觀測數據的擬合程度,R2越接近1 表示模型對數據的擬合程度越好。這4 項指標的計算式為:
下面對各個模型的預測性能進行定量分析,評價指標具體結果見表5。

表5 各模型的評價指標Table 5 Evaluation indicators for various models
通過表5 方可直觀對比4 項評價指標的值,BP 神經網絡與SVM 的各項評價指標數值是各模型中最大的,與上文的根據預測圖像分析的結果一致,模型預測結果與真實孔底壓力參數的發展狀態相差較大,與真實值擬合效果較差。傳統循環神經網絡的EMAP、EMA、ERMS比PSO-LSTM 高,R2比PSO-LSTM 低,與真實值的擬合效果不如PSO-LSTM。綜合EMAP、EMA、ERMS、R2這4 項誤差評價指標,PSO-LSTM 模型的預測性能是最優秀的,準確反映了孔底壓力參數的變化趨勢。PSO-LSTM 模型在預測時間序列數據時,通過訓練學習歷史時間序列數據發展的趨勢性與周期性等信息。結合孔底壓力參數前后序列值非隨機產生,在時間維度上具有一定規律性與關聯性等特點。模型在遇到趨勢突變的孔底壓力參數時,根據模型學習得到數據之間的關聯信息,即能準確地預測趨勢突變的數據點。
PSO-LSTM 模型在LSTM 基礎上進行了優化,解決了傳統LSTM 網絡參數難以確定的問題,PSO-LSTM模型在實際應用中仍然存在一些缺陷。模型在時間序列預測中沒有考慮不同時間節點的歷史狀態對當前值的影響存在差別,在未來的研究中可以引入Attention機制來捕捉時間序列的深層關聯信息;模型在訓練深層神經網絡時,容易出現過擬合現象,因此可以在模型基礎上加入Dropout 神經元優化技術來解決過擬合現象,增強模型的泛化能力。
a.針對井涌井漏事故診斷以及事故發展狀態預警預測的效果不理想與魯棒性差等問題,提出了一種基于機器學習的鉆進過程井涌井漏事故預警預測模型,豐富了鉆進過程井涌井漏事故預警預測方法,為構建安全高效救援通道提供了安全技術保障,具有一定的理論價值與現實意義。
b.利用實際鉆進數據對基于XGBoost 的井涌井漏事故診斷預警模型進行測試分析表明,此模型適用于鉆進過程中的井涌井漏事故預警,其診斷速度快、準確性高,不存在虛報漏報的情況。
c.通過PSO-LSTM 與BP、RNN、SVM 進行對比,PSO-LSTM 能夠很好地預測孔底壓力參數的趨勢性與波動性,且對趨勢突變的數據點預測及時準確,與真實數據擬合的效果最好;綜合EMAP、EMA、ERMS、R2這4項誤差評價指標,PSO-LSTM 模型的預測性能最佳,能準確反映孔底壓力參數的變化趨勢。
d.在事故發展趨勢預測中,僅考慮了孔底壓力參數的單一變量預測事故發展態勢,沒有考慮多變量對預測結果的影響。將來可以考慮加入多項參數去綜合表征鉆進過程中井涌井漏事故的發展狀態,提高預測模型的通用性;XGBoost 和PSO-LSTM 模型很難解釋其內部的決策過程,常常被歸為"黑盒"模型。將來可以考慮通過特征重要性分析等方法增加模型的可解釋性。
符號注釋:
bc為隱藏單元的偏置項;bf為遺忘門的偏置項;bi為輸入門的偏置項;bo為輸出門的偏置項;c為加速因子;Ct為當前時刻的記憶單元狀態;為隱藏單元狀態;EMA為平均絕對誤差;EMAP為平均絕對百分比誤差;ERMS為均方根誤差;ft為遺忘門控單元;ft⊙Ct-1為Ct-1有多少信息被遺忘;gj(k) 為粒子j在第k次迭代的全局極值的位置;ht為當前時刻輸出狀態;[ht-1,xt]為上一個時刻的輸出狀態ht-1與當前時刻輸入xt這兩個向量進行拼接后的矩陣;i為數據的序號;it為輸入門控單元;有多少信息被保留;j為滑動窗口內數據項;k為迭代次數;MD(i) 為長短期均值差;MLT(i)為長期均值;MST(i) 為短期均值;n為樣本序列數量;ot為輸出門控單元;pj(k) 為粒子j在第k次迭代的個體極值的位置;R2為決定系數;r(k) 為 [0,1] 內的隨機數;t為對應當前時刻;tanh 為雙曲正切激活函數;vj(k) 為粒子j在第k次迭代時的速度;Wf為遺忘門的權重矩陣;Wi為輸入門的權重矩陣;Wo為輸出門的權重矩陣;Xi為原始序列;為歸一化處理后的數據;xj(k) 為粒子j在第k次迭代時的位置;Xmax為序列最大值;Xmin為序列最小值;yavr為滑動平均處理后的數據;為序列真實值;為序列預測值;ynorm為原序列的數據;為序列預測值的平均值;ω為權重系數;σ為Sigmoid 激活函數。