基于形態相似度識別的大數據分析方法在測井巖性識別中的研究

2023-05-30 06:26:59郭林沈東義毛火明袁秋霞

電腦知識與技術 2023年3期

關鍵詞：數據挖掘大數據

郭林　沈東義　毛火明　袁秋霞

關鍵詞：大數據；測井；數據挖掘；Apache Spark；并行計算

中圖分類號：TP311 文獻標識碼：A

文章編號：1009-3044（2023）03-0054-03

1 引言

隨著互聯網和云計算技術的發展，大數據的理念和技術的應用已經在工作和生活中發揮了越來越重要的作用。海量數據的出現，催生了新的科研模式，為更綜合且更復雜的系統問題提供了更多的解決方案，即面對海量數據，科研人員可以從數據中直接查找或挖掘所需要的信息、知識，更加快捷地得出所需的結論[1] 。

石油行業大數據的開發應用還處于起步階段，但很多石油公司在信息化建設中，已針對多年積累的數據建立了數據模型，并研發了對應的大數據分析軟件，例如油井數據的實時采集、實時生產監控分析系統等，都是大數據在石油行業的基本體現[2]。對此，渤海石油研究院近幾年在測井巖性分析、儲層預測、壓力預測等多方面也進行了大數據的分析與研究。本文重點介紹在測井巖性分析方面的研究，對于未進行鉆井取心的新井，某些層段復雜巖性不易判斷時，通過從一個工區甚至更大范圍內自動找到類比的參考井，以大數據分析手段確定目標井的巖性，進而類比參考井已有資料進一步判斷目標井含油氣性和產能。

2 測井解釋的大數據適應性分析

測井解釋能否適用大數據分析方法，要從測井解釋的原理和數據特點出發，根據目前行業對大數據的認識，大數據指是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合，具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。大數據的意義在于利用相關數據進行分析和統計得出預期結果甚至是傳統方法無法得出的結論，可以幫助我們降低成本、提高效率、開發新產品、做出更明智的業務決策等[3]。因此，結合實際，測井數據符合大數據的以下“5個V”的特點：

（1）數據規模大（Volume）：油田幾千口井乃至上萬口井的數據，上千米的井深且每隔0.1米一個采樣間隔，同時對應著多條常規測井曲線，從數據量上完全可以達到大數據的分析要求并得出正確的結論；

（2）數據多樣性（Variety）：測井解釋的過程中，除了常規測井曲線外，還需同時綜合參考DST測試、核磁共振測井、陣列聲波測井、成像測井、生產動態、巖礦分析等資料；

（3）數據處理時效性（Velocity）：測井解釋的數據可以進行及時處理，滿足一定的響應性能要求；

（4）結果準確性（Veracity）：油田多年來積累的測井數據和經過驗證的解釋結果，足以保證數據處理的準確性；

（5）深度價值（Value）：通過全局的大數據分析，有利于進一步挖掘潛力儲層。

3 大數據計算技術與系統的選取

大數據并行化計算系統是整個大數據技術中的計算核心層，近幾年出現了多種不同的典型大數據計算模式，并涌現了一批適應這些計算模式的大數據計算系統。其中，Hadoop是目前最流行的分布式數據和計算框架，其MapReduce是一種典型的大數據批處理計算模式，它簡單易用的兩階段Map和Reduce的數據處理過程，使其成為主流并行計算模式。但在本文中，我們選取了Apache Spark，Spark為了克服MapRe?duce缺乏對迭代計算模式支持的缺陷，對MapReduce進行了很多改進。目前，在迭代計算方面，Spark是最廣為使用的一個基于分布式內存的彈性數據集模型的高效迭代計算系統[4]。

4 基于曲線相似度的大數據技術在巖性分析中的應用

渤海油田近幾年除了建成數據處理中心用于數據的存儲、管理和共享之外，還建立了勘探開發項目知識庫和勘探成果數據庫，進行勘探開發生產活動的參數采集、數據積累與管理。基礎數據庫中已經存儲了數千口井的測井曲線相關數據，具備大數據分析的數據基礎。

4.1 基本原理與流程

科研工作中，不同井的測井曲線形狀存在某種相似性，測井曲線與地層特征間也具有一定的對應關系。因此，通過利用測井曲線數據進行相關分析，根據給定某一口井深度段的測井曲線組合的形狀，在數據庫中快速檢索具有類似曲線組合形狀的井，并根據測井大數據分析算法，精準擬合出測井曲線與地層特征之間的對應關系，同時根據命中概率進行巖性的識別。具體包括以下幾步：

（1）搜索具有“相似形態”的測井曲線（深度段），并按相似度進行排序；

（2）搜索具有某一測井曲線特征的老井，使用新的技術方法重新認識老井；

（3）搜索、統計測井曲線特征與地層特征的對應關系和分布情況，論證科研人員的分析結果，并為科研人員的研究工作提供輔助支持。

數據挖掘的具體過程中利用分類與預測、聚類分析、關聯規則、偏差檢測等方法，發現數據之間的關系，用以解決實際問題。基本過程包括：定義挖掘目標、數據取樣、數據預處理、挖掘建模和模型評價，基本過程如下圖1所示。

4.2 底層Apache Spark 并行計算平臺搭建

在具體的數據分析與計算過程中，我們首先要搭建計算平臺，Apache Spark 并行計算平臺的邏輯結構，具體如下圖2所示。

主要工作任務包括：在一個主管理節點（虛擬機）和多個工作節點（虛擬機）中，安裝和調試ApacheSpark運行環境；配置運行參數，包括網絡參數、CPU資源分配策略、內存資源分配策略等。

4.3 數據準備

數據收集環節中，需要準備原始數據，包括測井曲線數據和地層巖性數據。之后，對數據進行規范化處理，使測井曲線命名一致，并對測井曲線和地層巖性數據進行清洗。最后，建立測井曲線的數據緩存，將規范化的測井曲線數據在各個工作節點（虛擬機）上建立分布、多層結構的數據緩存，用于加快分析計算的速度。

數據準備工作完成后，再加入區域位置信息，形成區域位置—測井曲線—地層巖性結構的關系數據，最后根據區域位置、深度段和測井曲線，分析對應區域位置和深度段的地層巖性的可能性。

4.4 模型建立

首先，對某一口井的測井曲線濾波，平滑測井曲線。通過滑動對比樣本窗口（某一深度段的一組測井曲線），計算測井曲線形狀的相似度，找出最相似的測井曲線的深度段，其原理簡單描述如下：

（1）將需要預測的目標井所選測井曲線的組合形成一個m*n的矩陣（所選的測井曲線數*所選深度段的采樣點數）。

（2）目標井的m*n數據集與數千口現有井的數據集從采樣點初始索引開始的m*n數據集比較，并平滑移動逐點計算。

（3）將數據進行歸一化處理，并采用均方根算法，計算每條測井曲線間的差異，即相對差異。

（4）結合其他算法多維度判斷相似度，例如根據箱形圖（Boxplot）法，排除異常值，最終確定曲線某一深度段的最大值、最小值、平均值等特征值，并進行歸一化處理，然后將多條曲線的特征值進行組合后進行綜合判斷。

（5）將搜索結果按相似度由高到低進行排序，找出最相似的測井曲線的深度段，形成測井曲線與測井曲線之間的相似度模型。

其次，在搜索結果的已知巖性數據基礎上，通過數據挖掘，歸納測井曲線與地層巖性間的關系特征，推導目標深度段的巖性類別，并按概率由高到低進行排序。建立測井曲線樣本與地層巖性間的分布關系，使用大量的測試數據集，驗證和調整模型。

4.5 速度優化

由于參與計算的井超過七千口，數據量巨大，且在計算過程中需要滑動樣本點進行逐個計算，由于計算節點有限，如果僅依賴CPU，每進行一次地層識別將耗費至少十幾分鐘的時間，這在科研過程中是無法接受的。為了保證數據的計算速度，代碼編寫中采用OpenCL并行計算技術結合GPU進行性能優化。OpenCL并行計算技術是一個通用多CPU、GPU和其他芯片異構計算的標準，充分利用GPU強大的并行計算能力以及與CPU的協同工作，更高效地利用硬件高效地完成大規模的尤其是并行度高的計算[5]，通過GPU的加速，使得單次的處理時間縮短到了10秒以內，優化效果顯著。

5 應用案例

以某C油田某J井數據為例，通過選取需要預測的深度段測井曲線數據，并選擇需要匹配的曲線，如：GR、ZDEN、CNCF一定范圍內的數值組合，系統通過對所有井的測井數據進行全量的數據匹配分析計算，匹配得到有效的測井曲線組合與地層巖性的對應關系，在19 個相似的地層中，有18 個地層都是玄武巖，從而初步判定該深度段巖性大概率與玄武巖具有對應關系。分析過程圖如圖3所示。

實際應用中除了概率問題，還需考慮置信度的問題，例如匹配到的井只有3口，而其中兩口巖性相同，這時由于數據量太少，無法作為最終判斷依據，因此，必須將數據的總量和數據準確度達到足夠的高度，才能保證應用的準確性。地層巖性分析結果效果如圖4。

6 結論

在大數據時代，數據已經成為重要的生產因素，石油和天然氣勘探在數字化和大數據集成上，將會有越來越多的需求，構建專業化的測井大數據分析平臺，實現從一口井的單打獨斗，到區域的多井聯動，幫助科研人員進行決策，有利于測井數據向地質分析、區域評價和工程應用等方向拓展。而本文所探討的基于大數據曲線形態識別的巖性判斷方法，就是針對該需求所做的研究，通過更前沿的大數據技術提高工作效率，是信息化建設在渤海油田的發展方向和工作重點。未來隨著數據建設逐步完善，還可利用深度學習等人工智能算法進一步優化應用效果，并進行流體性質自動解釋等功能的研究。