數智油建設中的小樣本數據處理方法研究

2025-09-08 00:00:00章瑞許斌張亮宋旭田琩郝壯遠

中國管理信息化 2025年15期

doi：10.3969/j.issn.1673-0194.2025.15.072

[中圖分類號］TE32；TP391 [文獻標識碼］A [文章編號]1673-0194（2025）15-0231-05

0 引言

“十四五”規劃提出國家能源安全戰略，習近平總書記視察勝利油田時也提出“能源的飯碗必須端在自己手里”，然而，在石油增加產能的同時，也給石油開采、存儲、運輸、加工等多個環節的安全管理帶來了更加嚴峻的挑戰[2]。因此，為滿足油田高效、安全、環保生產的要求，須不斷提升油田安全生產管理效率。近年來，勝利油田大力推進油田數智化建設，以現代化信息技術和智能模型為支撐，與油田技術深度融合，賦能油氣田智能操控、智能分析、智能決策[3]。

油田數智化建設主要以數智化模型或軟件為基礎，數智化模型的構建至關重要，數據集的質量和大小又決定著數智化模型的最終性能[4]。然而，油田目前受到工作復雜環境、現場因素等制約，導致其無法實現大規模數據集的采集[5]，不同樣本的數量存在一定的差異，導致油田數據集樣本規模小、內部類不均衡、數智化模型訓練容易過擬合的問題。獲得更大的數據集是提高數智化模型性能最可靠的方法之一[6-7]。在某些情況下，添加生成的或合成的數據（稱為數據增強的過程）也可以提高性能。因此，對小樣本數據處理進行研究，包括數據類和圖像類等，擴充小樣本數據集，增加數智化模型準確性是數智油田建設的一個重要研究方向[8-9]。

目前油田小樣本擴充的方法主要以數學方法為主[]，包括隨機Gama變換、隨機模糊、隨機自適應彈性形變。隨機Gama變換是通過對伽馬變換設置隨機伽馬值，模擬真實環境中不同時間曝光、逆光、畫面過暗等情況，以達到擴充數據及規模的目的[。隨機模糊是通過使用窗口在圖像上移動，覆蓋對應的ROI區域，對所有像素值排序后進行總體計算，取某個值作為中心像素點的輸出值，最終實現對現場因網絡等因素引起的模糊情況的模擬[12-13]。隨機自適應彈性形變主要是根據目標場景、物體種類自適應地進行隨機彈性形變以保證數據增強效果?？梢钥闯?，數學方法數據增強手段只是在圖像的幾何層面進行了形狀的改變，并未從圖像的成像機理角度考慮。

本文主要研究如何將深度學習方法運用到油田小樣本擴充上，主要包括合成少數類過采樣方法和深度卷積對抗網絡方法。深度生成模型主要是基于深度生成模型的數據仿真[14]，利用某種概率密度分布的數據來擬合所需樣本數據分布的生成過程，深度生成模型不需要顯式的特征提取，能夠學習到很好的隱表示，模型性能更好。因此。深度學習方法通過合理的數據增強策略，能有效地抑制模型的過擬合[15]，增強泛化能力和魯棒性。

1深度學習小樣本擴充方法

1.1合成少數類過采樣（SMOTE）方法

SMOTE方法主要是基于采樣來進行數據增強，針對少數類數據樣本進行過采樣來增加數據量。SMOTE方法是根據 k 近鄰的思想人工合成新的少數類樣本，并增加到原數據集中，以此來實現不平衡小樣本的擴充。SMOTE方法主要分為三部分：首先識別小樣本中少數數據，其次識別該數據的 k 近鄰，最后根據k近鄰合成新樣本。SMOTE方法的原理如圖1所示，針對少數樣本中的每一個樣本 x ，計算該樣本到該樣本集中其他樣本的歐式距離，就得到距離最小的 k 個樣本，假設 k 值取3，之后從 k 個近鄰中隨機選擇出樣本 x_k ；對于選擇的 x_k ，按照式（1）合成新的小樣本。

x_new=x+rand（0，1）×|x-x_k|

1.2深度卷積對抗網絡（DCGAN）方法

DCGAN是基于博弈思想的生成式無監督學習模型，它主要包括生成器和判定器。生成器主要是根據噪聲數據而擴充假樣本，判定器則是區分真實數據和生成數據。在DCGAN框架中，生成器本質上是一個自動編碼器，它將現有的圖像或數據進行編碼，添加噪聲，然后解碼?；诖耍獯a器會學習大量的數據增強轉換。DCGAN鑒別器一方面區分變換前及其變換后的版本，另一方面區分來自同一類的一對樣本。

圖1SMOTE算法原理

選取少量的樣本參數作為噪聲數據傳人生成器中，生成網絡會學習生成類似的假樣本，將生成樣本與實際樣本進行組合，傳入判別器，判別器進行識別后，反向傳播更新生成器的參數，再反向傳播更新判別器的參數，如此循環，不斷更新生成器和判別器的參數，如圖2所示，不斷提升準確度，直到達到預定的目標。

圖2DCGAN原理

2 深度學習小樣本擴充方法應用

目前油田受到開發方式的多樣性、生產環境的局限性、作業現場的安全性等限制，導致其仍存在無法大量地獲取某些方面的樣本數據的狀況。以油田生產管柱腐蝕數據為例，生產管柱的腐蝕受到區塊原油性質的影響，部分區塊要經過較長的時間才會產生腐蝕現象，形成腐蝕數據。因此，為了方便對生產管柱腐蝕開展研究和治理，往往需要對腐蝕樣本數據進行擴充。本文借助室內物理實驗的手段，獲得實驗數據并通過深度學習方法擴充，以驗證擴充方法的準確性及合理性。

本文通過室內物理實驗模擬在不同環境下生產管柱的腐蝕情況，包括不同離子水溶液、溫度、 CO₂ 分壓、 H₂S 分壓、流速等實驗條件，并選用不同材料的管柱，得到了不同的腐蝕形態與各影響參數之間的相關數據，如表1所示。

表1部分腐蝕原始數據參數

然而，室內物理實驗受空間、時間、材料等限制，實驗條件的設置有限，無法開展大規模的研究，獲得的樣本數據非常有限。而且通過實驗結果分析，如圖3所示，可以發現各種腐蝕形態分布不均衡，全面腐蝕形態占大部分，其余形態數量較少。這就導致數智模型無法準確地從樣本量少的分類中提取到數據的分布規律，使建立的模型應用在新的樣本上時，模型的準確性無法得到保證。因此，需要對數據樣本進行擴充，一方面均衡各樣本類別，另一方面增加樣本數量。

本文采用深度學習SMOTE方法對生產管柱腐蝕參數數據集進行小樣本均衡處理，得到新的各形態分布較均衡的數據樣本。如圖4所示，橫縱坐標為歸一化之后的值，左圖為算法處理之前，腐蝕數據主要分布在0～0.4之間，其他區間只有少量分布，呈現出極度不均衡的分布狀態。右圖為經過深度學習SMOTE方法處理后，數據整體分布趨勢沒有改變的同時，小樣本數量有了極大的提升，各類腐蝕形態的樣本數均衡程度也獲得了較大的提高。

圖3室內腐蝕實驗結果比例

將新生成的樣本數據集與原數據集組合成更大數量的數據后，統計如圖5所示，全面腐蝕依然占大多數，為 30.8% ，但是相比于小樣本SMOTE方法均衡處理之前，占比有了大幅度的下降，同時其他腐蝕形態數據占比均有提升，所有腐蝕形態在擴充后基本達到了均衡。

圖4SMOTE方法腐蝕小樣本處理結果

圖5SM0TE方法處理后腐蝕形態分布比例

在腐蝕小樣本數據均衡處理之后，樣本量依舊比較少，無法有效提升后續油田數智模型的準確性，甚至造成過擬合情況。因此，本文在均衡小樣本數據集的基礎上使用DCGAN深度學習算法來進行小樣本量進一步擴充。DCGAN模型不斷迭代，不斷更新生成器和判別器，如圖6所示，由于二者對抗，損失值波動，當迭代次數達到1500次后，兩個模型損失值逐漸減小，慢慢趨于平衡，二者達到最優，生成器及判別器訓練完成。

圖6DCGAN模型判別器及生成器訓練曲線

將上述訓練完成的DCGAN模型運用到數據生成上得到圖7，可以看出樣本數據量獲得了巨大的提升，同時沒有改變原數據的均衡及其分布狀態。經過后續油田數智模型的驗證，模型準確率相較于未進行小樣本擴充處理提高了 20% 左右，效果良好。

圖7DCGAN方法腐蝕小樣本處理結果

3 結束語

在數智油田的建設中，更大的數據集是保證數智化模型準確度的關鍵因素之一。但是在數據采集受限的情況下，對小樣本數據進行人為擴充是獲取更大數據集的方法。

本文主要對深度學習小樣本擴充方法開展研究，深度學習方法包括SMOTE方法和DCGAN方法，它們分別是依據原數據經過k近鄰和卷積計算生成新數據，增加原數據集的數量。本文對SMOTE方法的研究主要應用于小樣本數據集的不均衡處理，處理后不均衡樣本基本趨于平衡。DCGAN方法對SMOTE方法處理后的均衡樣本進行進一步擴充，以最大限度增加小樣本數據量。深度學習小樣本擴充的兩種方法經過室內生產管柱腐蝕模擬實驗驗證，均取得了良好的效果，能夠提升后續油田數智模型 20% 的準確率。

主要參考文獻

[1］吳柏志.融入上游一體化發展在端牢能源飯碗中展現鐵軍擔當[J].中國石化，2024（9）：35-37.

[2]周宏春.以新質生產力推動我國能源轉型和高質量發展[J].能源研究與管理，2024，16（4）：1-10

[3]胡建國，馬建軍，李秋實.長慶油氣田數智化建設成果與實踐[J].石油科技論壇，2023，42（3）：30-40.

[4]王潔.數智化轉型核心要素：戰略、數據和智能［N].中國信息化周報，2024-09-30（020）.

[5]霍小鵬，張毅，楊珍希，等.油田生態環境大數據平臺建設和應用[J].中國管理信息化，2024，27（11）：97-100.

[6]胡姝瑾，李璧和.大數據技術在油田數字化信息系統中的應用[J].電子技術，2024，53（8）：232-233.

[7]高陽，劉崢，吳巍.大數據技術在智能油田建設中的應用分析[J].設備管理與維修，2024（5）：31-33.

［8］牛永勝，方勝新.物聯網技術在海上智能油田建設中的應用[J].石油化工自動化，2024，60（5）：67-70

[9]李坤，陳劍鈞，李國勝，等.小樣本學習研究綜述［J].機電工程技術，2025，54（6）：160-168.

［10]黃志偉.基于數據增強和CNN的小樣本圖像分類研究［J].電腦知識與技術，2024，20（23）：21-24.

[11］李世悅.基于小樣本學習的目標識別與檢測[D].鄭州：中原工學院，2024.

[12]金亦舟，張莉萍，牛啟帆.計及隨機模糊不確定性的含風電配電網重構[J].電力系統及其自動化學報，2020，32（7）：67-72.

［13]高超，田彥明.基于量子退火算法的大數據模糊隨機挖掘方法［J].信息技術與信息化，2024（8）：177-180.

［14］張千，梁鴻，童彥淇，等.基于深度學習的油田在線視頻目標檢測［J].計算機與數字工程，2024，52（3）：864-872.

[15]董波，陳艾睿，張明.機器學習在解決過擬合現象中的作用［J].心理科學，2021，44（2）：274-281.

中國管理信息化2025年15期

中國管理信息化的其它文章: “互聯網 +”背景下高校信息化改革路徑; 基于全面預算管理的企業財務管理策略研究; 新時代高校內部教學質量保障體系的數字化轉型初探; 高校財務管理轉型與智能化建設的有效路徑; 新會計法實施背景下加強科研事業單位財會監督研究; 數字時代商業銀行人力資源管理創新研究