






關鍵詞/主題詞:油氣資源;勘探開發;工程技術;石油工程;大數據;數字轉型;機器學習;算法
0引言
全球數字化轉型已經成為提高生產效率、實現高質量可持續發展的技術保障。同時,數字化轉型也促進了大數據算法在石油工程領域的應用。隨著大數據技術的快速發展,各類大數據算法不斷涌現,然而,究竟哪些算法更適合石油工程數據的特點,以及如何迅速找到最為合適的大數據算法,成為石油領域數字化轉型過程中亟待解決的關鍵問題。
1980年,阿爾文·托夫勒(AlvinToffler)在《第三次浪潮》中預言大數據時代到來。2008年,《Nature》推出了“大數據”專刊,進一步推動了大數據技術的廣泛應用。國際數據公司、麥肯錫咨詢、美國國家標準和技術研究院等產業和學術機構從不同的角度給出了大數據的定義[1],綜合來看,是指無法在可容忍的時間內用傳統信息技術和軟硬件工具對其進行獲取、管理和處理的巨量數據集合[2]。
大數據技術離不開算法。算法是一種通過有限步驟解決問題的方法,它能夠接收輸入、處理數據并產生輸出。在大數據分析中,算法能夠從海量數據中提取有價值的信息,進行模式識別、預測分析和方案選優,大幅降低人工分析的成本。從2014年開始,隨著MongoDB、Cassandra等NoSQL數據庫開始能夠支持大規模數據的存儲和高效查詢,亞馬遜、谷歌和微軟等公司的云服務大幅降低數據存儲和計算成本,使得大數據技術更加普及。大數據應用開始逐步覆蓋了電力、交通、金融、醫療、互聯網和制造業等領域,石油工程領域也不例外。為了全面了解石油工程領域大數據算法的應用發展趨勢,筆者通過中國知網、谷粉學術和百度學術等文獻數據庫,調研了自2014年起10年內國內外石油工程領域涉及大數據算法研究和應用的核心期刊文獻。
2014年,李明鑫等基于蟻群算法構建了油氣管道系統設備故障概率預測模型,實現了管道系統投資的最小化和系統可靠性的最大化[3]。錢慧芳等采用BP(BackPropagation)神經網絡對一種新型雙遠場電磁聚焦測厚儀的實驗數據進行處理,實現了石油套管破損的實時監測[4]。
2015年,馬林茂等將遺傳算法與BP神經網絡結合,優化了BP神經網絡的連接權值和閾值,并應用于大慶油田高含水階段的油田產量預測,提升了復雜地質條件下的預測精度[5]。
2016年,田亞鵬等采用遺傳算法對BP神經網絡算法進行改進,實現了頁巖氣產量遞減的精確預測[6]。
2017年,Li等基于核主成分分析和支持向量機構建了天然氣管道中閥門的泄漏檢測方案,實現天然氣管道中閥門的泄漏檢測[7]。劉佳佳等采用遺傳算法對二氧化碳管道運輸進行了優化設計,實現了遺傳算法在管輸系統方案優化的有效應用[8]。
2018年,陳一諾等結合GIS系統的監測數據,利用隨機森林模型對管道缺陷進行分級預測,證明了隨機森林模型不僅能準確評估管道缺陷的風險等級,還可以通過重要性分析識別影響管道安全的關鍵因素[9]。
2019年,劉勝娃等基于人工神經網絡技術開發了定向井機械鉆速的預測模型[10]。周游等使用核主成分分析法識別了濁積巖巖性,識別準確率達到90%[11]。陳小龍等采用遺傳算法和粒子群算法優化神經網絡模型,有效預測了氣體輔助重力泄油非混相開發油藏的采收率[12]。劉彪等采用支持向量機對鉆井過程中的井漏參數進行主控因素尋優,實現井漏預警和井漏風險評估,有效降低了鉆井成本,提高了鉆井效率[13]。
黃知娟等利用剝繭尋根算法,無人為干預地確定了12項影響產量因素之間的定量關系,找出了順北油田SHB-X井試采產液量驟降原因[14]。
2020年,徐磊等提出了一種將改進粒子群算法與BP神經網絡結合的模型,針對我國3條原油管道進行了準確性評估,平均絕對百分誤差分別為4.02%、3.58%和3.88%[15]。Kim等使用對抗神經網絡法構建了地震波速預測模型,斷層識別的準確度達到了92%[16]。Chen等結合隨機森林和BP神經網絡,建立了多層記憶網絡模型,實現了對致密砂巖孔隙度的高精度預測[17]。賈德利等使用隨機森林算法,構建定性分析注水調整方向模型,實現了老油田的精細注水優化,精準預測了目標區塊的產量遞減率和含水上升率[18]。王洪亮等提出綜合循環神經網絡(RecurrentNeuralNetwork,RNN)和長短時記憶網絡(LongShortTermMemory,LSTM)算法的特高含水期產量預測模型,產量預測準確度達92.3%[19]。張軍華等采用支持向量機結合交叉驗證的方法,解決東營凹陷深部儲層埋深大,儲層預測困難的問題[20]。Wang等提出了一種基于無監督的聚類和統計檢驗的方法,實現了完全數據驅動的管道集群高風險管道和低風險管道的事故率風險定量評估[21]。
2021年,楊午陽等基于U-Net深度學習網絡模型,有效解決了不規則數據體環境下的斷層識別問題[22]。鄭力會等通過剝繭算法篩選出影響平均漏失速率的17個主要因素,為理想控漏提供數據支撐[23]。田高鵬等應用自組織神經網絡實現了地震油氣藏分布預測,其結果與實際吻合度高達94.1%[24]。谷宇峰等將GSLightGBM機器學習模型應用于姬塬油田致密砂巖巖性識別中,算法的識別精準度超90%[25]。Pirizadeh等研發了一種綜合隨機森林與決策樹兩種算法優勢的采收率預測模型,規避大數據處理中的局部最優解問題[26]。Cheraghi等采用遺傳算法、人工神經網絡及支持向量機等算法對提高采收率技術進行篩選,得出人工神經網絡效果最優,準確度超92%[27]。Wang等基于卷積神經網絡的圖像識別模型識別三維屬性建模下的剩余油宏觀分布和微觀富集狀態,解決了常規測井交會圖無法在致密砂巖儲層識別中應用的難題[28]。何佑偉等采用聚類分析法、隨機森林算法預測不同頁巖氣井產量,實現了頁巖氣井產量的精準預測[29]。李謙等使用BP神經網絡結合10折交叉驗證法,分別就低、中、高相關性參數建立了不同的鉆速預測模型,預測精度較高[30]。陶杉等利用剝繭尋根算法,通過多元回歸和削元法找出了順北碳酸鹽巖儲層開采過程中井壁坍塌主控因素,為深層油氣開發過程中控制井壁穩定提供了解決辦法[31]。曹繼飛等利用主成分分析法,通過對聲波測井數據的降維處理,消除了不同裂縫識別方法之間的偏差,建立了碳酸鹽巖裂縫識別模型,提高了裂縫預測的準確性[32]。
2022年,Fang等引入貝葉斯分類器和自適應雙鏈量子遺傳算法,優化了BP神經網絡預測模型,提高了巖石可鉆性預測的精度[33]。Wei等將生成對抗網絡、強化學習與決策樹算法結合,形成了一個三維地震油藏預測模型,極大減少了人工解釋的反演計算時間[34]。王澤龍等提出了基于反向神經網絡的采收率預測模型,并成功應用于蓬萊油田600余口注水井的采收率預測[35]。Loomba等使用基于遺傳算法優化的聚類學習算法,對閉環油田開發工作流程進行優化,優化方案時效性遠勝于傳統油田開發方案[36]。侯亞偉等建立了反向傳播神經網絡采收率預測模型,針對蓬萊19-3油田625組數據建立采收率預測人工神經網絡模型,發現125組測試數據平均相對誤差為0.16%[37]。肖陽等創新運用了皮爾遜和斯皮爾曼大數據相關性分析方法,完成了區塊產量差異性研究[38]。薛永超等以深度隨機森林算法為基礎構建了油井產量預測模型,產量預測準確度達92.31%[39]。王兵等采用支持度矩陣Apriori算法對鉆井作業事故隱患進行識別,實現了對鉆井事故的風險控制[40]。肖榮鴿等通過灰色關聯分析確定主要影響因素,構建了適用于管道腐蝕速率預測的灰色模型,模型精度較高[41]。姜雪等結合沉積微相、粗粒相帶及成巖相分布特征,基于灰色預測模型建立了儲層構型預測模型,儲層識別準確率較高[42]。
2023年,孔令維等使用K近鄰算法處理缺失數據,并通過長短時記憶網絡實現了對油井產量的預測,提升了油田經濟效益[43]。蒲堡萍等構建了14種機器學習基礎模型,并以此預測低滲透砂巖聚合物驅油實驗的效率,結果表明,多層感知機(multi-layerperception,MLP)、隨機樹(randomforest,RF)和極限梯度上升(extremegradientboosting,XGB)模型表現最佳[44]。羅雙平等利用Pearson相關系數定性分析法研究了影響鉆井提速的關鍵因素,該方法有效指導了鉆井提速[45]。郭秋麟等提出基于貝葉斯網絡的油氣勘探風險預測方法,準確率達到85.22%[46]。鄧增利等利用深度學習圖像識別算法對海上平臺工作人員安全帽佩戴及不安全行為進行識別,實現了井口平臺無人駐守、遠程操作[47]。盛科鳴等采用隨機森林算法建立了油氣層的敏感性損害預測模型,預測精度高達95.68%[48]。李常友采用改進遺傳算法建立天然氣集輸管網的參數優化設計模型,有效提高了案例工程項目管網的運行效率[49]。
2024年,柴天祥等運用Apriori算法對油氣勘探事故發生階段、事故類型和事故后果展開了關聯規則分析,構建了事故致因復雜網絡模型,為油氣勘探風險評估提供支持[50]。楊子杰等采用多層感知器神經網絡方法對油氣資源豐度進行定量預測,有效識別了影響油氣資源豐度主要地質因素[51]。田龍等提出了基于測井大數據和無監督聚類算法的連續地層可鉆性評估方法,實現了對地層可鉆性的有效評估[52]。白生勇運用BP神經網絡優選單井硬件設備匹配方案,使電動機平均裝機功率下降了13.29%,降低了抽油機井的維修維護性成本[53]。何旭晟等采用剝繭算法從138項工程數據中篩選出影響漏失的主控因素16項,二次井漏點預測符合率達到80%[54]。王東海等利用遺傳算法,創建了便于尋優的不規則管道系統避振優化模型,從而有效避開激振源頻率實現避振優化[55]。柏躍屹等基于YOLOV7及改進的卷積算法,建立井下高壓場景安全識別模型,提高了傳統模型在遮擋或者缺失畫面的魯邦性,識別精度可達97.3%[56]。對近10年石油工程領域大數據算法應用文章發布時間及數量進行統計分析,如圖1所示。
從圖1可以看出,近10年大數據算法在石油工程領域的應用研究文獻數量呈現出逐年增長的趨勢,尤其是2021年達到高峰。2014—2018年屬于大數據的啟萌階段,該領域在這幾年研究活動相對較少。從2019年開始,文獻數量顯著增加,2020至今,每年都有較多相關文章發布。這一趨勢表明,隨著時間的推移,大數據算法在石油工程中的應用越來越受到關注和研究,尤其是在2020年之后,研究活動顯著增加。近十年來,尤其是機器學習、深度學習和數據挖掘等大數據算法迅速發展,研究人員和工程師們能夠更好地利用這些工具來解決復雜的問題。
大數據技術的迅猛發展帶動了大數據算法的發展,據統計,目前常用的大數據核心算法超30多種。從文獻統計數據來看,收集的近10年涉及石油領域大數據算法應用的53篇文獻中,包含了14種大數據算法。層出不窮的大數據算法使得很多學者在選擇大數據算法解決具體問題時,由于范圍太大,面臨算法選擇相關性不好、花費時間長、算法試錯時間成本高等問題。因此,進行系統的算法分類顯得尤為必要。
目前,關于大數據算法的分類有兩種。一種是依據模型訓練方式,將算法分為監督學習、無監督學習、半監督學習和強化學習。另一種是依據算法所解決的任務類型,將其分為分類算法、回歸算法、聚類算法和異常檢測算法。這些分類方法雖然幫助應用者區分了算法的訓練方式和任務類型,但在具體的石油工程應用中,仍未能有效解決如何選擇合適算法的難題。在選擇大數據算法時,傳統的分類方法有兩種,見表1。
從表1中可以看出,按模型訓練方式分類,主要關注算法的訓練機制,而非其實際應用場景。在石油工程領域,不同的應用場景具有非常具體的需求,例如勘探階段需要處理地質數據,而開發階段則需要優化生產參數。僅僅根據訓練方式進行分類,難以幫助研究人員快速匹配算法與具體應用場景。這種分類方式的局限在于,研究人員根據理論適用于特定的數據類型或任務而選擇的某種算法,但在實際應用中并不適用該領域的具體問題。按照算法解決任務的類型進行分類的方式,主要基于算法的輸出形式,而沒有考慮到石油工程領域的復雜性和多樣性,不符合石油工程中實際操作的復雜背景。另外,在傳統分類方法下,研究人員在查找和篩選相關文獻時,往往需要瀏覽大量與其研究方向不相關的內容,導致效率低下。這種情況下,文獻的相關性較低,增加了研究人員選擇合適算法的難度。按照應用領域對大數據算法進行分類,分類標準和分類內容更符合石油工程具體需求和應用場景,因此能更好地滿足石油工程算法檢索的需求。
根據石油工程的具體應用需求,本文提出了一種基于應用領域的大數據算法分類方法,將石油工程大數據算法按勘探、開發、生產及儲運四大領域進行分類。這種分類方法不僅能夠幫助科研工作者高效且準確地找到適用的算法,還為大數據算法在石油領域的廣泛應用提供了方法借鑒。
1方法過程
1.1室內研究
為了實現對石油工程大數據算法的分類,首先通過文獻調研,結合石油工程廣泛認可的勘探、開發、生產和儲運四個領域,將石油工程領域大數據算法分為勘探領域算法、開發領域算法、生產領域算法和儲運領域算法四類,并依據各領域的定義及其主要工作內容,明確了四類算法的概念和內涵。在此分類標準的基礎上,對收集到的石油工程大數據算法應用文獻進行了歸類。通過分析文獻的標題、摘要、關鍵詞及主要內容,匹配符合分類標準的關鍵內容,將文獻劃入相應的領域算法類別,并進一步整理涉及的大數據算法,最終形成了基于應用領域的石油工程大數據算法分類方法。
1.1.1油氣勘探領域大數據算法分類
油氣勘探旨在識別勘探區域并確定油氣儲量,涉及地質調查、地球物理勘探、鉆探等活動。勘探領域常用的原理包括地震地層學和數值模擬技術,主要方法有地震勘探和重力勘探等。該領域的研究內容主要涵蓋地質勘查、地球物理勘探、地球化學勘探、試井及采樣。
因此,勘探領域大數據算法主要是指利用勘探活動中產生的多類型、高維度和高復雜性數據(地震數據、地質數據、測井數據等),通過噪聲去除、數據標準化等方法,識別和提取有用地質特征,解決勘探領域工程問題的過程。目前,勘探領域常用的大數據算法包括主成分分析、神經網絡、支持向量機等7種算法,分布于10篇相關文獻。
(1)主成分分析。主要用于巖性識別。在地質勘探中,主成分分析通過減少數據維度,提取出對巖性分類最有影響的變量,幫助地質學家識別不同的巖石類型,如周游等發表的文獻。
(2)神經網絡。應用于波速預測、斷層檢測、儲層預測和油氣資源豐度預測。神經網絡能夠通過學習復雜的非線性關系,對地震數據進行處理,預測地層的物理屬性,從而提高勘探精度。例如,深度神經網絡被用于斷層檢測和儲層預測,顯著提高了識別的準確性,如Kim、楊午陽、田高鵬、楊子杰等發表的文獻。
(3)支持向量機。用于儲層預測。支持向量機能夠在高維空間中找到最佳的分類邊界,幫助識別地下儲層的分布情況,特別是在數據稀疏或存在噪聲的情況下表現出色,如張軍華等發表的文獻。
(4)粒子群算法。應用于巖性識別。粒子群算法通過模擬鳥群覓食的行為,尋找最優解,幫助識別復雜地質環境下的巖性,如谷宇峰等發表的文獻。
(5)決策樹算法。用于地震油藏預測。決策樹通過遞歸地分割數據,建立簡單的決策規則,幫助預測地震數據中的油藏分布,如Wei等發表的文獻。
(6)貝葉斯網絡。用于油氣勘探風險預測。貝葉斯網絡通過結合先驗知識與數據觀測,量化勘探過程中的風險,為決策提供科學依據,如郭秋麟等發表的文獻。
(7)關聯規則算法。用于油氣勘探開發事故分析。關聯規則分析能夠識別出勘探開發過程中不同事故因素之間的關聯關系,幫助改進安全管理,如柴天祥等發表的文獻。
1.1.2油氣開發領域大數據算法分類
油氣開發是指在確認油氣田后,進行井位設計、鉆井和完井等準備工作,以便將油氣資源從地下儲層中有效地開采出來。其基本內容是在油藏描述建立地質模型和油藏工程模型的基礎上,研究有效的驅油機制及驅動方式,預測未來動態,提出改善開發效果的方法和技術,以達到提高采收率的目的。該領域的研究內容主要涵蓋鉆井、完井、壓裂、提高采收率等。
因此,開發領域大數據算法是指利用油氣田開發過程中產生的高實時、多來源數據(鉆井參數、地層壓力、溫度數據等),通過精確的實時或近實時方式處理數據,解決與油氣資源開采效率、井位設計、鉆井完井和壓裂等相關的工程問題的過程。開發領域大數據算法主要包括神經網絡、隨機森林、遺傳算法、關聯規則算法、圖像識別等5種算法,分布于15篇相關文獻。
(1)神經網絡。廣泛應用于鉆井機械鉆速預測、油藏采收率預測等。神經網絡通過學習復雜的非線性關系,在鉆井和油藏開發的動態預測中表現出色。例如,BP神經網絡被用于石油套管破損檢測和鉆井機械鉆速預測,有效提高了預測精度,如錢慧芳、劉勝娃、陳小龍等發表的文獻。
(2)隨機森林。用于孔隙度預測和頁巖氣井產量評價、巖相測井識別等。隨機森林算法通過集成多棵決策樹,增強了模型的穩定性和預測準確性,特別是在復雜地質條件下表現突出,如Chen、薛永超等發表的文獻。
(3)遺傳算法。應用于開發流程優化和井位及注采參數聯合優化。遺傳算法通過模擬自然進化過程,優化開發方案和采收率預測,幫助工程師在多種可能方案中找到最優解,如Fang、LOOMBAAK等發表的文獻。
(4)關聯規則算法。用于鉆井隱患關聯挖掘和鉆速預測。關聯規則分析幫助識別開發過程中潛在的風險因素,并提供改進建議,如王兵、羅雙平等發表的文獻。
(5)圖像識別。主要用于電成像測井圖像修復和生產過程中的視覺識別。通過圖像識別技術,工程師可以快速識別和分析地下結構和井壁情況,提高了開發過程的可視化管理水平,如柏躍屹等發表的文獻。
1.1.3油氣生產領域大數據算法分類
油氣生產是指油氣從地下儲層通過井筒采集到地面的過程,這一階段涉及采油、采氣、井口管理等活動。生產涉及油氣資源的實際采集和管理,包括重復壓裂、二次完井、采油和采氣技術等。
因此,油氣生產領域大數據算法是指利用油氣生產過程中產生的高頻率、多來源、小條目數據進行歷史關聯和預測,解決與生產過程控制、產量預測、風險管理等相關的工程問題的過程。油氣生產領域所使用的大數據算法包括進化算法、灰色理論預測算法、主成分分析等8種算法,分布于19篇相關文獻。
(1)遺傳算法。主要用于原油產量預測和生產過程優化。遺傳算法通過模擬自然選擇過程,優化油田生產參數,提升產量預測的準確性和生產過程的穩定性。例如,遺傳算法被用于改進BP神經網絡進行產量預測,成功提升了預測精度,如馬林茂、田亞鵬、龍文等發表的文獻。
(2)支持向量機。用于井漏預測和鉆井作業中的風險評估。支持向量機能夠在高維空間中尋找最佳分類邊界,有效用于井漏等關鍵生產風險的識別和預警,如劉彪等發表的文獻。
(3)剝繭算法。應用于油井產量下降原因分析和井眼穩定性預測等。剝繭算法通過層層分析復雜的數據關系,幫助工程師識別生產中的潛在問題,并制定針對性的解決方案,如鄭力會、魏攀峰、陶杉等發表的文獻。
(4)隨機森林。可以用于預測油井或氣井的生產率、油井工作狀態監測、多相流動監控與優化、油氣層敏感性損害預測、老油田精細注水優化等。隨機森林算法基于歷史生產數據、壓力、溫度等參數,能夠識別影響生產的關鍵因素,幫助優化生產計劃和資源配置。如賈德利、盛科鳴等發表的文獻。
(5)神經網絡。用于油氣產量預測、儲層特性預測、生產參數優化、油井含水率預測等。神經網絡算法可以利用油井歷史生產數據進行油氣產量的預測,尤其是在存在多個非線性影響因素的情況下表現出色。通過訓練網絡模型,算法能夠在復雜的生產環境中實現油田采收率快速預測。如Wang、侯亞偉等發表的文獻。
(6)進化算法。用于油藏歷史擬合。進化算法模擬生物進化過程中的變異和選擇,優化油藏管理方案,如王澤龍等發表的文獻。
(7)灰色理論預測算法。用于解決數據不足的情況下的預測問題,在油氣生產中,可以利用灰色理論對儲層的含油程度、分布狀況、物性、產能大小及非均質性作出全面的綜合評價。如姜雪等發表的文獻。
(8)主成分分析。主要用于數據降維、特征提取和去噪方面,能夠幫助處理復雜的多變量數據集。油氣生產中往往會產生大量的多維數據,主成分分析能提取代表性重要成分,可用于儲層特征分析、鉆井參數優化、壓裂參數優化等,如曹繼飛、肖陽等發表的文獻。
1.1.4油氣儲運領域大數據算法分類
油氣儲運涉及將開采出的油氣進行儲存和運輸,確保油氣能夠安全、高效地輸送至煉油廠或終端用戶。儲運領域包括儲罐管理、管道運輸和物流調度等環節。
因此,油氣儲運領域大數據算法是指對儲罐管理、管道運輸和物流調度等環節產生的高安全性、長周期連續性數據進行歷史追溯和實時分析,解決與油氣安全高效運輸、能耗管理、風險預測等相關的工程問題的過程。油氣儲運領域大數據算法主要包括蟻群算法、遺傳算法、神經網絡算法7種算法,分布于9篇相關文獻。
(1)蟻群算法。用于油氣管道預警系統優化。蟻群算法通過模擬螞蟻在覓食過程中尋找最短路徑的行為,優化管道運輸路徑,提高了油氣管道運輸的安全性和效率,如李明鑫等發表的文獻。
(2)遺傳算法。廣泛應用于管道運輸優化設計、天然氣管道避振優化和流量分配。遺傳算法通過模擬自然進化過程,優化管道系統的設計和運行參數,確保油氣運輸的高效性和安全性,如劉佳佳、何旭晟、王東海、李常友等發表的文獻。
(3)神經網絡。用于原油管輸能耗預測,管道腐蝕速度預測。神經網絡通過學習大量的歷史數據,能夠精確預測管道運輸中的能耗,幫助制定節能策略,如徐磊等發表的文獻。
(4)貝葉斯網絡。應用于管道事故風險評估。貝葉斯網絡通過概率推理,量化管道事故的發生概率和影響范圍,為管道安全管理提供科學依據,如Wang等發表的文獻。
(5)主成分分析。用于天然氣管道閥門泄漏檢測和成品油管道缺陷綜合分析。主成分分析幫助識別管道系統中潛在的故障點,建立多個因素之間的復雜關系,提供全面的風險評估,如Li等發表的文獻。
(6)隨機森林。用于分析各指標對管道缺陷的影響程度,具有指標重要度評估功能,模型的評判精度、分級結果準確,數據挖掘能力很強。將隨機森林模型與GIS技術結合,能更好地預測管道缺陷,從而采取相應的控制措施,如陳一諾等發表的文獻。
(7)灰色理論預測算法。用于管道腐蝕預測、油氣儲存罐壽命預測等。灰色理論可以通過歷史監測數據(如壓力、溫度、應力、腐蝕、介質組成、變形數據)分析其衰退速度和管道腐蝕趨勢,進而制定合理的維修或更換計劃。如肖榮鴿等發表的文獻。
綜上所述,通過將石油大數據算法按領域分類,不但可以從需求出發尋找合適的算法,也可以從算法出發了解其適用范圍,很大程度上方便了科研人員檢索算法。
1.2現場應用
在對過去十年石油工程領域的大數據算法相關文獻進行系統收集與分析的基礎上,共收集了53篇文獻,依據1.1節所述的分類方法,將這些文獻分為勘探、開發、生產和儲運四大類。其中,涉及勘探領域的文獻數量為10篇,開發領域15篇,生產領域19篇,儲運領域9篇。
四類文獻中,生產領域的文獻數量最多,達到19篇,占總文獻的36%。這表明在石油生產環節中,大數據算法的應用研究最為活躍,因為生產階段涉及的數據量大且復雜,需要更為先進的算法來處理和優化生產流程。開發領域的文獻數量為15篇,占總文獻的28%,僅次于生產領域。這表明在油田開發的各個階段,大數據算法被廣泛應用于決策支持和流程優化。相對而言,勘探和儲運領域的文獻數量較少,分別為10篇(占19%)和9篇(占17%),但大數據算法在這兩個領域的應用也在逐漸增加。
陳緣博等對49篇煤巖儲層鉆開流體相關文獻按報告內容進行分類,大幅提高了搜索文獻的相關性,并提出選擇研究方向的相關率(相關性較強的文獻占搜索文獻的百分比)用于評價文獻分類的效果[57]。將53篇石油大數據算法應用文獻按應用領域細分為勘探、開發、生產和儲運四類。分類后,每篇文獻依據內容劃入與之對應的領域分類,內容具備高度相關性,選擇研究方向的相關率均提升為100%。
從算法選擇準確率來看,53篇文獻共涵蓋大數據算法14種。分類后,勘探領域涉及7種算法,開發領域涉及5種算法,生產領域涉及8種算法,儲運領域涉及7種算法,每種算法均按其引用場景被劃分到具體領域,算法選擇準確率也均提升為100%。
2結果現象討論
隨著石油工程領域大數據算法研究的快速發展,相關研究文獻數量不斷增加,文獻檢索效率的提升已成為研究人員和工程技術人員亟待解決的問題。有效的文獻分類是提升文獻檢索效率的關鍵手段之一。通過合理的分類,能夠快速篩選出與研究目標最相關的文獻,為研究領域選擇合適的算法,避免誤用或低效使用,確保算法能夠最大化發揮作用。同時,通過對現有文獻進行分析和分類,不僅能夠總結出不同算法的優缺點,還能預測未來算法的趨勢和應用前景。這為石油企業在技術選擇和研發投入上提供了理論依據,減少了不必要的資源浪費。
然而,隨著文獻數量的增加,分類數量也在持續增長,大量分類會導致文獻分類的復雜度隨之增加。同時,分類也不能是對文獻進行簡單的歸類,更要考慮分類后檢索的有效性。文獻分類的過程不能脫離實際應用需求。比如,勘探階段注重地質數據分析與預測,而鉆井和開發階段則需要處理實時監控數據、設備故障診斷等信息,儲運階段則側重于物流、供應鏈管理等。
另外,分類應更加注重算法的實際應用效果和性能。如,機器學習算法在數據量大、非線性關系明顯的情況下表現出色,而回歸分析則更適用于簡單的線性模型。因此,石油工程大數據算法的分類必須綜合考慮文獻算法研究的應用效果、讀者閱讀文獻所消耗的時間,以及作者對文獻分類所需的時間,以確保算法選擇的準確性。
2.1分類提高選擇準確率討論
石油工程領域面臨的挑戰包括數據量巨大、環境復雜以及多樣化的應用需求。這為不同大數據算法在石油工程領域探索應用開辟土壤。從油藏勘探中的地質建模,到石油開采過程中的生產優化,再到管道運輸的安全監測等各個環節,都離不開數據算法的支持。大量的研究成果通過學術文章的形式得以展現,使得石油工程大數據算法應用類文章數量急劇攀升。研究人員和工程技術人員在實際應用中選擇合適算法時將會面臨巨大的困難,需要在眾多不同類型、不同功能的算法中進行篩選,這無疑是一項耗時耗力的工作。由于無法快速定位到符合特定需求的算法,導致算法選擇的效率極為低下。同時,由于缺乏明確的分類引導,選擇的算法往往與實際應用場景的契合度不高,進而難以保證算法的選擇準確率。
為了應對這一挑戰,根據算法的應用領域對其進行分類是一種行之有效的方法。通過將石油工程領域細分為多個具體的應用領域,并把相應的算法歸類到這些領域之下,可以顯著縮小檢索范圍,從而提高算法選擇準確率。針對搜集到的石油領域大數據算法應用的53篇文獻,按應用領域將其分為4類,并分別對比分類前后選擇研究方向的相關率,如圖2所示。
從圖2中可以看出,如果不對算法進行分類,那么尋找適合勘探、開發、生產和儲運四個領域算法的文獻選擇研究方向的相關率分別為19%(10/53),28%(15/53),36%(19/53)和17%(9/53),分類后,四個領域的文獻選擇研究方向的相關率達到100%,分別提升81個百分點,72個百分點,64個百分點和83個百分點,平均提升75個百分點。
按應用領域分類的方法將算法直接與石油工程的具體應用場景相關聯,不僅考慮了算法的技術特性,還結合了實際的工程需求,使得算法的選擇更加具有針對性。這種方法能夠顯著提高選擇的準確性。通過將算法與特定的應用場景進行匹配,研究人員可以更準確地選擇那些已經被證明在類似場景中有效的算法,避免了不必要的試錯和算法誤選。例如,在油氣勘探領域,研究人員可以直接選擇基于地質數據分析的主成分分析算法,而不必在一堆與地質無關的算法中進行篩選。
在進行算法選擇時,研究人員往往需要查閱大量文獻以了解不同算法的應用效果。傳統分類方法由于沒有與具體應用場景直接關聯,導致查找相關文獻的效率較低。分類前后文獻查找相關率的變化,分類后文獻相關率提升至100%,而分類前僅為平均20%左右。這一變化表明,分類不僅優化了算法選擇的準確性,還極大地提高了文獻查找的效率。這種提高文獻查找效率的優勢不僅節省了時間,還確保了研究人員能夠基于最相關的文獻進行研究,進一步提高了算法選擇的科學性和合理性。
另外,按應用領域分類后,由于4個領域文獻已自然劃分,應用范圍縮小,算法種類也減少,分類后,勘探、開發、生產、儲運四個領域算法包含算法個數分別為7、5、8、7。由此可計算四個領域分類前后算法選擇準確率,如圖3所示。
從圖3中可以看出,如果不對算法進行分類,勘探、開發、生產、儲運四個領域的算法選擇準確率分別為50%(7/14),36%(5/14),57%(8/14),50%(7/14)。分類后,四個領域的算法選擇準確率均提升為100%,提升幅度分別為50個百分點、64個百分點、43個百分點和50個百分點,平均算法準確率提高52個百分點。
按領域分類方法將復雜的算法選擇問題簡化為明確的場景決策。通過將算法分類到特定領域,可以確保所選的算法已經被證明在該領域有效,減少了因算法和應用場景不匹配而導致的選擇錯誤。例如,勘探領域主要處理地質數據,需要的是能夠處理地震波速、巖性識別等任務的算法;而生產領域則更關注油田產量預測和提高采收率的算法。研究人員在面對不同應用場景時,可以根據已經分類的算法直接做出決策,從而避免了在不確定的條件下做出錯誤選擇。這種分類方法在決策支持方面表現出色,尤其是對于新進入石油工程領域的研究人員或工程師,他們可能對各種算法的特性和應用場景不夠熟悉。領域分類提供了一個清晰的指引,使他們能夠在短時間內做出合適的算法選擇。
2.2分類節約時間討論
為了深入探究將石油工程大數據算法按領域劃分為四類這一舉措是否能夠切實有助于實際應用過程中,快速找到研究算法的文章和相關技術,以減少閱讀時間。
對收集的53篇涵蓋了石油工程的各個環節大數據算法應用,且對有較高的代表性和研究價值的文獻進行分類實驗。為了確保分類的準確性和客觀性,實驗由10位在石油工程領域有著深厚的學術功底和豐富的研究經驗、對石油工程大數據算法有著較為全面和深入的理解的博士參與完成。
實驗前,先由10位博士通過大量調研和研討,依據石油工程不同作業環節,得出10種不同分類的內容及標準。實驗過程中,每位博士研究生分別對這53篇文獻進行了細致的閱讀與歸納,并依據自身的專業知識和對石油工程大數據算法的認知,將這些文獻劃分到1至10個不同的類別之中。
這一過程不僅要求他們對每篇文獻的核心內容、所涉及的算法及其在石油工程中的應用場景有精準的把握,還需要他們具備較強的分類邏輯和歸納能力,以確保分類結果的科學性和合理性。并詳細記錄不同分類情況下,每人閱讀文獻時間和分類所需時間,見表2。
從表2中可以看出,分成1類、2類和10類閱讀53篇文獻和分類所花費的時間,都大致呈現先減少或者增加的趨勢。以分類所需時間為目標函數Y,分類數量為自變量X,利用表2數據擬合可得在2~10類范圍內,Y與X的函數關系,如圖4所示。
從圖4可以看出,隨著分類數量的增加,分類的復雜性和難度不斷增加,分類所需時間隨著分類數量的增加呈指數增長趨勢。
對文獻分類的意義在于提高文獻檢索閱讀效率。根據10人閱讀53篇文獻所用時間求平均可得一人平均閱讀一篇文獻大概需1.2h。假設對文獻進行1~10類分類后,每一種分類方法中,53篇文獻被平均分在不同的類中,則不進行分類時(分1類),在尋找合適的大數據算法時需要閱讀53篇文獻,需用時間63.6h(53×1.2h),分兩類時,需閱讀文獻數量減少為26.5篇(53/2),閱讀文獻所需時間31.8h(26.5×1.2h),以此類推。將53篇文章進行1~10類分類后,將不同分類數量下閱讀文獻所需時間與分類文獻所需時間的關系繪圖,如圖5所示。
從圖5中可以看出,隨著分類數量的增加,閱讀相關文獻所需的時間逐漸減少,當分類數量達到10類時,閱讀文獻所需時間最少。這表明,增加分類的細致程度有助于縮短讀者查找文獻的時間。然而,隨著分類數量的增加,對文獻進行分類所消耗的時間也從最初的1.5h(分1類)增加到最后的120h(分10類)。由此也可以看出,分類數量的增加會使得作者在進行分類時的時間消耗不斷增長。將閱讀文獻所需時間和分類文獻所需時間疊加發現,當分類數量小于4類時,閱讀和分類所需要的總時間逐漸減少,從65.1h(1類)降低到了27.9h(4類)。當分類數量大于4時,閱讀和分類需要的總時間開使逐漸增加。可見,當分類數量達到一定規模后,繼續增加分類所帶來的時間節省效果逐漸減弱。同時,隨著分類數量的增加,總時間經歷了先減少后增加的趨勢。初期更多的分類有助于減少閱讀時間,但過多的分類帶來的額外分類時間消耗最終會超過其帶來的益處,從而導致總時間的增加。分類的目的是提高效率,而所謂效率高,就是在單位時間里實際完成的工作量多,選擇研究方向的相關率在一定程度上評價了文獻分類的準確性。為了探討文獻分類后的效率,結合效率的定義及計算公式,將算法分類效率計算公式定義為
式中:c為算法分類效率,pi為第i個分類中單篇文獻擇研究方向的相關率,n為分類數量,Rt為檢索閱讀第i個分類中全部文獻所用時間,Ut為將文獻分類所消耗的時間。
可見,文獻選擇研究方向的相關率越高,閱讀文獻所需時間和算法分類所需時間越短,則算法的應用效果越高,說明算法分類的應用效果越好。
根據算法分類效率計算公式,對10種分類方案的算法分類效率進行繪圖分析,如圖6所示。
從圖6中可以看出,算法分類效率隨著分類數量的增加而呈現先上升后下降的趨勢。在分類數量較少時,增加分類可以顯著提高效率。然而,當分類數量達到一定閾值后,過細的分類導致分類消耗的時間大幅增加,反而降低了效率。
將53篇石油領域大數據算法應用文獻按領域分為勘探(10篇)、開發(15篇)、生產(19篇)和儲運(9篇)4類時效率最高。分類后,查閱勘探領域類文獻所用時間為12h(10×1.2h),相比不分類的63.6h,節省51.6h,效率提高81%。查閱鉆井領域類文獻所用時間為18h(15×1.2h),節省45.6h,效率提高72%。查閱開發領域類文獻所用時間為22.8h(19×1.2h),節省40.8h,效率提高64%。查閱儲運領域類文獻所用時間為10.8h(9×1.2h),節省52.8h,效率提高83%。四個領域平均查閱文獻所用時間為15.9h,效率平均提升75%。
3結論建議
(1)從近10年核心期刊文獻數據庫整理涉及油氣大數據算法且相關性較強文獻53篇,按應用領域將石油工程大數據算法分為勘探領域算法、開發領域算法、生產領域算法和儲運領域算法,解決了石油領域科研工作者在選擇大數據算法時,不知道如何選、選不準、選不快的問題。
(2)盡管53篇代表性文獻反映了近10年石油工程大數據算法應用的發展趨勢,也為研究提供了很好的數據支撐,但在收集文獻的數量和國際重要期刊數據庫搜集方面仍有不足,部分優秀文獻可能沒有被采集到,四大領域算法可能還存在遺漏的情況,有待繼續完善。
(3)為了更加明確各類算法應用場景和要求,建議未來應繼續研究細化算法分類,結合石油工程領域大數據特點和具體算法適合的數據集特點,對應用場景及優缺點進行細化總結,以提高大數據算法在石油工程領域的應用效果。