楊春穎 王赟 張致付
【摘要】隨著學科間交叉以及大數據方法在地球物理學科的不斷滲透,需要培養具有地球物理和大數據知識的綜合型人才。傳統地球物理專業向油氣勘探開發各個階段輸送了大批人才,但在大數據方面的教學模型設計方面尚未形成對應的培養方案。本文從大數據的技術體系出發,分析了數據采集、存儲管理、計算模式、數據挖掘分析等流程,并介紹了數據挖掘方法在油氣勘探開發中的應用。以此為基礎,設計了面向地球物理專業的數據挖掘教學模型,介紹了具體內容,希望以此教學模型為起點,設計教學大綱,開展教學探索。
【關鍵詞】大數據? 地球物理? 數據挖掘? 教學模型
【中圖分類號】P3-4;G642.423【文獻標識碼】A 【文章編號】2095-3089(2020)26-0116-03
大數據起源于互聯網并迅速發展,在各個行業得以應用。油田勘探開發行業采集并管理著龐大的數據體:從三維寬方位采集、四維地震、生產數據到測井、巖心、生產測井,再到光纖實時數據傳輸。國內含油氣盆地具有多樣化、多期次的構造特征,有海相碳酸鹽巖孔縫儲層,又有陸相碎屑巖和隱蔽油氣藏,諸多復雜構造、復雜儲層的勘探開發需要高精度地球物理方法,利用大數據方法進行生產決策,可以充分利用發揮已有地震數據的優勢,提高并推動地球物理核心技術的發展。而大數據方法在能源行業的發展和應用,需要懂專業和大數據知識的綜合型人才,該背景下地球物理專業學生培養的投入相對薄弱。
1.大數據技術體系
大數據流程(圖1)涉及數據采集和預處理,存儲和管理,計算模式,大數據挖掘和分析,以及可視化等五個方面[1,2]。數據采集主要包括以下幾個方面:(1)科學實驗采集,是在預先假定條件下觀測到并用于研究和學術的信息系統;(2)物理信息,可以是對各種物理現象或物理過程的監控和檢測,是關于介質物性、化學性質的測量數據;(3)管理信息,為日常管理和經營過程中產生的數據,例如,辦公和事務處理系統;(4)Web信息系統,通常指互聯網產生的各種數據信息。這些數據是對某一過程或某周期狀態或某種現象的描述,這些數據的質量決定了可用性,能否精確的描述生產過程、學術問題均受到數據質量的影響。
采集的大規模數據,可能是結構化的,也可能是非結構化的,均需要存儲技術支撐;根據用戶需求,數據的處理方式和結果也多種多樣。因此數據的存儲和管理,是大數據的另一個重要環節。將PB(1000TB)級甚至更高的EB(1000PB)級數據分散到各個節點或者設備上,是分布式存儲的基本特征,目前常用的技術包括分布式文件系統,分布式數據庫,大數據索引查詢等。大數據計算模式(圖2)有批處理、內存計算、流式計算、迭代計算、查詢分析計算和圖計算[3]。以常見的批處理為例,其對應的計算系統有Hadoop、MapReduce和Spark,采用的是分而治之的并行思路,是目前最為主流、較為成功的并行計算模式,具有簡單易用的特點,很多企業內部使用這種批處理方法計算大數據。
大數據的優勢在于數據的體量大,通過數據挖掘,可以克服觀測數據的個體波動,從而揭示更多可信賴的深層次的模式和規律,發現更潛在的數據價值,數據挖掘是通過機器學習、統計等實現數據聚類的過程。在TB級別的數據體上迭代查找有用信息,需要深入理解和扎實的數據挖掘方法。該方法本身經過了很多年的發展,已經出現了很多較為成熟的挖掘算法[4],而傳統的算法較難直接應用到MapReduce、Spark等分布計算系統上,需要開發新的方法,挖掘算法可以分為聚類算法、預測回歸算法、索引排序法和關聯規則分析法[5],可實現知識的提取。這些方法可以在分布式存儲系統框架下,并行的執行大數據挖掘任務,在準確率和效率方面大大提升。
從大數據的技術體系可見,與數據的存儲方式、計算系統研究相比,數據挖掘是面向用戶需求的一種計算過程,可服務各行各業,對油氣行業的發展將有很大的幫助。大數據在能源行業的發展和應用,需要懂專業和大數據知識的綜合型人才,此類人才缺口較大,僅美國就需要14萬到19萬名擁有數據深度分析專長的從業者。近年來,像中石油這樣的大型央企未雨綢繆,也在加大數據專業人才的培養力度,開始大數據的人才儲備;廣海局在可燃冰技術方向走在國內外前列,近兩年也開始招聘數據挖掘方向,招聘專業限制為測繪和地球物理這兩個專業,可見,企業和科研高校對這方面人才的需求趨勢;尋求數據挖掘和地球物理專業的結合點,將是未來人才培養的一個新方向。
2.大數據對地球物理技術的影響
勘探地球物理旨在圈定油氣藏邊界,需要采集和分析大量數據,例如:野外寬方位、節點式采集產生海量地震數據,時延地震通過對有利區塊重復三維采集,產生的大數據等。隨著技術的發展,采集1000平方公里的三維數據是500TB,1.92萬次覆蓋,道數已高達700億道。通過大數據和云技術實現數據快速傳輸,并實現野外與室內的實時互動,這些工作的展開都要圍繞大數據技術。很多工作者已經嘗試采用數據挖掘方法開展油田解釋和反演工作。例如,通過關聯規則、神經網絡方法,統計分析油田勘探開發數據庫,并研究水淹層自動識別技術[6];通過貝葉斯方法和聚類分析技術實現油田數據庫監控,實現數據質量、靜態、動態數據跟蹤等[7]。
國內外公司也已經開始布局大數據在油田勘探方面的應用,像國外大型油服公司CGG、Schlumberger,都在開發大數據應用平臺。Schlumberger推出了認知勘探開發環境,利用了數據挖掘方法,例如,機器學習、物聯網等來提供生產率,同時,也發布了數字化井建設規劃方案,以便能夠在統一的系統內訪問鉆井數據,并將此項技術逐漸應用到勘探開發的其他環節。中石化自主開發了π-frame地震數據處理和解釋軟件,是處理和解釋一體化平臺,實現了數據IO和處理的并行化,在業界首次使用MapReduce和Hadoop等分布式大數據技術,能夠支撐PB級別海量地震數據的高效組織和管理。π-frame的功能不僅局限于此,未來還將包括鉆井、測井等勘探開發技術,該平臺與現在主流軟件相比,已經具備了明顯的優勢。此外,中石油也在開展油田生產管理系統。隨著技術的不斷發展,以及生產效率的不斷提高,數據挖掘技術在油氣行業將展現出廣泛的應用前景,對具有地球物理背景的綜合型人才需求較大。
而地球物理專業對人才的培養多集中在地震勘探方法、地震數據處理和解釋、數字信號處理等傳統科學的建設,在學時安排方面傳統專業課的比重較大,作為高校的教學工作者,對行業動態和最新發展趨勢的認知,利于探索地球物理專業學生的培養方式,以適應能源行業的新時代特征,加大這方面人才培養的力度。在國內外能源需求降低,人才競爭激烈的背景下,培養高素質畢業生,可以提高專業的核心競爭力,保證人才的輸送質量。
3.地球物理專業培養方式
經過多年教學和實踐,地球物理專業傳統課程設置的教學模型優勢在:大學一年級基礎知識學習,奠定學科基礎,包括高等數學、大學物理、地球物理概論等基礎課程;同時,學科講座貫穿整個學年,新生對專業有較為清晰的認識。大學二年級開始較為深入的數理學習,包括線性代數、復變函數、概率論等專業基礎課學習,為下一年度專業課學習打下基礎;此外,還將系統學習C++語言程序設計,算法基礎編程實踐;也有專業課學習,例如,數字信號處理等。第三年將集中學習彈性動力學、場論、地震、測井、地磁等多種物探方法,從課程設置來看,學生將接受較為全面的專業課學習。第四年是對專業課的一個系統學習。考慮學科特點,探索數據挖掘課程模式,需要整合分析現有課程設置特點、采取分層階梯優化的原則,整體推進教學模型設計:
(1)基礎層:學科基礎課是大數據分析的基本工具,以常規大數據處理方法為依據,研究學科基礎課程內容設置,設計基于大數據分析(數據挖掘)技術的教學內容:
①數據挖掘基本概念:包括定義、方法的價值和目的,即輸出的是一個預測模型,并改善預測模型;地震海量數據引起的生產需求;挖掘技術分類:按照功能分為預測和描述兩種,又可細分為聚類算法、分類與預測、關聯分析法;挖掘算法的特征;異常檢測的應用以及異常檢測分類。
②分類與預測:每條記錄都包含一組屬性,其中的一個屬性就是類,若根據類屬性獲得一個模型,則這個模型就是其他屬性的函數;預測是根據某些變量預測未知或其他變量在將來的值,或者,根據已知數據集和類屬性,構建預測模型并分類現有數據,并使用分類的新數據,預測未知對象。可實現非線性樣本學習,進行非線性函數預測。
分類法包括決策樹分類法、神經網絡、支持向量機和樸素貝葉斯分類法[8],都是通過學習算法確定分類模型,能夠很好的擬合輸入數據和屬性之間的關系[8]。重點講述廣泛使用的決策樹分類技術:基本原理,建立決策樹流程,決策樹歸納設計,屬性測試條件,屬性劃分度量的合理選擇。最后介紹模型的過擬合問題:訓練誤差、過擬合原因等。
③聚類算法:按照某種標準把一個數據集分割成不同的類,使得類內相似性盡可能大,同時類間區別也盡可能大。最終每個分類在空間上是個相對稠密的空間。和分類的區別在于聚類不依賴于預先定義的類。如圖3所示。教學內容主要包括分類、劃分方法、基于模型的聚類、異常分析。
④案例分析:儲層性質橫向變化大,采用聚類分析可以有效、準確地建立儲層預測流程。而地震屬性是地震反射波的任一屬性,從數據驅動的角度,將屬性和特定儲層特征聯系起來,可以建立合理預測模型。例如,碳酸鹽巖油層含水和裂縫分布,通過裂縫和油井分類統計含水飽和度,進而制定潛在有價值的生產策略,整個數據分析流程如圖4所示:
以上是根據現今大數據和地球物理的結合點,設計的教學內容和案例分析,希望通過課上講解,激發學生的積極性,提高學生基本學習能力。課程安排方面,可以安排在
C++和算法基礎編程實踐課程后,或者安排在大學四年級,作為作業的新方法新技術。雖然課程和傳統專業課略有差異,但可以充分發揮大數據方法在引導學生興趣中的作用,并可以依托傳統專業課的優勢,普及“大數據+專業”在尋找能源、國民經濟發展中的重要方法和技術。
(2)專業層:學生通過課堂學習,逐漸對學科專業課:如地震數據處理、解釋方法課程,融會貫通。在這個層面,可以整合理論教學和實踐內容,學習SAS Data Mining(SAS 數據挖掘軟件)、Software-R等軟件,設計一些實驗流程,增強學生對課程的認知。也可以設計一些小微課題,任課老師指導,從文獻查閱、方案制定、流程設計開始組織學生獨立開展學習,解決實驗設計與調試過程中遇到的問題,培養學生的創新意識。
4.結束語
通過介紹大數據處理的基本體系,詳細分析了適合地球物理專業的大數據方向——數據挖掘,該項技術在國內外大型單位都具有很好的前景,而且人才需求很大。將地球物理和大數據進行融合,優化課程內容,設計符合地球物理專業的教學模型,可以形成較為完整的大數據地球物理課程,幫助課程大綱撰寫,也有助于教學探索。此外,設計合理的教學內容,可以適應學科和行業發展,拓展了人才培養空間可以提高學生的綜合競爭力,推動我校地球物理專業學科建設。
參考文獻:
[1]李學龍,龔海剛.大數據系統綜述[J].中國科學:信息科學,2015(45):1-44.
[2]涂新莉,劉波,林偉偉.大數據研究綜述[J].計算機應用研究,2014(31):1612-1616.
[3]李秋虹.基于MapReduce的大規模數據挖掘技術研究[D].復旦大學,2013.
[4]孟小峰,慈祥.大數據管理: 概念,技術與挑戰[J].計算機研究與發展,2016(50): 146-169.
[5]Han J, Pei J, Kamber M. Data mining: concepts and techniques[M]. Elsevier,2011.
[6]王宏威.油田數據挖掘技術的研究與應用[D].大慶石油學院,2005.
[7]樊嘉麒.基于大數據的數據挖掘引擎[D].北京郵電大學,2015.
[8]李欣.基于神經網絡的數據挖掘方法研究[D].大慶石油學院,2003.
作者簡介:
楊春穎,女,講師,主要從事地球物理教學與研究工作。