馬迅飛 曹士炳 張進鐸 陳翔 李華松



摘? 要: GeoEast系統是東方公司獨立開發的處理解釋一體化平臺,在面對處理PB級的地震數據時,該系統的處理能力已明顯不足,構建面向大數據的GeoEast云平臺勢在必行。通過對大二層網絡架構、規?;杭軜嫛⒋鎯Υ笪募到y、雙軟件統一調度等技術的研究,構建一個基于PB級地震數據的GeoEast云平臺,以實現前后方資源共享,滿足PB級數據計算能力要求,并達到提高設備利用率的目的。
關鍵詞: GeoEast系統; PB級; 地震數據; 云平臺; 大二層網絡
中圖分類號:TP-31? ? ? ? ? 文獻標識碼:A? ? 文章編號:1006-8228(2020)02-36-03
Research on GeoEast cloud platform architecture for seismic data of PB
order of magnitude
Ma Xunfei, Cao Shibing, Zhang Jinduo, Chen Xiang, Li Huasong
(BGP, CNPC, Zhuozhou, Hebei 072750, China)
Abstract: GeoEast system is an integrated platform for processing and interpretation developed independently by BGP. When dealing with seismic data of PetaByte (PB) order of magnitude, the processing ability of the system is obviously insufficient. It is imperative to build a GeoEast cloud platform for the big data. A GeoEast cloud platform for PB order of magnitude seismic data is constructed through the research of big two layer network architecture, large-scale cluster architecture,storage of large file system and dual-software unified scheduling technology, so as to realize the sharing of resources between front and background,meet the requirement of PB order of magnitude data computing capacity, and achieve the purpose of improving the utilization rate of equipment.
Key words: GeoEast system; PB order of magnitude; seismic data; cloud platform; big two layer network
0 前言
為了提高油氣勘探精度,國內外各探區都加大了三維高密度勘探部署,勘探數據量越來越大,個別勘探項目的數據量已經達到了2PB以上,而油公司對數據的處理周期要求卻越來越短。以往計算中心為了提升數據的處理能力,一般只能依靠擴大設備規模來實現,這無疑又增加了運營成本。
目前,東方公司研究院處理集群仍然采用傳統的硬件架構,主要由小規模集群組成,已無法滿足PB級項目的計算能力。同時,現有的存儲資源不僅分散且文件系統偏小,無法滿足PB級項目I/O性能及空間的要求。
如今,國內外的地球物理公司都有海量地震數據處理技術的研究,云計算和大數據技術已經成為解決海量數據處理難題的有效手段。研究構建面向大數據的GeoEast云平臺是為了實現資源集中統一管理,提高資源使用效率,提升海量數據的處理能力。
1 研究現狀分析
1.1 本領域行業現狀
在油氣勘探地震資料處理行業,高精度復雜處理技術和高密度勘探數據都需要海量運算能力;高精度處理技術已經對現有的計算能力提出了挑戰,而海量數據的處理需求,又進一步加劇了資源不足的矛盾。
高密度采集的海量數據運算能力不足,其原因有以下幾方面。
⑴ 軟硬件架構不合理。大多數地震資料處理中心,依然采用傳統的軟件及硬件架構,配置不合理,難以滿足目前對海量數據處理的需求。
⑵ 相關技術落后。2014年11月,權威機構曾經利用Hadoop技術對100TB數據使用206個EC2節點,耗時僅23分鐘就完成了專用目的排序工作,其優勢可見非同一般。據最新報道,騰訊利用其云計算技術,可在9.8秒內完成上述測試。
⑶ 需要不斷增加投入。由于高密度采集而獲得的海量數據在不斷增大,采用擴大傳統PC集群規模來提升處理能力的做法,必將造成對PC集群更大需求,資金投入也必將增加。
1.2 東方公司技術現狀
2013年,東方公司研究院同浪潮公司合作,充分考慮石油勘探的應用特點,在大規模PC集群系統上,針對統一監控和運維管理,構建統一集成式服務平臺,優化I/O線程池和負載均衡,提升并發性能。
2017年,研究院開展了GeoEast在復雜生產環境下的性能調優技術研究與應用,深入研究疊前深度偏移作業時的系統硬件資源優化問題,分析PC集群不同內存、內置硬盤、數據存儲、網絡、CPU、異構計算模塊等資源,對疊前深度偏移模塊的運行效率進行優化研究與測試,系統運行效率得到明顯提升[1~2]。
2 云平臺架構研究
2.1 海量數據的集成應用研究
主要通過大二層網絡架構、PB級并行文件系統、分布式存儲等技術研究,構建規模化PC集群,提高資源使用效率,以適應海量勘探數據應用。
研究內容主要包含以下三個方面。
⑴ 大二層網絡架構研究
目前,計算中心的核心層與匯聚層在物理設備上只是兩個并聯的交換機。一個服務器和另一個服務器間的傳輸,則需要經過兩個匯聚層交換機和一個核心層交換機,這無疑將產生較大的延遲,甚至會發生阻塞數據傳輸的情況。
大二層架構中的任何一臺服務器和另一臺服務器間的數據傳輸,只需要經過一臺葉交換機和一臺脊交換機,這種模式提高了數據傳輸的效率,更適合云計算應用,能滿足規模更大、且速度更快的計算中心需求(圖1)。
⑵ 并行文件系統應用研究
PB級并行文件系統有著非常穩定的I/O性能,且具有較高的帶寬;在同時運行多個輸入輸出作業時,其性能穩定可靠;對于輸入輸出、疊前深度偏移等作業,都有較好的性能表現。
多組集群共享存儲,減少了傳輸數據的時間,并且不同集群、不同類型的作業,可以有效的利用磁盤的帶寬。
部署全局共享存儲系統,對并行文件系統進行優化研究,解決多種并行文件系統之間的沖突,優化存儲網絡,提高存儲訪問帶寬(圖2)。
⑶ 分布式存儲研究
為了提升系統的穩定性,將數據和元數據分離,減少了元數據操作與數據讀寫操作之間的互相干擾;元數據操作時間短、簡單,不對數據服務器產生任何影響,保障了系統的穩定性。
為了提高數據的安全性,采用數據冗余與恢復技術,把數據和相對應的奇偶校驗信息存儲到不同磁盤,當一個磁盤數據發生損壞后,可以利用剩下的數據和相應的奇偶校驗信息恢復被損壞的數據。
實現數據的高速讀寫,在寫數據時,將數據切成多塊,然后并行傳輸存儲到多個存儲機群節點的全部磁盤上;在讀取數據時,從全部磁盤上同時讀取數據不同部分,然后合成為一個數據體。
分布式集群存儲,即多個磁盤及網絡同時讀寫,實現了高速的聚合讀寫功能;存儲系統使用的存儲越多,則控制器、磁盤和網絡端口則越多,存儲性能就越強。在線擴展容量時不影響使用;智能平衡以避免熱島效應,增加硬盤的壽命[3]。
2.2 智能化管理技術研究
⑴ 應用軟件自動調度研究
GeoEast和Paradigm兩種應用軟件統一調度,考慮模塊特性和需求,合理安排資源,合理創建單線程、多線程,以求均衡資源;基于用戶、部門和項目組的配額管理、彈性調度,提高資源利用率;自動負載均衡、用戶隔離;多用戶協作,一鍵部署、資源自動發現,批量化配置。
⑵ 集群統一管理和大數據分析
大規模集群的CPU、GPU利用率統計;節點內存使用統計、網絡流量統計、I/O數據讀寫速率、閾值預警機制;適用于各類型設備及不同版本操作系統的監控工具,并對信息的歷史記錄進行追蹤。
⑶ 基于手機APP運維平臺研究
開發基于手機APP的IT運維平臺,使得用戶能夠在第一時間反饋故障信息,并能全程監控維護過程,同運維人員溝通并參與評價,從而提高運維人員工作效率,縮短故障處理時間。
2.3 云平臺測試與優化研究
測試Hadoop分布式存儲應用,以及多軟件適應性測試;智能化云調度測試;常規偏移系統、作業類型自動識別;服務器負載均衡測試、關鍵模塊效率測試。
形成基于物探處理行業標準的GeoBench技術測試集,其中BigBench技術開展大數據分布式存儲性能測試,測試DFS的I/O性能,驗證task的mapper的數量與性能的關系;IozoneBench技術測試不同文件系統的讀寫性能;SpeedupBench技術通過不同數據體、不同軟件,在相同軟硬件和文件系統平臺上進行對比測試。
根據測試結果,通過人工智能、神經網絡等方法,預測在大規模并行情況下,不同應用平臺的加速比、運算效率等,從而對云計算、大數據平臺的硬件架構和軟件開發、應用給出科學的優化建議(圖3)[4-6]。
3 云平臺關鍵技術
3.1 主從數據庫應用技術
在高并發讀寫、負載逼近極限情況下,性能指標仍可以維持雙曲線甚至對數曲線,且到達頂峰之后不再下降,因為它有豐富的幾何類型,實際上不止幾何類型,PG有大量字典、數組、bitmap等數據類型,“無鎖定”特性非常突出,甚至包括vacuum這樣的整理數據空間的操作,可以使用函數和條件索引,這使得數據庫的調優非常靈活。
有極其強大的SQL編程能力,有非常豐富的統計函數和統計語法支持,比如分析函數,還可以用多種語言來寫存儲過程,對于R的支持也很好。
有多種集群架構可供選擇,plproxy可以支持語句級的鏡像或分片,slony可以進行字段級的同步設置,standby可以構建WAL文件級或流式的讀寫分離集群,同步頻率和集群策略調整方便,操作非常簡單。TEXT類型可以直接訪問,SQL語法內置正則表達式,可以索引,還可以全文檢索,或使用xml xpath[7]。
3.2 大二層網絡架構應用技術
其整體扁平化的架構設計,使得計算節點之間高速通過交互,之間不再有匯聚交換機增加轉發延時。
支持智能運維管理和可編程化管理,可根據高性能計算的要求,批量下發腳本,配合高性能計算,彈性擴展計算所需要的計算網絡資源,或者回收計算網絡資源。
4 結束語
構建PB級的地震數據處理系統,創新大二層網絡架構,可以滿足規模更大且速度更快的地震數據共享存儲及計算集群應用。
在GeoEast云平臺搭建之后,可形成地質解釋云,實現異地瀏覽、信息交流、技術支持等功能;數據偏移處理云則可跨區域實現資源共享,提高作業運行效率,從而節約運營成本。
參考文獻(References):
[1] 詹毅,趙波,劉建紅等.GeoEastV3.0地震數據處理解釋一體化軟件系統[J].石油科技論壇,2017(增刊):4-7
[2] 文佳敏,趙長海,侯紅軍等.GeoEast海量地震數據高效處理技術[J].石油工業計算機應用,2016.24(3):12-18
[3] 馬軍,滑維鑫.分布式云平臺架構及管理技術[J].數字通信世界,2018.2:183-185
[4] 原建偉,何玉輝,丁潔.大數據實驗云平臺的設計與實現[J].信息技術,2018.2:68-71
[5] 于由美,劉小斌,江明等.地質綜合研究云平臺運維管理[J].中國管理信息化,2019.22(7):163-165
[6] 李養生,謝立冬,任紅民等.勘探開發專業云平臺的建設及應用效果[J].復雜油氣藏,2017.10(4):32-35
[7] 陳麗麗.大數據時代的數據庫技術應用之我見[J].信息系統工程,2016.6:83-85