姜麗娟 孟令霞
[摘 要] 21世紀可以稱為“大數據”(Big data)時代,隨之而來的是數據倉庫、數據安全、數據分析、數據挖掘等技術。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
[關鍵詞] 集群環境;數據加載;創新
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 07. 084
[中圖分類號] TN919.5 [文獻標識碼] A [文章編號] 1673 - 0194(2016)07- 0184- 01
1 引 言
目前,在石油勘探開發領域,產生了海量的地震數據,對這些海量地震數據的重新處理挖掘產生了巨大的經濟效益。例如,徐家圍子探區,共有28個地震區塊,7 348平方千米,總數據大約30 TB,2006年開始重新連片處理,找到天然氣儲量1 000億立方米。石油地震數據挖掘工作的第一步就是數據整理和加載工作。
2 地震原始數據加載的傳統方式
大慶研究院地震處理系統傳統的數據準備流程是地震用戶提出“加載工區原始數據申請”,經有關領導批準后,由計算機室磁帶組工作人員先找到原始帶,拷貝后借給處理編碼員,編碼員需要一盤盤的將帶加到主機房帶機上,并使用處理軟件將數據加載到處理系統中,數據加載完后將帶歸還磁帶庫。
這種數據加載方式的缺點,一是處理系統主機上要連接磁帶機,編碼員依靠多種處理軟件進行加載。二是手續煩瑣,自動化水平低,加載速度慢,編碼員勞動強度大,例如,一盤3480地震原始記錄磁帶,容量為200 MB,加載到處理系統大約需要15分鐘,一個地震區塊平均2 000盤磁帶,為了完成科研生產任務,幾十個GB的數據就要加載幾天幾夜才能完成。
隨著勘探開發技術的發展和勘探力度的加大,地震勘探儀器的不斷更新換代,使野外采集覆蓋次數不斷增加,接收道數不斷增多,產生了海量的野外原始數據。初步統計,大慶油田近三年的數據量是前二十年數據量的四倍。同時,新的高性能CPU/GPU集群時代出現,高效地推進了高精度、大規模地震資料處理技術的發展,推進了勘探海量地震數據的深度挖掘,單靠原有的處理系統主機掛接有限的十臺老舊磁帶機方式進行數據加載,根本無法完現今每年50多TB原始數據加載任務,必須采取新的數據集中加載模式。
3 海量數據準備集中加載的創新方式
3.1 搭建海量地震數據準備專網
以往,地震磁帶庫主要是負責野外原始數據的保存,帶庫的微機轉儲系統都是獨立的內網,和處理機房不通,要想直接加載到高性能集群系統中,首先必須要與地震處理專網搭建一條通道,建立地震數據準備專網,這樣在磁帶庫安裝一臺新的CISCO 2970千兆交換機,下聯轉錄系統共七臺微機,通過光纖上聯到主機房地震處理專網的Foundry 424千兆光纖交換機,與整個地震處理系統形成一體。
3.2 PC-NFS文件系統與集群文件系統異構平臺共享
通過對幾種開源軟件的試驗, Maestro Client 8.0的PC-NFS性能穩定,具有計算機網絡系統所具有的基本功能,并能夠幫助用戶訪問熟悉的Windows微機環境中的遠程數據,而不需關心文件的物理位置。為此,選擇該軟件作為Windows微機上的PC-NFS文件系統軟件平臺,并結合地震數據準備與機房內的各種版本linux操作系統情況,通過編寫客戶端安全監控進程,對遠程訪問用戶進行嚴格管理,建立了全新的數據準備工作方式,實現了地震數據準備從數據加載軟件到所有處理系統的一步到位。
3.3 網絡環境下海量數據集中加載負載均衡技術應用
創新的數據加載方式,用戶提出“加載工區原始數據申請”,經有關領導批準后,磁帶組工作人員利用GDCS地震數據轉儲系統、Seisco地震數據磁帶拷貝轉錄系統等專用軟件直接將原始地震數據加載到集群環境下的存儲數據盤上,供處理人員使用。
4 實際應用效益情況
通過搭建專用數據準備網絡環境,運用PC-NFS文件系統搭建了微機與集群存儲系統之間跨平臺數據共享通道,編寫用戶級信息安全守護程序,在國內石油行業首家實現了集群環境下海量地震數據的直接加載。
新數據集中加載工作方式的改革,使得數據準備速度提高了18倍,并解決了2006年HP大規模集群系統引進投產后地震數據的輸入問題,節省新集群外部設備磁帶機引進資金163萬元;節省用于磁帶拷貝的空白帶80 246盤,每盤按60元計算,合人民幣481萬元;2006年運用新的加載方式總計為地震加載55 TB原始數據,為A1項目加載10 TB數據,節約加載工期17 195小時,節省機時費812萬元。僅2006年一年總計節約1 456萬元人民幣。
5 結 語
這項技術的使用徹底改變了傳統的工作方式,真正做到了數據準備工作的高效、快捷、安全、穩定,自投入生產以來,已經在徐家圍子大連片、常家圍子大連片、喇嘛甸全數字高密度、長垣薩爾圖高密度等地震處理中推廣應用。到目前為止,運用新技術為地震用戶加載原始數據量達到1 000 TB以上,不僅創造了巨大的經濟效益,也為油田今后大數據重新挖掘處理做了先導性探索,充分挖掘大數據中的最大價值,具有重要意義。