吳 巍
(中海油能源發展裝備技術有限公司,天津 300452)
近年來,大數據技術快速發展,企業越來越重視數據價值,數據的發掘與應用對企業發展起到正向引導作用。當前企業數字化轉型,以基于大數據平臺建設的業務融合為主要形式,以數據指導業務為主要模式。用數據串聯企業多個業務板塊,發掘數據價值,提升營銷成功率,提高運營效率,改善管理決策成為新一輪企業數字化轉型的主要導向[1]。如何以整體市場需求布局,將零碎化產業板塊串聯形成產業鏈,綜合挖掘各業務板塊的數據價值,提高已有信息系統之間的關聯性,提升管理及工作效率,指導營銷、生產、經營相關決策,實現數據互聯互通、管理融合共享,提升企業競爭力及業務附加值,是石油化工服務類企業由信息化向數字化乃至智慧化轉型的建設痛點[2]。
大數據技術的發展戳中了石油化工服務類企業的痛點,如何應用大數據手段整合各業務板塊、發掘數據價值、提升運營效率、改善管理決策,是石油化工服務類企業的數字化工作重點。文獻[1]雖然利用了大數據技術,但是僅僅是針對某些問題的解決,但是未提交到石油全壽命周期管理時平臺建構和數據挖掘,技術方案略顯抽閑。文獻[2]雖然也通過數據挖掘技術來解決一些技術問題,但是技術公開地比較籠統,沒有針對性地介紹。針對上述技術問題的不足,本研究結合我國大數據技術發展現狀提出了“基于大數據技術的石油化工服務類企業石油數字化工作平臺建設”理念。下面將詳細描述。
在本研究設計中,設計解決的關鍵技術是石油數字化工作平臺工作效率的問題,采用的方法是:充分結合實際情況,融合石油化工服務類企業產業一體化、管控流程一體化、數據一體化為目標,提高和石油數字化工作平臺為研究目標,滿足企業整個數字化轉型為根據要點,采用數字化平臺為技術手段,實現石油全壽命經營管理和生產管理,將各產業板塊有機串連,形成一體化服務模式[3]。其整體架構如圖1所示。

圖1 大數據的石油數字化工作平臺
本研究的石油數字化工作平臺在功能設計上滿足了石油化工服務類企業的數字化轉型戰略要求,能夠按照系統性、可擴展性、成熟性、可靠性、開放性、先進性、安全性、兼容性的原則進行建設,結合實際管理需求,充分利用現有信息系統,以數字化頂層設計為先導,統籌規劃基礎設施建設,搭建統一的石油數字化工作平臺。平臺建設完成后,能夠實現"數據互聯互通,業務協同貫通,管理融合共享",實現石油化工服務類企業的管維、分析和決策數字化轉型[4]。在本研究設計中,從邏輯架構上可以將本研究的石油數字化工作平臺劃分為大數據平臺層和大數據平臺管理等,下面進行詳細說明。
在數據源層中,該層包括各種RDBMS、No-SQL數據庫,Hyper Text Transfer Protocol或Remote Procedure Call Protocol等接口的數據源[5]。
在大數據平臺層中,該層包括數據采集層、存儲層、管理層和查詢層。其中微服務層包括各種業務系統的基于Web API的微服務。門戶層包括企業在信息化階段建成的已有業務系統的單點登錄、交互式商業智能報表工具及相關數據的多樣化展示功能[6]。
在硬件結構上,其設置了集群管理服務器、群可視化服務器、Zookeeper集群、資源調度服務器、數據存儲計算集群、分布式緩存及流處理集群和Web服務器,其中集群管理服務器包括Ambari-Server,HiveServer2,Hue,Oozie-Server,Maria DB,Kibana,Apache Ranger等產品或組件,為集群提供管理、部署等服務。集群可視化服務器包括Superset交互式商業智能報表工具,數據資產管理系統,以及石油數字化工作平臺的數據門戶[7]。Zookeeper集群主要為整個集群的組件提供高可用服務(HA)。資源調度服務器包括NameNode,ResourceManager,HBaseMaster等多種角色,主要用于集群的資源調度,實現服務器熱切換。數據存儲計算集群包括用于集群數據存儲、分析與計算的DataNode,JournalNode,NodeManager,RegionServer,WorkerNode等角色。分布式緩存及流處理集群包括實時數據量處理及數據采集的Kafka,Flink,Redis,Logstash等組件,能夠實現海量數據的緩存。Web服務器由Nginx組件提供網絡代理功能,用于高并發網絡的負載均衡,可對其進行橫向擴展[8]。
其中大數據技術的石油數字化工作平臺物理架構如圖2所示。

圖2 石油數字化工作平臺物理架構示意圖
在本研究中的大數據技術設計中,目前的石化行業大石油全生命周期大數據分析應用多分布于供應鏈優化、庫存管理、資金統一管理和生產監管優化、營銷決策輔助幾個模塊。基于大數據技術的石油化工服務類企業石油數字化工作平臺建設完成后,可圍繞生產管理、經營管理、裝備制造、油田建設等主題構建多業務板塊一體化協同應用場景石油化工服務類企業原有信息化系統中的大量數據經過ETL數據抽取清洗轉換接入石油數字化工作平臺后,按照財務、人力、采辦、營銷、生產、運維、施工、物料等大類進行數據存儲[9];經工業大石油全生命周期大數據分析過程形成生產管理、經營管理、裝備制造、油田建設等主題;結合用戶可視化與數據應用需求,按照經營狀態、運維能力、庫存成本等業務大類形成可視化指標;在數據流轉的全生命周期內串聯各業務板塊,實現監管、預警、追蹤、分析、管理改善、決策輔助各層面的數據展現,最終滿足企業整體的生產經營目標[10]。

(1)
在上述關系中,α表示正常數據與故障數據之間的關系系數,WT表示正常大數據的特征矩陣,wi表示正常大數據的特征。石油全生命周期故障大數據特征用字母y表示,則在提取石油全生命周期故障大數據特征時,可通過以下公式實現:
(2)
為了提高石油全生命周期故障大數據計算的精度,通過以下公式對大數據的特征實施加權計算處理:
(3)
對石油數字化工作平臺[13]中的大數據特征進行提取后的誤差可以用以下公式表示:
(4)

(5)
式(5)中,φ為石油數字化工作平臺大數據特征提取結果。
在石油數字化工作平臺中,確定了正常石油數字化工作平臺大數據與故障數據之間的關系,通過對石油數字化工作平臺大數據石油全生命周期故障特征進行加權處理[15],直到數據特征提取誤差最小為止,就實現了石油數字化工作平臺大數據特征提取。下面采用一種形式的大石油全生命周期故障大數據計算方法進行計算。
在進行石油全生命周期故障特征計算時,本研究應用了DBN大數據學習算法模型實現石油全生命周期故障信息的識別和處理,DBN大數據學習算法模型構建了雙層RBM結構,將石油數字化工作平臺內包含的不易為用戶識別的高緯度數轉換為低緯度數據,在該技術能力的基礎上[16],再次應用BP神經網絡算法模型進行反向微調結構參數,使得輸入的復雜石油全壽命周期內的數據簡易化處理,本研究借助于DBN逐層貪婪訓練算法,將模型從上至下地分為輸入層、處理層和輸出層[17],其模型算法如圖3所示。

圖3 DBN大數據學習算法模型構建
計算過程通過多層數據的訓練共同完成,其中在訓練第一層數據信息時,可以采用CD-1算法,使得第一層RBM中的數據信息按照財務、人力、采辦、營銷、生產、運維、施工、物料等不同的類別進行訓練,將石油全生命周期不同類別大數據特征向量進行分類,將多個石油全生命周期大數據特征信息進行保存[13]。在計算過程中,如果輸入石油全生命周期大數據樣本為x,將第一層中的RBM可視層通過字母X來表示,則在DBN大數據學習算法模型中的第一個隱層h1中,這些參數信息可以記作為{W1;α1}。通過上述方式進行數據訓練,能夠將上一步中DBN大數據學習算法模型內第一層RBM內設置的權重和偏移量作為參考量穩定下來,完整上述步驟后,將第二層RBM的向量數據輸入上文提到的DBN大數據學習算法模型。在該步驟過程中,也要考慮到用戶設置隱性神經元的數量和狀態情況[18]。上述步驟完成后,然后進行下一層的RBM訓練,這需要在第一層RBM的基礎上進行疊加。以此類推,將不同層的RBM呈階梯狀排布,直到應用到最后一RBM層,然后應用以下邏輯函數進行數據計算:
(6)
通過上述公式,構成新的層次數據向量tl={tl1,tl2,tl3,…,tlj}T。構成的新的上一層hl+1作為下一層的特征向量,此時開,存在數據集合l∈{1,2,…,c-1}。
在經過上次的迭代計算后,在DBN大數據學習算法模型的最后一層設置BP神經網絡模型,以實現石油行業中財務、人力、采辦、營銷、生產、運維、施工、物料等大類進行數據等全壽命周期內的故障數據診斷[19],用戶根據DBN大數據學習算法模型不同層內設置的權值對故障信息進行診斷,如果需要將最后的結果達到最優,需要反復迭代計算[20],使得各層的權值能夠達到最優。
本研究技術方案在中海油能源發展裝備技術有限公司內進行試運行,大石油全生命周期大數據分析應用多分布于供應鏈優化、庫存管理、資金統一管理和生產監管優化、營銷決策輔助幾個模塊[21]。應用到計算機硬件環境為:P430G CPU,8 GB RAM,軟件環境采用的Windows 7,并在該系統上裝上 Matlab 2015,在必要時,進行數據模擬仿真。
本研究中的基于大數據技術的石油化工服務類企業石油數字化工作平臺登錄界面如圖4所示。

圖4 應用界面示意圖
通過圖4的界面,可以將石油化工服務類企業原有信息化系統中的大量數據經過ETL數據抽取清洗轉換接入石油數字化工作平臺后,按照財務、人力、采辦、營銷、生產、運維、施工、物料等大類進行數據存儲[22];經工業大石油全生命周期大數據分析過程形成生產管理、經營管理、裝備制造、油田建設;結合用戶可視化與數據應用需求,按照經營狀態、運維能力、庫存成本等業務大類形成可視化指標;在數據流轉的全生命周期內串聯各業務板塊,實現監管、預警、追蹤、分析、管理改善、決策輔助各層面的數據展現,最終滿足企業整體的生產經營目標[23]。
在驗證時,DBN大數據學習算法模型中各項參數信息如表1所示。

表1 參數設置示意圖
在上述參數模型中,DBN大數據學習算法模型的學習效率為0.13,將運行模型進行189次迭代,下面通過單一的BP神經網絡算法(下文稱為方案1)、 K-means聚類算法(下文稱為方案2)進行對比分析,輸出的試驗樣本數據如表2所示。

表2 試驗樣本示意圖
在上述試驗過程中,在石油全生命周期大數據平臺內的數據庫中選擇了4組石油全壽命數據樣本,1~3組的數據庫樣本數量分別為50萬、80萬、120萬和180萬個。通過對比分析,發現本研究方案效率高。
下面通過繪制誤差曲線圖進行描述,如圖5所示。

圖5 準確率對比曲線圖
通過圖5看出,在相同的時間內,3種方案的準確度都呈上升趨勢,采用本研究的DBN大數據學習算法模型準確率最高。下面再從數據的速度上進行分析。輸出的曲線對比如圖6所示。

圖6 數據處理效率對比曲線圖
在圖6中的對比曲線中,假設選擇不同的數據庫,數據庫量分別從100~1 000 GB不等,本研究的方法在2分鐘左右能夠處理上百GB的數據信息,而采用方案1時,當處理100 GB的數據信息就需要遠遠多于本研究的技術方案的時間處理量。隨著石油大數據量的增多,方案1和方案2需要采用更多的時間,而本研究方案在不到3分鐘的時間內能夠處理上百億GB的數據信息。數據處理大,用時少。
以大數據技術為代表的新一代信息技術在智慧油田、智能工廠、智能管道、智慧加油站等石化行業雖然已經廣泛應用。但是仍舊存在一些技術弊端。本研究從石油化工服務類企業數字化轉型的角度考慮,面對復雜多樣的業務需求,基于大數據技術的石油數字化工作平臺研究出一種數據存儲、管理、分析、共享和服務的有效載體,本研究集合數據可視化分析與數據挖掘功能為一體,提高了各類型數據組織和處理能力,能夠與現有業務系統無縫融合,進一步改進數據操作服務性能,研發出操作簡單的石油全生命周期大數據分析平臺,提升整體石油化工服務類企業數字化水平和價值創造能力。
本研究的方案雖然具有一定程度的技術進步性,仍舊存在一些不足,這需要進一步的研究。