趙國深* 趙嘉玲 劉思妤 王 星 夏榮蓓 代炳濤
(河北省智慧管道技術創新中心廊 廊坊中油朗威工程項目管理有限公司)
在人工智能、大數據、云計算、5G 網絡等技術廣泛應用的時代,信息技術的快速發展使傳統管理模式和生產方式產生了新的變革,并加快了傳統人工模式向自動化、人工智能化方向的轉變進程。傳統管道建設主要依靠人工執行現場質量安全制度和監管實施情況以及不符合項隱患辨識工作。由于管道施工作業面廣、區域跨度大、地理環境復雜,質量安全監督工作戰線長、效率低,同時,人工檢查存在視程短、主觀性強、工作不連續、反應慢、取證難等問題,對于一些安全隱患無法及時進行查處和現場取證。利用信息技術來完成數據采集、數據分類和數據整合已經成為解決這些問題的主要途徑。大數據技術(即大數據應用技術)包含各大數據平臺,擁有海量的數據,其功能是可以在各大數據平臺搜集各方數據,進行整合、分類、提取并得到有用信息,形成合適的問題解決方法,使得人員布設、機械設備、物資分配等方面得到全面優化,有效降低項目成本,保證施工技術方案可行,施工質量可靠。
為了更有效地解決油氣管道監理項目中的問題,需要建立項目資源數據庫。該數據庫需要立足打造油氣儲運行業項目資源池,結合行業標準以及歷史項目經驗,實現項目信息、承包商信息、費用信息、質量信息、進度信息等內容的收集與共享,為儲運行業建設及運營提供數據支撐。本文主要通過介紹數據庫各部分的構成來為管道監理數據庫的建設提供依據。
數據系統功能主要包括:基礎信息管理功能、主題查詢檢索功能、數據報表功能、計費管理功能及移動端功能。其數據系統功能構成如圖1 所示。

圖1 數據系統功能構成
基礎信息管理功能主要包含項目信息、承包商信息、造價信息、設備信息、資源投入信息、采辦供應商信息等數據的錄入功能;主題查詢功能主要包含查詢項目、查詢進度、查詢費用、查詢延期、綜合查詢、高級查詢、生成報告等功能;數據報表功能主要包括核心大數據智能分析展示;計費管理功能提供產品化對外提供服務的功能,支持首頁、VIP 管理、積分管理、費用管理、組織架構管理、用戶管理等;移動功能主要體現在實現移動應用App。
本課題研究過程中完成了1 套大數據分析云平臺的部署,構建了以Hadoop 集群為基礎的云平臺,包括1 個主節點,3 個從節點。整個數據分析平臺主要由數據的接入層、存儲層、計算層、分析層及應用層五部分構成,其技術架構如圖2 所示。

圖2 數據挖掘技術架構
在大數據學習研究過程中,按照數據獲取、單因子探索分析及數據可視化、多因子關聯分析、數據預處理、特征轉換、模型學習及模型評估的完整流程開展,其流程如圖3 所示。

圖3 機器學習流程
隨著計算機技術迅速發展,智能算法研究也進展飛速,其中集成學習算法是將幾種機器學習技術組合成一個預測模型的算法,也是綜合性能較高的一種智能算法。集成學習算法可以分為三類bagging(用于減少方差)、boosting(減少偏差)、stacking(提升預測結果)。這三類集成算法都用于體現參數對缺陷性質的影響程度。文中主要采用隨機森林算法和XGBOOST 算法,這兩種算法是分類分析算法中比較常用的算法。
2.3.1 隨機森林算法基本原理
隨機森林算法結構如圖4 所示。

圖4 Bagging結構
步驟1:選擇樣本。假如有N個樣本,隨機選擇N個樣本,每取完一個樣本放回后繼續取下一個樣本,保證樣本總量一直為N。將這些選好的樣本作為決策樹的根節點出的樣本用來訓練決策樹。
步驟2:選擇屬性。選擇完樣本后需要考慮樣本屬性,假設每個樣本有M個屬性時,在決策樹的每個節點需要分裂時,隨機從這M個屬性中選取出m個屬性,滿足條件m<<M。然后從這m個屬性中采用某種策略(比如說信息增益)來選擇1 個屬性作為該節點的分裂屬性。
步驟3:確定分枝。決策樹形成過程中每個節點都要按照步驟2 來分裂(如果下一次該節點選擇的屬性是剛剛其父節點分裂時用過的屬性,則該節點已經達到了葉子節點,無須繼續分裂了,這樣確保了樹的高度≤M)。重復步驟2 直到不能再分裂為止,注意整個決策樹形成過程中沒有進行剪枝。
按照步驟1~3 建立大量的決策樹,這樣就構成了隨機森林。
從以上步驟可以看出,隨機森林的隨機性體現在每顆樹的訓練樣本都是隨機的,樹中每個節點的分類屬性也是隨機選擇的。因此隨機森林不會產生過擬合現象,最終結果由投票選舉得出。
隨機森林算法得出的結果表明參數對于缺陷影響的重要程度。
隨機森林算法是基于Bagging 算法,裝袋法。其應用流程如下所示。
樣本選擇:Bagging 隨機有放回的取樣。
樣本權重:Bagging 采取的是均勻取樣,且每個樣本的權重相同。
預測函數: Bagging 的預測函數權值相同。
并行計算:Bagging 的各預測函數可以并行生成。
2.3.2 模型學習過程
使用隨機森林進行機器學習。將數據集按照6:2:2的比例隨機切分為訓練集、驗證集和測試集。隨機森林使用10 棵基尼決策樹,以全部特征為學習特征。
2.3.3 評估學習效果
以切分數據集為基礎,以ACC(accuracy_score,在所有預測出來的正例中的真值)、REC(Recall score 所有正例的發現值)和F1(精確率和召回率的調和均值)三種指標對機器學習算法模型的預測結果進行評分。其評分效果如表1 所示。

表1 評分學習效果
根據隨機森林算法得出的分析結果可以通過三個維度(進度、成本、質量)來判定最優項目及較差項目,同時可以提供多維數據查詢功能。查詢費用情況如圖5 所示,查詢項目進度情況如圖6 所示。

圖5 查詢費用情況

圖6 查詢進度情況
遵循J2EE 開發標準,采用Java 語言開發技術方案,引入微服務的架構和場景化的理念,為快速搭建業務系統,提供持續、敏捷的應用方式,提高數據等信息化服務的開發能力。另外開發專業軟件以滿足展示層數據分析、二三維展示以及身份認證的需求為目的,包括數據整合分析工具、三維模型綜合展示平臺基礎軟件、文件格式轉化工具等軟件。整個開發平臺的設計理念是采用“PaaS(平臺即服務)平臺”整體架構模式,引入微服務的架構和場景化的理念,以及API 技術和生態圈理念,推動“互聯網+”在油氣管道領域的應用。平臺將對外提供多數據源接入功能,能夠將來自物聯設備的數據、中國石油其他平臺數據,以及相關的異構數據接入平臺,使得數據整合和SOA 化。接入平臺的數據被封裝為Web 服務,并利用SOA 架構對外提供服務,持續提高集成和部署、自動化構建代碼和自動化部署能力。