王晨光
(中國石油化工股份有限公司 油品銷售事業部,北京 100728)
2023年3月,中國國家數據局正式成立[1],標志著數據作為生產要素的應用進入了新的階段。同時,隨著數字經濟的發展,大數據正在深刻影響著國民經濟的各個領域。石油石化行業也在積極探索大數據的應用,并且已經取得了一定進展。同時,石油石化行業的大數據具有顯著的行業特點,需要有針對性地進行研究,并結合未來發展趨勢,提出更加完善的大數據應用框架和場景。
一般認為,“大數據”作為計算機領域的新概念,是在2008年《自然》雜志中被首次提出的[2]。此后,隨著互聯網、電子商務等行業的發展,大數據逐漸顯露頭角。近幾年,新一代信息技術層出不窮,特別是云計算、物聯網、人工智能、移動互聯網、工業互聯網等技術的發展和成熟,進一步拓寬了大數據的來源,也促進了大數據在各個領域的應用。
大數據的概念被提出后,國際數據公司、麥肯錫咨詢、美國國家標準和技術研究院等產業和學術機構分別從不同的角度給出了大數據的定義[3]。簡而言之,大數據就是無法在合理時間內利用現有的數據處理手段進行存儲、管理、抓取等分析和處理的數據集合[4]。相較于一般的數據,人們將大數據的特征總結為“3V”,即大規模(Volume)、高速度(Velocity)、多樣性(Variety)。此后,研究人員從不同的應用視角和需求出發,又提出了價值性(Value)、真實性(Veracity)、黏性(Viscosity)、鄰近性(Vicinity)、模糊性(Vague)、多變性(Variability)等多種不同的特征,形成了“(3+x)V”的大數據特征[5-6]。
大數據因為在公共健康領域初顯身手而首次進入大眾視野。為了更好地預測流感,谷歌公司于2008年推出了“Google流感趨勢”工具,通過對流感癥狀、胸悶、溫度計等用戶搜索的關鍵詞進行分析來追蹤流感疫情,其速度和準確度遠超傳統的疾控報告[4]。此后,大數據在諸多領域都得到了應用。
1)社交網絡。隨著移動互聯網和智能終端的發展,社交網絡的規模不斷擴大,傳統的網絡分析方法因計算成本過高而不再適用。針對該問題,文獻[7]探索了大數據背景下的大規模社交網絡抽樣,通過一種聚類隨機游走抽樣算法,能夠在降低計算規模的同時較好地保留原始網絡的結構特征。
2)零售營銷。針對大型城市的零售商業結構調整和優化等問題,可以基于最近鄰分析和密度估計等大數據方法,建立人口耦合度模型,并進行空間布局的特征分析[8]。文獻[9]將大數據營銷的發展歷程劃分為互聯網、社會網絡、移動互聯網、大數據和人工智能等四個階段,并圍繞客戶旅程、營銷活動量化評估和營銷分析技術開發等三個方面,對大數據營銷的未來趨勢進行了展望。
3)金融銀行。隨著金融科技的興起,大數據在金融銀行領域的應用也受到了廣泛關注,尤其是對于傳統信貸機制的革新等。通過構建大數據信貸模型,文獻[10]對直接信貸、傳統信貸和大數據信貸等三種機制進行了對比分析,論述了大數據有助于解決道德風險和逆向選擇等信貸難題的內在機理。
4)交通運輸。針對交通信號控制系統難優化、數據采集設備不完備等現狀,文獻[11]基于網約車的行駛軌跡進行大數據分析,在不依賴道路渠化、路口改造和交通信號設備改造的前提下,僅通過軟件優化的方式,降低了早晚高峰平均延誤時間和停車次數等關鍵指標,有效緩解了交通擁堵現象。
作為傳統行業,同時也是數據要素密集行業,石油石化行業的大數據應用場景十分豐富。在生產、經營、管理、銷售和科研等各個環節,大數據已經得到了初步應用,并且在提高管理效率、降低經營成本、改善客戶體驗等方面取得了一定成果[6]。
針對油氣資源開發全流程的需求,文獻[2]提出了涵蓋勘探開發、運輸存儲、分配銷售的大數據智能化平臺,將各子流程的數據提取融合,有望在存儲層物性參數預測等方面發揮重要作用。文獻[12]提出了基于大數據的精細注水方案優化方法,充分發揮機器學習的自動化、智能化優勢,某區塊優化后的產量與優化前相比提升了8.2%,取得了較好的注采效果。
針對煉化生產工藝優化和設備預見性維護等問題,文獻[13]建立了大數據分析平臺,對生產平穩率、設備運行狀態和質量預測等指標進行分析,提高了煉化企業在過程控制、安全保障以及故障預警等方面的能力。文獻[14]提出了用于大機組等動設備運行狀態預警預測的解決方案,利用RBF神經網絡作為核心算法,實現了運行狀態的預警預測,在一定程度上解決了動設備運行管控中存在的難題。
在銷售服務領域,大數據的應用場景十分廣泛。針對經營管理輔助決策的需求,某石油銷售企業建設了一個基于大數據的決策支持系統[15]。該系統涵蓋企業資源計劃系統(ERP)、加油站管理、油庫管理、一次物流、二次物流、財務和客戶管理等各業務系統數據的統計分析,并將分析結果以可視化的形式展現出來,提供了“一站式”的決策支持服務。
針對安全生產風險管控,文獻[16]設計了大數據風險預警平臺,利用前綴樹、“詞頻-逆文本”指數和知識圖譜等技術,實現了對風險的識別、分析、評價與預警等功能。文獻[17]按照終端匯集層、數據管理層、智能優化層、可視化管理層四層架構,建設了基于環保大數據的智能云平臺,實現了涵蓋通信、優化、監管與決策的環保管理一體化。
針對石油石化業務場景,結合該行業大數據特點,提出一個面向石油石化行業的大數據平臺。借鑒互聯網等行業的經驗,充分挖掘和利用上中下游產業鏈的海量數據,廣泛應用于生產、供應鏈、營銷和管理等領域,促進數據要素進一步發揮應有作用,推動企業實現高質量發展。
石油石化行業大數據的特點有以下幾方面:
1)數據體量大。在石油石化產業鏈,各類動靜設備的數量和采樣頻率都較高,這使得產生的數據達到TB,PB,EB甚至ZB等量級[4]。隨著物聯網、工業互聯網和邊緣計算等技術的深化應用,數據的維度將不斷擴展,數據體量也會進一步增大。
2)數據類型多。在石油石化生產經營過程中,除了會產生海量結構化數據,也會產生各種類型的半結構化和非結構化數據[6]。前者包括設備采樣數據、信息系統日志數據等,后者則涵蓋各類文檔和智能化“田、廠、院、站”環境的圖紙、聲音、視頻等數據。
3)數據實時性強。石油石化行業是典型的連續生產型流程工業,持續不斷的流程,會積累源源不斷的數據。因此,為了確保各項生產經營業務的安全性、穩定性和連續性,對數據在采集、處理、分析、反饋等各個環節中的實時性要求也比較高。
4)數據價值高。石油石化大數據產生于各類生產裝置、傳感設備以及各類信息系統,其中蘊含了大量的生產和經營規律,這些信息對于企業優化生產、提高效率、改善經營等具有很高的價值。
5)信息隱藏性強。在某些場景,數據所攜帶的信息較為隱蔽,需要進一步挖掘。例如,產品的產量與原料和工藝參數之間的關系,通常是一個復雜的模型,依靠一般的統計分析方法難以量化。
石油石化大數據平臺的應用架構如圖1所示。該大數據平臺應用架構包括: 數據源層、采集存儲層、計算分析層和應用服務層。針對石油石化行業大數據的特點,重點加強了對于體量大、類型多、實時性強的大數據的整合處理能力;同時,引入了目前業界主流的人工智能算法,以提高對于隱藏信息的分析挖掘能力。

圖1 石油石化大數據平臺的應用架構示意
1)數據源層匯集了各領域各類型數據的產生源。石油石化產業鏈較長,因此數據來源也較多,不僅包括信息系統的基礎數據、日志數據等,也包括物聯網、工業互聯網、邊緣計算等設備的采樣數據,以及生產經營過程中沉淀的文檔、聲音、視頻等業務數據,同時也包括第三方共享數據。
2)采集存儲層對數據進行初步處理并存儲,便于后續分析。具體包括數據傳輸、預處理和存儲三個流程。首先,遵循數據同源的原則,通過數據傳輸服務(DTS)、抽取等方式進行傳輸;其次,按照統一的標準,對數據進行清洗、變換等預處理操作,形成符合規范的數據;最后,根據數據的類型、規模和讀寫頻率等因素,綜合選擇最合適的方式進行存儲。
3)計算分析層根據應用場景,匹配相應的算法進行處理。除了基礎的數理統計分析工具以外,平臺也提供了目前業界使用較多的人工智能算法。通過統計分析和人工智能的應用,能夠進一步提高平臺針對石油石化大數據中隱藏信息的分析挖掘能力。
4)應用服務層提供各種人機交互場景下的大數據服務。基于交互索引、數據報表、商業智能和可視化等基礎應用場景,進一步封裝并提供預測、優化、診斷以及輔助決策等方面的大數據服務能力。
在搭建大數據平臺技術框架時,主要標準是既要符合業界主流和發展趨勢,也要滿足石油石化行業大數據的應用需求。本文提出的技術框架包含: 數據存儲、數據庫、計算模式、數據管理、數據分析、應用服務和數據安全七個方面,如圖2所示。

圖2 石油石化大數據平臺的技術框架示意
原始數據經過初步處理后,根據數據類型和特征,選擇合適的存儲技術進行存儲,確保數據同源。數據庫是數據存儲的實體,考慮到大數據的“(3+x)V”特征[5]和石油石化大數據特點,關系型分布式數據庫已基本無法滿足要求,故需要選擇非關系型數據庫。計算模式是根據數據特征和計算特征抽象出的高層次模型,當前主流的大數據計算框架,如Hadoop,Spark,HANA等,均涵蓋一種或多種計算模式。數據管理是通過整合,使數據源符合規范,以便于分析[17],包括數據治理、日志采集、消息系統、集群調度等。數據分析是大數據計算框架的核心之一,基于“數理統計+人工智能”相結合的分析路徑,才能挖掘出數據中的隱藏信息,從而使數據的價值最大化。應用服務是連接技術與業務的橋梁,進一步提高了大數據技術的實用性、實效性和實操性。其中,可視化及BI工具等能夠顯著降低非專業人員進行大數據應用的門檻。隨著數據安全的重要性日益提升,數據安全技術也成為大數據關鍵技術之一[2],同時,數據安全也為大數據的發展起到了保駕護航的促進作用。
大數據平臺在石油石化行業的應用場景如下:
1)生產優化是石油石化行業大數據應用的核心場景。對于工藝較為復雜的煉油化工生產過程,傳統的數學建模方法難以獲得準確的量化關系,而這恰是大數據擅長的領域。大數據平臺能夠挖掘產品產量或質量與原料、工藝、設備和環境等參數之間的關系,進而得出提升產量或質量的生產優化方案。
2)供應鏈優化的目標是“全鏈條”統籌優化。打通計劃、采購、調度、物流及倉儲等各個環節的數據,并針對業務需求統籌分析。需求預測方面,實現需求驅動采購,根據需求和庫存綜合制定采購計劃;物流優化方面,利用運籌優化等算法實現路徑最優、運距最短、運費最小;庫存優化方面,實現“滿足所有條件下庫存最低”的協同管理。
3)營銷優化是最早應用大數據的場景之一。大數據平臺能夠賦能煉油和化工產品的銷售環節,實現新零售轉型。基于數據抽取、分類/聚類等技術,能夠將不同來源和類型的數據進行組合分析,挖掘客戶習慣、完善客戶畫像,并進行精準營銷、個性化推薦和定制化檢索等,提升客戶體驗。
4)管理優化是提升整體效率的關鍵。相較于業務優化,管理優化有時能帶來更直接的效益提升。例如,對基層班組的用工數量和效益進行大數據分析,可以得到用工優化方案,進而實現精簡人員、提高效率的目的。針對重點領域或重點崗位的經營風險,可以利用機器學習算法挖掘出異常數據,進一步規范業務流程、提高風控水平。
大數據平臺的建設會面臨諸多的挑戰,例如:
1)系統復雜性。一方面,石油石化行業的信息化建設起步較早,很多企業的核心生產經營系統已運行多年,其整體架構較為老舊;另一方面,新建項目一般都會傾向于選擇當前主流的技術路徑。新、舊兩種體系,會給數據的整合與拉通帶來挑戰。
2)數據復雜性。隨著石油石化行業的數字化轉型,特別是物聯網、數字孿生等技術的應用,數據的多樣性、動態性、不確定性以及極弱監督性等,將會成為大數據應用落地的難點。
3)場景復雜性。石油石化應用場景具有一定的專業性和特殊性,導致新技術應用難度較大。例如,通用型AI算法難以直接應用,需要結合行業知識進行遷移學習[18]。但是,針對石油石化行業知識的相關研究較少,這給AI的落地帶來了挑戰。
4)隱私安全性。隨著數字化轉型的深入,數據中的敏感信息越來越多,例如客戶、交易、供應鏈等信息。同時,隨著數據要素的流通,跨部門、跨企業的數據傳輸與交互越來越頻繁。如何做好挖掘價值和隱私保護二者之間的平衡,是一個重要問題。
在石油石化行業應用大數據,發展趨勢如下:
1)應用服務更加靈活。當前,石油石化業務范圍正在向新能源、新材料、新經濟等領域延伸,大數據的應用服務也將會更加靈活、更具可擴展性。
2)人工智能應用更加深入。作為大數據分析的核心驅動力之一,AI應用的廣度和深度都會進一步加強,少量樣本深度學習、大規模預訓練模型等領域的最新進展,將在石油石化行業得到有效應用。
3)從信息挖掘到決策支撐。隨著基礎平臺的完善、技術的進步以及行業知識的積累,大數據應用的目標將從基本的信息挖掘向高層次的決策支撐發展,并促進生產經營相關的決策更加科學合理。
4)數據要素資產化。作為生產要素,數據的流通、整合、共享和交易等會越來越頻繁,并成為一項重要資產。同時,擁有數據資產的多少與好壞,將成為數字時代下企業競爭力的決定性因素之一。
數據有著“數字時代的新石油”之稱,這既說明了數據發揮的重要作用,又體現了數據蘊含的寶貴價值。在能源結構加速轉型、市場競爭不斷加劇、客戶需求日益多樣的背景下,石油石化行業面臨的挑戰與機遇并存。只有進一步深化大數據在提高管理效率、降低經營成本、改善客戶體驗等方面的應用,才能使數據要素發揮更大的作用,進而促進全行業的高質量發展。