王金策,馮文奐
(山西能源學院,晉中030600)
能源行業包括石油、天然氣、太陽能、電池制造、節電器等行業,傳統能源的產銷形式過于單一,例如石油,開采-統銷或自銷,銷售推廣模式采用訂單式、零售市場等被動形式,難以捕捉市場信息。能源網絡作為復雜系統存在較大慣性,具有很強的路徑鎖定性,因此戴家權等人[1]對長期能源戰略的思考及戰略的制定給出了數據化的參考,助力國家能源系統的健康發展。尤其強調了探索能源發展規律的重要性。摸清能源發展規律的傳統方法通常是根據統計指標做出分析決策,但是局限于數據處理類型單一,例如上海市能源經濟相關信息[4],各個行業的增長率、萬元產值能耗等經濟指標,數據清晰明確,但只是靜態數據,無法體現數據背后的經濟形式、行業趨勢,存在行業間數據無體現,難以描述宏觀規律。
由于數據分析在企業決策中扮演越來越重要的作用,能源市場瞬息萬變,唯以常規理論決策輔以數據驅動才有一定抗風險能力,進而實現跨越式發展。大數據應用成效已成為衡量現代企業國際競爭力和綜合實力的重要評價標準之一[2]。在能源行業同樣不例外,近年來各大能源企業積極建立大數據平臺,例如,趙少東等人[5]開發了基于異構計算與實施可視化技術的綜合能源大數據平臺,打破了“信息孤島”,實現了數據存儲。沈躍棟等人[3]利用大數據分析方法分析產業發展動態,通過聚合網絡媒體關鍵詞頻率,參照“百度搜索指數”得出結論,此類方法沒有真正利用多維度,海量的行業內、行業間大數據。能源大數據平臺的已有應用,重點在數據采集、數據存儲、靜態指標分析等方面,對于動態數據,以及行業間數據的內在信息傳播沒有有效利用。
基于以上介紹,傳統數據分析的片面性、行業間數據耦合性低等問題,在局部大數據平臺支撐下的靜態數據分析,亦無法完全體現大數據決策的優勢。本文基于系統化的能源大數據計算平臺構建動態能源知識圖譜,實現計算能源,路線如下:
(1)構建能源行業數據平臺、包括石油、煤炭、風能等能源行業數據平臺;
(2)構建子行業數據知識圖譜;
(3)行業間數據耦合,探索行業間信息傳播過程;
(4)實現能源行業內的可視化數據傳送平臺。
計算能源:區別于傳統管理方法在統計數據、政策導向、行業趨勢判斷的基礎上做出商業或生產決策,利用機器學習分析方法,依托行業內外所有數據,挖掘行業實體間內在聯系和信息傳導規律,實現數據驅動的管理,稱之為計算能源。
實現計算能源的基礎為數據平臺、機器學習算法。其中機器學習核心算法為體現復雜系統本質的動態信息傳播圖的分析,即能源知識圖譜動態分析。
構建能源行業大數據平臺,便于統籌數據,更大程度的大數據分析。數據平臺為了最大程度降低系統耦合度,根據功能分為數據采集服務、數據存儲服務、數據集成服務、計算服務、應用,平臺框架如圖1。
數據采集服務:數據采集模塊采用開放式接口,便于以不同方式采集不同類型數據,分別為傳感器采集、生產系統數據以及新聞媒體數據、宏觀政策等其他數據。數據采集模塊封裝為服務,將采集到的數據以服務形式對外提供。
數據存儲服務:數據存儲模塊首先獲取數據采集服務提供的數據。為使存儲服務更具擴展性,服務分為結構化存儲模塊和非結構化存儲模塊,結構化數據采用分布式關系型數據庫,如Cluster MySQL,非結構化數據采用分布式存儲系統,如HDFS、MongoDB 等Key-Value 式存儲結構。每個模塊分別填充垂類數據,例如石油業、煤炭業等各個能源子行業數據。
數據集成服務:在數據存儲服務的基礎上,構建所有數據的索引,為多源、異構的能源數據構建統一視圖的查詢接口。
計算模塊:利用數據服務中的海量數據分析進行數據挖掘。計算模塊內部同樣以可擴展性為前提,設計多個可計算單元:子行業內知識圖譜、子行業間知識圖譜、信息傳播模式研究、能源網絡節點表示等算法模塊。
應用:利用計算中算法為輔助決策,例如,查詢未來一段時間內石油價格和影響價格的關鍵節點、價格傳導過程。

圖1 平臺框架圖
能源行業包括石油、天然氣、太陽能、節能設備研發等多個垂直行業,每個行業包括上下游的生產、運輸、銷售等環節。各個子領域對整個能源行業結構存在潛在影響[6],同時,子領域間存在相關性,例如天然氣價格與原油價格長期正相關,原油、天然氣和煤炭價格三者之間存在著長期均衡關系[7]。目前海量能源數據,利用率低、高冗余、低結構化。隨著知識圖譜的發展,可以從復雜海量數據中抽取具有語義關系的有機圖,進而為上層應用提供數據支持。因此,實現計算能源的第一步是發現和構建全行業的知識圖譜,解決數據稀疏問題的同時給出數據推斷的合理性,并以此針對特定任務建模。

圖2 煤炭生產關系圖譜
設定能源類行業有N 類,每一類有知識圖譜G,則有N 個知識圖譜構成的集合:G = {Gi| 1 ≤i ≤N, G =(V;R;E)},其中V 表示圖譜中節點集合,E 表示邊的結合,R 表示關系的集合。設G1為煤炭領域的知識圖譜,根據平臺提供的煤炭領域數據接口獲取本體數據,依托知識圖譜構建技術[9-10]抽取實體、屬性、關系等元素,實現煤礦領域核心知識圖譜的構建。煤炭生產圖譜實例,如圖2 所示。煤炭產量與煤炭開采技術、煤炭價格、需求等多個實體因素有關,各個實體之間存在相關性,針對特殊應用定量計算實體間高階關系。
每個子領域都存在類似圖2 的知識圖,構建每個子領域的圖譜對指導生產有重要意義。將每個領域圖譜看作一個實體,則N 個G 之間存在高階關系,如圖3所示,石油價格實體屬于石油領域實體,石油價格與煤炭價格由于共有工業產品原料和能源屬性,存在內生傳導關系。因此構建如圖4 所示的高階知識圖譜是計算能源的一個關鍵,其中,1 ≤i,j,k ≤N,高階圖譜用GF表示。

圖3 煤炭與石油關系

圖4 GF:高階圖譜
任何行業領域都是隨時間動態發展,能源行業作為一切社會活動的基礎性行業,其變化對社會生產活動有重要指示性作用,作為能源領域的知識圖譜其變化是必然的,研究能源圖譜中實體變化對整個行業的影響和信息在能源圖中的傳播規律至關重要。
空域動態性:空域動態性表現在領域的擴充,例如新能源的誕生,由煤炭、石油、天然氣等傳統能源枯竭危機下催生的太陽能、風能、潮汐能等新能源領域視為空域的動態變化,隨著時間發展傳統能源退出能源供應,新舊能源領域的交替更換,體現了能源知識圖譜的空域動態性。

圖5 能源圖譜中信息傳播
本文首提計算能源概念,計算能源涵蓋能源數據平臺,包含數據采集、數據存儲等服務模塊,模塊間高度解耦合,可擴展性強。在數據能源基礎平臺上抽取能源實體、關系、建立動態知識圖譜,最終提供上層應用。計算能源的本質是人與數據驅動相結合的管理模式、摒棄原有拍腦袋式和小樣本統計決策的管理,避免由于信息不對稱造成的錯誤決策。云計算和5G 等計算通信計算技術的廣泛應用,為數據平臺的搭建提供了軟硬件支持,海量的數據和人工智能技術的快速發展是計算能源的便利條件。實施數據驅動提升各領域的生產效率,促進能源與生態安全健康平衡發展,計算能源是一種有效的解決方案。