張耀 于田田 郭延凱 程凱
?
電力大數據視角下的天津區域工商業經濟發展大數據應用設計開發
張耀 于田田 郭延凱 程凱
國網天津市電力公司信息通信公司,天津 300010
隨著智能配電網建設的日趨完善,電力公司掌握著海量、實時、全面的各行業用電數據。以這些電力數據為核心,結合經濟相關數據實現了“電力看經濟”和“經濟看電力”。本文以用電量海量數據為基礎,基于用電量與經濟增長的相關性,歸納精細化到各行業用電量的關于時間和空間的典型模式曲線,建立各行業經濟指標及其相應用電量回歸模型,對天津經濟發展趨勢和結構變化模式進行歸納和預測,為天津市經濟發展規劃部門、電力能源監管部門,以及全市各行業的經營者和投資者及時掌握全市宏觀經濟、各重點行業走勢提供準確的數據支持,為政府的相關電力經濟決策,同時通過分析,還可以反向為公司在電力體制改革的大背景下與國民經濟新常態下的戰略轉型提供有益的決策依據。
大數據;系統總體設計;技術實現
2015年國網信通部下發的《國家電網公司大數據應用指導意見》中,明確提出“融合公司內部業務系統數據、實時采集數據、外部社會經濟和氣候氣象等數據,集成數據采集、存儲、計算、分析和展現等工具,逐步構建形成公司統一大數據平臺,為電網生產、經營管理和優質服務領域實時采集類、在線監測類、計算分析類和決策支持類應用提供等統一的數據和工具服務”。同時也將“政府輔助決策支持”作為國家電網大數據應用的35個典型應用場景之一。
2014年,天津公司提出“兩個排頭兵”戰略目標,其中即有“服務美麗天津建設”排頭兵。隨著智能配電網建設的日趨完善,電力公司掌握著海量、實時、全面的各行業用電數據。這些數據具備大數據的“3V”特征,同時以這些電力數據為核心,結合經濟相關數據,可為天津市經濟發展規劃部門、電力能源監管部門,以及全市各行業的經營者和投資者及時掌握全市宏觀經濟、各重點行業走勢提供準確的數據支持,為政府的相關電力經濟決策提供有力的保障。通過分析,還可以反向為公司在電力體制改革的大背景下與國民經濟新常態下的戰略轉型提供有益的決策依據。
自第二次工業革命以來,社會生產進入了電氣時代,現代工業生產與能源消耗密切相關。因此,用電量被認為是經濟增長的先行指標,是預測經濟發展的重要參考[1]。工業用電量在經濟研究中常被用于評估和預測經濟一國或地區經濟增長情況。在花旗銀行編制的“克強指數”中,工業用電量增速占40%,用電量的總量變化情況,可以準確反映我國工業生產的活躍度。目前,我國經濟增長已進入一個由高速增長向中高速增長轉型調整的新周期,正處于增長速度進入換擋期,結構調整面臨陣痛期,前期刺激政策消化期的“三期”疊加的關鍵階段,用電量與經濟增長放緩趨勢明顯。在此背景下,主要受產業結構調整和行業內部結構調整等因素的影響,用電量與經濟增長呈現短期內的背離。
天津公司基于運營工作的開展,積累了海量的用戶數據和用電量數據。為了進一步挖掘數據關系,實現數據價值,全面提升公司大數據處理能力,以用電量海量數據為基礎,基于用電量與經濟增長的相關性,歸納精細化到各行業用電量的關于時間和空間的典型模式曲線,建立各行業經濟指標及其相應用電量回歸模型,對天津經濟發展趨勢和結構變化模式進行歸納和預測,為天津地方政府制定經濟政策,為下游用電企業制定企業運營策略,也為天津公司整體運營順利開展提供決策依據。
目前公司向政府提供的電力統計數據顆粒度、精細度不足,并且與統計局統計口徑間仍存在一定差異,導致無法充分發揮電力對經濟的前導指示功能,不利于公司服務美麗天津建設工作的開展。
本文成果可主動向政府提供統計局統計口徑的電力數據,幫助政府在經濟統計數據發布前及早洞悉經濟發展狀況,為政府的相關電力經濟決策,如為政府就產業調整、經濟調控等做出合理決策提供有力的保障;同時主動發布天津工商業經濟電力地圖,凸顯公司履行社會責任和技術創新,提升公司的社會形象,并可反向為公司在電力體制改革的大背景下與國民經濟新常態下的戰略轉型提供有益的決策依據,提升公司整體決策分析水平,為國網大數據試點提供有價值的應用參考。
以公司用電信息采集系統、營銷SG186系統記錄的數據以及全市各工商行業經濟數據、生產運行數據為平臺接入數據來源,在保證公司運營數據的保密性、完整性和可用性的前提下,有效利用軟硬件環境并結合大數據分析技術,對全市宏觀經濟形勢走勢、全社會用電量、全市各主要工商行業的產值進行專項預測分析,并固化推廣應用分析成果。具體原則如下。
(1)以分析所用基礎數據為基礎,明確數據質量提升方向
針對分析過程中收集的用電信息采集系統、電能量采集系統以及營銷SG186系統等信息系統以及線下數據,通過數據清洗,發現數據質量問題,明確數據質量提升方向。
(2)以業務需求為導向,創新模型的適用性
堅持以業務需求為導向,堅持以大數據全樣本替代抽樣,結合現有宏觀、微觀經濟分析現狀,制訂合理、適用、實用的電力大數據經濟分析總體需求和單個行業/區域的微觀經濟預測分析方案,注重信息化分析模型的實際應用效果。
(3)以數據挖掘技術為支撐,提高預測的準確性
隨著大數據處理、分析、展現技術的發展,項目將進一步探索應用新技術、新工具、新方法,創新數據處理分析實踐。針對具體的分析需求甄選有效的數據挖掘和分析方法,提高分析預測結果的準確性和實用性。
(4)以可視化工具為依托,提升成果的可閱讀性
根據預測分析成果設計可視化展示場景,并利用可視化軟件工具進行場景配置,確保分析成果的展現直觀清晰,可閱讀性強,為成果在經濟預測中的實踐應用奠定基礎。
研究首先通過對天津經濟發展特點和電力消費特點進行深入分析,全面分析天津經濟發展整體情況和用電量消費情況。在此基礎上,本文通過電力視角解讀天津經濟發展,主要包括趨勢分析和結構分析兩方面的分析內容,全面解讀天津經濟發展形勢和整體情況。
趨勢分析:以天津公司海量用戶數據為基礎,以用電量與GDP相關關系為依據,采用計量分析方法,建立基于用電量的GDP回歸模型,分析GDP增長趨勢,對中短期經濟發展形勢進行預測分析。
結構分析:通過分析天津公司區域用電量數據分析天津區域經濟發展形勢,通過分析天津各行業發展情況及其用電量情況分析天津產業發展形勢。
最后,通過用電情況分析政府政策的制定依據及落實情況并對下一階段工作開展提出建議。
具體來說,以所有高壓工商業用戶采集數據和統計局企業分類數據為基礎,利用模糊匹配技術理順電力統計口徑與統計局統計口徑間的對應關系,消除因抄表日期造成的異步電量,建立分行業、分行業細類和行政區劃的售電量與工業產值的統計映射關系,自動計算基于統計局口徑的電力統計數據。在此基礎上,將納入統計范圍用戶的地址文字描述翻譯為經緯度,并按用電量用熱點的形式投影到GIS地圖上,配以時間軸,建立天津區域工商業經濟發展電力地圖,直觀反映當地工商業經濟發展水平和演進情況。
依托大數據平臺實現與各業務系統的集成,實現對海量數據處理能力的同時,確保數據定義的一致性、完整性、準確性,為數據的深層應用、分析和挖掘提供便利。在頁面展現方面,平臺頁面應保持風格一致、色調統一;平臺應明確功能分區,并以分割線或背景色進行區分;針對不同的功能分區,應遵循“從上到下、從左到右”的原則將功能重要性、用戶使用頻率與用戶的視覺習慣順序相匹配;原則上菜單不超過三級。
基于大數據平臺提供的數據庫管理、儲存與計算、應用與展現等平臺支撐,設計并開發電力大數據視角下的天津區域工商業發展分析應用。通過參照標準數據挖掘理論,基于用電信息采集系統、營銷SG186系統以及外部經濟運行數據,應用R語言設計并篩選模型特征量,構建出用電數據與經濟運行數據的分析模型,并開展驗證調優工作,最后將分析過程、分析結論基于Tableau軟件平臺進行業務應用展示。
3.1.1 業務架構
本文建設內容主要用于支撐公司向政府提供電力視角的決策數據的業務需求,實現大數據的業務應用落地。系統業務架構總體上遵從SG-ERP相關領域業務架構,保持SG-ERP體系架構原則不變。
3.1.2 應用架構
基于業務架構,定義相應的應用功能、應用劃分和分布。項目范圍內包括數據轉換、數據計算、可視化展現等基礎功能和區域經濟發展預測、行業經濟發展預測、政策影響分析等業務功能。
3.1.3 數據架構
基于業務架構和應用架構,按照國家電網公司數據架構的設計與劃分,構建相應的數據模型。所需數據從內部業務應用系統及外部單位獲取。系統業務數據遵循SG-CIM模型原則,保障數據的一致性、完整性、準確性。
3.1.4 技術架構
遵循國家電網公司對于大數據應用的技術架構要求,結合業界大數據技術發展趨勢以及公司現有技術的現狀,充分考慮公司大數據平臺架構體系融合,確保項目成果具有可移植、可擴展的技術特性。
3.2.1 外部數據的收集和統計口徑的對應
將外部經濟數據引入統計模型中的首要難點在于外部經濟數據的獲取途徑及各數據的顆粒不一致性。本文首先梳理數據需求并調研可能獲取數據的渠道,通過統計局等單位的對接獲取最新的統計數據。此外,我們將外部經濟數據與電力數據建立統一的口徑,為后續的統計分析做好充分的準備。
3.2.2 數據清洗與缺失值處理
數據清洗旨在對數據準確性、完整性和有效性進行核查。在檢查數據準確性的時候,應對某些字段設置規則,再按照這個規則進行,主要檢查標準是數據是否符合事件發生的邏輯。完整性核查需要根據信息的關聯信息和維度信息進行。有效性核查,主要是通過對特定的信息字段內的取值是否有效,取值范圍是否在預定的范圍之內等。此外,對于外界數據源中的數據,應采用參考業界相關的信息標準,遵循業務系統影響最小化和實現大多數數據自動化批量或實時采集原則,確定數據采集方式和策略。
具體說來,針對填補遺漏的數據值、消除噪聲、識別或除去異常值,并糾正數據中的不一致問題的需求,可利用平均值填充、K近鄰法填充、回歸、樸素貝葉斯、決策樹等基于預測的填充等數據補錄方法,以及業務判別法、分箱法、聚類法和統計分析法等識別異常數據的方法,減少數據質量對大數據應用的影響。
3.2.3 分析模型搭建
基于公司已有的關于經濟活動預測分析成果,結合業務需求,梳理出可預測分析的業務內容,細化搭建預測分析框架。
結合適用于預測分析的數理統計方法以及數據挖掘方法的梳理,對具體的預測分析點設計相應的方法,并基于R開發數據分析模型。項目基于模型實際應用情況,將模型預測結果與實際結果進行比對,根據結果差異程度,分別對模型參數、建模特征量以及建模算法選擇進行不同的調整,再基于調整結果開展驗證工作,得出最優模型。
3.2.4 可視化展示工具設計及開發
一方面,結合大數據實證分析工作成果,梳理散點圖、直方圖、箱線圖、時間序列圖、熱點圖等可視化展示手段,同時研究如何將可視化展示與GIS進行疊加,形成基于地圖的可視化展示方式;另一方面,將Tableau等可視化展示工具應用于大數據應用成果的展示上,并向業務部門進行推廣應用[2]。
3.2.5 數據集成
依托公司大數據平臺,根據數據模型梳理數據集成需求,并充分考慮數據類型、數據量、更新頻度等因素,合理制定數據集成方案,并開展數據集成工作。
3.3.1 電力大數據與經濟發展狀況相關性分析統計模型構建
通過大量用電與經濟歷史數據,按時間、區域、行業等進行特征量的提取工作,可采用BP神經網絡、貝葉斯模型、決策樹算法、邏輯回歸以及時間序列等等數據挖掘技術分析歷史數據之間內在關聯關系,并對未來做出預測。具體來說以所有高壓工商業用戶采集數據和統計局企業分類數據為基礎,利用模糊匹配技術理順電力統計口徑與統計局統計口徑間的對應關系,消除因抄表日期造成的異步電量,建立分行業、分行業細類和行政區劃的售電量與工業產值的統計映射關系,自動計算基于統計局口徑的電力統計數據。在此基礎上,將納入統計范圍用戶的地址文字描述翻譯為經緯度,并按用電量用熱點的形式投影到GIS地圖上,配以時間軸,建立天津區域工商業經濟發展電力地圖,直觀反映當地工商業經濟發展水平和演進情況。
項目基于預測模型詳細設計方案,設計分析場景。分析場景主要包括兩大部分內容:第一部分展示全市宏觀經濟趨勢預測分析;第二部分展示全市微觀經濟趨勢預測分析,可按照區縣、行業等業務維度下鉆展示。
3.3.2 模塊集成及可視化界面展示
利用MFC搭建友好的用戶交互界面,通過數據調取模塊調用各個數據源的數據,并通過數據篩選和清洗存儲到新建的數據表中。再通過調用R語言編寫優化后的分析模型對數據進行進一步統計和梳理,最終調用Tableau等數據展示軟件對分析結果進行可視化展示,最終提供交互式的分析結果展示。
本文設計實現的軟硬件主要基于本次項目實際功能需求,結合軟件的擅長功能領域,以實現宏觀、微觀經濟預測分析應用與展現場景為目標。
(1)軟件:R以及Tableau最新64位版本;Windows 7以上64位系統。
(2)硬件:使用既有服務器與終端電腦。
項目開發的業務分析應用將部署在公司大數據平臺的存儲、計算及應用、展現相應服務器節點上,并通過大數據平臺實現與數據源業務系統的集成。部署架構圖如圖1所示。

圖1 部署架構圖
本文設計實現的滿足公司在新形勢下的管理需要,支撐公司“兩個排頭兵”戰略目標實現。通過整合電力營銷數據和其他數據實現對全市宏觀與微觀經濟發展進行預測分析,通過對歷史供電、用戶用電數據、區域與行業經濟數據內在關聯關系的挖掘,預測未來經濟發展趨勢。項目成果可以指導幫助政府在經濟統計數據發布前及早洞悉經濟發展狀況,為政府的相關電力經濟決策,如為政府就產業調整、經濟調控等做出合理決策提供有力的保障;同時主動發布天津工商業經濟電力地圖,凸顯公司履行社會責任和技術創新,提升公司的社會形象,并可反向為公司在電力體制改革的大背景下與國民經濟新常態下的戰略轉型提供有益的決策依據,提升公司整體決策分析水平,為國網大數據試點提供有價值的應用參考。
[1]姚建國,楊勝春,高宗和,等. 電網調度自動化系統發展趨勢展望[J]. 電力系統自動化,2007,31(13):7-11.
[2]杜貴和,王正風,等. 智能電網調度一體化設計與研究[J]. 電力系統保護與控制,2010,38(15):127-131.
Development of Big Data Application Design and Development of Tianjin Regional Industrial and Commercial Economy from the Perspective of Power Big Data
Zhang Yao Yu Tiantian Guo Yankai Cheng Kai
State Grid Tianjin Electric Power Company Information and Communication Company, Tianjin 300010
With the development of smart distribution network becoming more and more perfect, power companies have mastered massive, real-time and comprehensive power consumption data in various industries. With these power data as the core, combined with economic related data to achieve “power to see the economy” and “economy to see power” Based on the electricity consumption data and the correlation between electricity consumption and economic growth, this article summarizes the typical model curves of time and space for electricity consumption in various industries, and establishes economic indicators and their applications in various industries. The quantitative regression model will summarize and predict the economic development trend and structure change model of Tianjin, and timely grasp the city’s macroeconomic and key industries for the economic development planning department, the power energy supervision department, and the operators and investors of the various industries in the city. The trend provides accurate data support for the government's relevant power economic decision-making, and at the same time, through analysis, it can also provide useful decision-making basis for the company’s strategic transformation in the context of power system reform and the new normal of the national economy.
big data; overall system design; technical implementation
TP311.5;F427;TM63
A