梁哲輝 顧安朋 劉巍琳 袁超 于洋

摘要 作為電網企業對外服務窗口,電網客戶服務中心需要整合企業內、外部各種數據資源、存貯和分析海量的客戶服務信息。如何對電網企業各類數據進行高效、可靠、低廉地存儲,并快速訪問和分析,是當前重要的研究課題。分析大數據的特征和大數據的關鍵技術,其后,設計大數據技術下的電力客戶服務輔助決策系統,提出系統的數據體系架構,設計系統功能,總結系統的關鍵技術和算法,該系統利用大數據技術和數據倉庫技術集中存儲、管理和應用電網數據,通過統一的大數據服務平臺,使用分布式數據庫作為結構化、非結構數據的存貯平臺和數據分析與挖掘的支撐平臺,基于數據倉庫模型設計,在數據展示層使用多維數據分析技術。通過系統建設,可以大大提高電網企業的客戶服務水平。
【關鍵詞】客戶服務 輔助決策 大數據 渠道
隨著智能表計大規模推廣應用以及電網精益化管理帶來的配用電數據爆炸性增長,電能量數據的大規模數據價值的深度挖掘與綜合利用還處于初級階段,現階段正面臨由IT時代進入DT時代的變革,大數據技術被普遍應用,憑借其出色的數據分析萃取挖掘能力,大數據技術為經濟社會發展帶來了巨大影響,也為企業信息化建設提出了更高的要求。為此,南方電網公司設立公司科技重大專項《智能配用電大數據及其應用技術研究與示范》開展以電能量數據為核心的配用電大數據價值挖掘技術。本項目作為該重大專項的配套項目,擬基于大數據技術實現在浩瀚海量的配用電數據中發現用戶的用電規律和市場行為,結合廣州供電局客戶服務專業化管理的要求,建立統一電能量大數據客戶服務輔助決策平臺。該平臺應結合目前電力營銷管理需求、企業信息化管理要求,以及電改與電力市場新形態的驅動,滿足“全方位客戶服務體系支撐、電網運營的精細化決策、新興業務的拓展和電力市場的改革支撐”的營銷相關業務需求。
1 電力客戶服務輔助決策系統建設思路
1.1 設計思路
基于大數據技術實現在浩瀚海量的配用電數據中發現用戶的用電規律和市場行為,結合廣州供電局客戶服務專業化管理的要求,建立統一電能量大數據客戶服務輔助決策平臺。該平臺應結合目前電力營銷管理需求、企業信息化管理要求,以及電改與電力市場新形態的驅動,滿足“全方位客戶服務體系支撐、電網運營的精細化決策、新興業務的拓展和電力市場的改革支撐”的營銷相關業務需求。
1.2 建設目標
承接南方電網公司下發的智能配用電大數據及其應用技術研究與示范項目,完成廣州電能量大數據系統開發的設計、開發、集成,符合平臺能力服務化,服務能力自動化,數據應用自主化的三層建設理念,可使系統具備數據統計分析自動化,數據挖掘自動化,數據自助處理以及柔性可擴展的服務應用的能力和具備靈活自定義、自適應的數據圖形化展示的能力;解決外部數據匹配困難和業務實際應用難的問題,滿足企業信息化管理創新的要求。
l.3 功能規劃
電能量大數據系統建設包括平臺建設、數據整合與治理、基礎功能、高級分析應用幾個方面的內容,系統平臺以電能量內外部數據的整合、治理、存儲與應用為核心,以大數據關鍵技術研究成果為基礎,通過合理高效的數據模型構建,實現海量電能量大數據下的快速分析與挖掘,提供可自主應用的數據集合。基于此,從平臺服務支撐、上層業務應用出發,設計電能量大數據系統的應用體系架構,并在進行應用架構設計過程中,充分考慮系統平臺的技術支撐,如圖1所示。
1.3.1 數據治理和數據整合兩個方面
數據治理負責數據接入管理,除了基于接口對內部數據的接入,還需要利用等多種服務接口實現外部數據的接入,通過服務注冊實現對接口服務的統一管理,并通過引入數據質量綜合評價標準對數據進行清洗和修正;數據整合是把在不同數據源的數據收集、整理、清洗,轉換后加載到一個新的數據源,為數據消費者提供統一數據視圖的數據集成方式。
1.3.2 基礎應用
包括報表統計、多維分析與即席查詢、數據挖掘與數據預測、可視化展示等服務能力應用項。通過基礎應用建設,能夠實現平臺能力服務化、服務能力自動化與數據應用自主化。
1.3.3 高級應用
通過利用大數據倉庫平臺、基礎應用能力項及集中存儲的內外部電能量大數據,實現包括電力客戶檔案標簽庫管理、客戶服務渠道分析、用電能效管理和個性化客戶服務的應用場景。
1.3.4 系統管理
提供統一的系統平臺管理功能,包括系統用戶管理、權限管理、安全管理、日志管理及基礎設施的基本管理功能。
2 電力客戶服務輔助決策系統實現
2.1 大數據基礎平臺
提供企業級數據倉庫方案,要保證1TB以上大數據量分析探查的高效靈活和高速響應,支持列式存儲,內存計算等提高查詢速度的技術,支持與Hadoop平臺的整合。提供用戶友好的可視化管理頁面,可實現數據存儲、快速查詢、大規模分布式計算等基礎功能,同時支持數據挖掘、數據分析預測、用戶標簽等高級應用。
2.1.1 分布式文件系統
大數據概念里一個很基礎且很重要的問題是如何在以千百計的普通服務器組成的集群中存儲以PB為單位的海量數據,在林林總總的數據存儲系統和技術方案中,最重要的一類就是超大規模分布式文件系統,也就是以文件系統的方式來組織海量數據。在大數據技術框架中,分布式文件系統是其它相關技術的基石,因為其提供了海量信息的存儲平臺,并提供了數據的冗余備份、服務器的自動負載均衡以及失效服務器檢測等各種完備的分布式存儲功能。只有在分布式文件系統提供的基礎功能之上,才能開發出更符合應用需求的存儲系統和計算框架。
本項目采用HDFS (Hadoop DistributedFile System)作為分布式文件系統,HDFS整體架構主要由NameNode、DataNode、Secondary NameNode以及客戶端組成。
2.1.2 內存計算
Spark是基于內存計算的迭代分布式計算框架,適用于需要多次操作特定數據集的應用場景,通過在集群中將數據集緩存在內存中,支持數據集的共享和重用,縮短數據集的訪問時間。為了實現數據集的重用,Spark設計了一種彈性分布式數據集RDD(ResilientDistributed Dataset)。RDD是分布在集群中的只讀對象集合,在集群中的多個結點上進行分區,可以在多個計算中共享,它不僅支持基于數據集的應用,還具有容錯、局部計算調度和可擴展等特性。RDD支持用戶在執行計算時選擇緩存數據集在內存中,便于下次計算時重用數據集,提供了更快速的數據訪問,減少了不必要的磁盤重復讀寫操作。
2.1.3 流式計算
采用Spark Streaming作為流計算框架,它擴展了Spark流式大數據處理能力,將數據流以時間片為單位分割形成RDD,使用RDD生成Spark Job進行處理,最終以分布式批處理的方式計算每個時間片的數據。采用SaprkStreaming進行流式計算具有以下優勢:
(1)能和Spark生態系統的其它組件融合,實現交互查詢和機器學習等多范式組合處理。
(2)具有極佳的擴展性,能夠運行在1000個節點以上的集群,并且支持水平擴展。
(3)容錯性好,通過CheckPoint以及內存維護兩份數據進行備份容錯,RDD通過血統圖記錄下之前的操作,如果某個節點在運行時出現故障,可以通過冗余的備份數據在其它節點重新計算得到。
(4)數據吞吐量大,通過將數據轉換為RDD,基于批處理的方式提升數據處理的吞吐量。另外,支持“恰好一次”( Exactly-once)傳遞原語,也就是每條消息都被發送過一次且僅僅一次,沒有丟失也沒有冗余,能夠顯著提升系統的傳輸效率。
(5)數據處理實時性高,通過提升集群的運算能力,可以把數據處理延遲控制在毫秒級。
2.1.4 圖計算
GraphX是Spark提供的分布式圖計算框架,基于Spark平臺提供了簡潔易用、豐富多彩的圖計算和圖挖掘的接口,極大的方便了編程人員開發圖計算代碼。GraphX首先把圖拆分成很多的子圖,然后基于這些子圖進行計算,計算時可進行分階段的迭代運行,從而實現任務的并行化。GraphX的核心抽象是RDPG(Resilient Distributed Property Graph),是一種點和邊都帶屬性的有向多重圖。它擴展了Spark RDD的抽象,有Table和Graph兩種視圖,而只需要一份物理存儲。兩種視圖都有自己獨有的操作符,從而獲得了靈活操作和執行效率。
2.2 數據整合與治理
數據整合是把在不同數據源的數據收集、整理、清洗,轉換后加載到一個新的數據源,為數據消費者提供統一數據視圖的數據集成方式。數據源來自內部數據(如營銷、計量、生產等數據)和外部數據(如天氣、企業運營、社會經濟等數據)的集成。
(1)內部數據整合通過構建自助定制的數據清洗、轉換、載入工具(ETL工具),實現對企業的各種數據源(包括關系型數據庫,多維數據庫,文本,OLAP,Excel等)的快速提取。
(2)外部數據整合通過網絡爬蟲、人工采集、Web服務、文件交換從電力機構、公網、企業機構、其他外部機構獲取相應的數據。
(3)具備圖形化的數據整合界面,便于后期維護。
數據治理將獲取的業務系統數據、外部數據導入數據平臺,在此平臺上構建統一的數據模型來完成數據處理、清洗、存儲等工作,同時結合服務資源和服務規則進行數據匹配,建立內外部數據的關系。通過引入數據質量綜合評價標準以及單個數據項的技術指標含義、取值范圍等,定義面向大數據的數據質量度量指標。通過多模數據內部的隱含關系及交互特點對異常數據進行清洗和修正,使數據各項質量指標恢復到標準范圍內。
2.3 基礎應用
電能量大數據系統基礎應用功能包括報表統計、多維分析與即席查詢、數據挖掘與數據預測、可視化展現、安全與權限管理。通過基礎應用的建設,實現平臺能力服務化、服務能力自動化與數據應用自主化的總體系統建設目標。
2.3.1 報表統計
基于電能量大數據倉庫平臺和先進成熟的報表工具,構建靈活強大的報表統計能力,以零編碼、拖拽式開發面向用戶使用,實現報表開發過程服務化、自動化以及自主化的建設目標。
2.3.2 即席分析
基于電能量大數據倉庫平臺和先進成熟的OLAP分析和即席查詢工具的支撐,構建包括維度和度量的分析查詢體系,語義化技術元素,封裝為業務應用元素面向用戶的分析和查詢構建過程應用,以零編碼、拖拽式開發供用戶使用,實現多維分析和即席查詢開發過程的服務化、自動化以及自主化的建設目標。
2.3.3 可視化展現
基于電能量大數據倉庫平臺和先進成熟的可視化展現工具的支撐,自動適配多尺寸終端,提供多屏互動等交互功能,構建業務組件化、全程標準化、主線場景化、開發配置化的可視化展現能力層應用,實現可視化展現開發過程的服務化、自動化以及自主化的建設目標。
2.3.4 數據挖掘與數據預測
數據挖掘模塊提供自定義的、柔性擴展的數據挖掘自動化套件包,可依托已有算法庫,形成數據挖掘組件,并支持用戶自主擴展。實現了數據準備一數據清理一數據轉換一數據挖掘一模型評估一模型應用的全過程、自動化、可重用的挖掘服務。同時提供可配置、可拖放的設計工具及應用視圖.輔助數據的分析挖掘與分析預測。
2.3.5 安全與權限管理
電能量大數據系統在安全方面主要涉及兩方面的建設,一是針對南網多種安全機制提供認證接口,并實現與廣州供電局有限公司已有安全系統或功能全面集成;二是提供基于角色、用戶的權限管理功能,能夠涵蓋各功能模塊,對報表的權限管理可以達到單元格的層面。
2.4 高級應用
2.4.1 電力客戶檔案標簽庫管理
電力客戶檔案標簽庫管理,能夠按照用戶的特征建立用戶的用電行為特征庫,能針對用戶的行為數據進行分析,靈活的配置電子標簽,并能夠根據電子標簽對客戶進行篩選并分群。
基于用戶標簽,研究適用于用戶用電行為分析的特征提取、聚類分析與模式辨識等數據挖掘方法,識別典型用戶用電行為特征,實現用戶用電類型的精細劃分和自動辨識。
利用用戶標簽,對客戶用電行為和需求的時空分布特征進行精細化描述和分析。基于客戶用電行為、客戶投訴、咨詢等多源異構的反饋信息,探索異構數據隱藏知識的大數據檢索方法、用戶偏好,提出反映客戶需求的客戶分群和多維度畫像展示方法。
2.4.2 客戶服務渠道監控分析
制定統一的渠道信息分類規范、數據接口規范和數據更新機制。構建統一的渠道信息池,結合渠道數據應用需求和大數據技術,提供快速的渠道信息檢索方法。針對各類渠道記錄的客戶交互痕跡信息以及典型客戶特征,實現典型客戶渠道使用偏好模型。按照用戶對各類渠道及內容訪問情況,建立個性化服務推薦算法,給客戶推薦最期望的服務,提升客戶體驗。開發服務渠道全景監控及統一管理平臺,實時監控渠道資源使用情況、渠道業務開展情況等。建立渠道異常原因分析模型,為服務渠道應急處置提供參考。基于實體營業廳優化策略的算法模型,科學指導實體營業廳的縮減以及網點布局優化。
2.4.3 用電能效管理
用電能效分析以采集的能耗、用電特征等信息為基礎,充分利用多維分析的思想,提供時間、區域等多個維度的靈活選擇,進行深入分析與挖掘,并將分析結果通過鉆取、切片等多種方式實現總體、行業及用戶用能水平的深入分析與直觀展示。
2.4.4 客戶用電分析
大宗工業用電賬單,是針對大宗工業用戶每月用電情況的綜合展示,包括總用電戶的電量電費、用電結構、負載情況等分析,同時還提供總戶下各計量點的用電情況展示,使用電客戶對當月自身用電情況有一個全面的認識。
2.4.5 居民用電賬單
居民用電賬單是為居民用電戶每月生成的用電情況的分析賬單,包括當月用電情況、年累計用電情況、在不同電費階梯中的用電情況以及在同小區、同區域當中的用電排名,同時提供用電預測的功能。
2.4.6 客戶渠道使用偏好分析
客戶渠道使用偏好分析是對某人群按照業務辦理過程中業務類型、渠道、地區等多個維度將該用戶群進一步的細分,分析用戶辦理某業務時的渠道選擇偏好,比較出各地區業務辦理時渠道選擇差異,在實施渠道引導策略后,在該課題下進行實施策略是否奏效的驗證。分析出有價。
3 總結展望
廣州供電局在內部戰略上重視創先應用,良好的IT環境包括IT架構完善、數據范圍廣、數據質量較高,為廣州供電局數據轉型推動戰略性創新提供了基礎性的環境支撐;公司在外部戰略性開放與社會各業態伙伴合作,參與競爭性業務的開拓,作為電力領域的拓荒者,戰略性合作的開展需要公司與外部的數據交互與分析應用,需要一套成熟的客戶服務大數據應用平臺體系來支撐。
廣州供電局各職能部門業務辦理及客戶服務的過程中,一方面受制于業務系統的定制化展現形式,業務人員無法直觀自如的配置、分析器管轄范圍內的業務數據,從而錯過了較多可以從業務數據發現的業務可以提升的點,業務人員需要一個可以靈活配置、分析展示的數據應用平臺,來幫助其挖掘業務提升空間及業務潛在風險;另一方面純屬本職能部門的業務數據己不能完全滿足自身業務發展需求,更多需要跨部門數據的融合分析,在社會快速發展過程中,業務合作需求點的產生在時間點上具備不可預估性,如何支撐跨部門的數據合作、服務數據的融合,需要一個成熟的、框架性大數據處理平臺來將業務需求進行孵化、落地,使得業務需求的落地更加靈活、可控,并為業務需求的驗證、落地提供試驗田,持續推動業務的創新升級。
3.1 實現電網與用戶的互動
實現電網與用戶的雙向互動,客戶進行業務辦理過程中,通過智能化手段增加電網用戶的有效信息接觸點,引導用戶選擇更優方案進行業務辦理;通過用戶特征分析,選擇性的推送信息或活動予用戶,提升用戶對公司的滿意度。
3.2 實現全面的用電數據監控
通過多元化的技術手段與分析模型,實現用戶一用電一區域等指標元素多維度多形式的監測,通過模型的分析來發現電網運行過程中發現的問題,并對異常問題做預警響應,做到挖掘、展現、信息推送,通過數據化來推動供電公司的運行,解決人員問題處理的盲點。
3.3 實現大數據平臺的模型孵化中心定位
大數據平臺的優勢在于廣泛的接入業務內容外的數據,各方組織與人員在平臺上實現應用模型的落地、校驗,業務系統或第三方平臺,通過服務調用的方式指揮大數據平臺進行數據的分析、運算,并反饋其需要的結果。用戶可以通過自助式配置來獲取自身需要的分析結果,最終實現數據目的導向的重組與利用、潛在價值的挖掘及業務系統的補充。