鄒岳琳+劉昆
隨著智能電網的發展,電網公司的各類業務應用產生了海量的數據,基于Hadoop的大數據處理技術是以分布式文件系統為基礎的大規模并行數據處理平臺,它能充分利用硬件集群的資源,進行并行計算和內存流計算,大大提高了數據運算分析的效率,全面支撐電網公司如客戶欠費風險預測等對海量準實時數據處理分析的需求。
【關鍵詞】大數據 Hadoop 存儲計算 數據挖掘 用電行為
1 公司數據建設現狀分析
隨著公司“三集五大”管理體系和調控、運監、客服三中心的全面建設,信息系統已全面融入公司生產經營管理業務的各個方面,積累了大量的結構化數據、非結構化數據、海量歷史準實時數據和地理信息數據,有效支撐企業數據共享融合、分析決策系統建設。但隨著公司各業務系統數據量不斷增大,以及數據價值挖掘需求的增長,針對平臺需要在橫向擴展、實時快速處理能力方面進一步提升,針對應用功能建設需要在跨業務跨部門分析能力方面需進一步優化。為適應公司信息化管理手段,需引入大數據關鍵技術的研究、驗證和示范應用來促進公司支撐一體化、專業化、扁平化、集約化管理,構建新型電網企業運營體系,增強價值創造力和核心競爭力。
2 大數據在企業的應用情況
在國外,互聯網企業已經對大數據技術進行了深度探索和研究,并投入關鍵應用領域。同時,傳統的金融、電信、能源等領域也引入大數據技術,用于解決數據處理環節上遇到的瓶頸,創新了業務應用,助力企業從激烈的競爭環境中脫穎而出。
與國外市場相比,國內除少數大型的互聯網公司外,絕大多數企業對于大數據的研究與應用還處于探索階段,但這些局部的合理嘗試已經為這些企業帶來了豐厚回報和成長優勢,這也初步驗證了“大數據”在中國所具有的廣闊應用前景。
3 大數據應用關鍵技術
3.1 分布式存儲及實時計算能力
Hadoop技術體系中具備全分布式架構、數據塊粒度切分、在線擴容減容、復制備份等關鍵技術,支撐了安全的PB級以上規模數據在線存儲,為解決公司逐漸膨脹的數據體量提供存儲支撐。
3.2 海量異構數據存儲及處理
針對電網業務中海量規模的結構化、非結構化數據存儲,傳統的集中式、陣列式存儲模式,存在擴容性不強、可靠性及高可用性不佳等問題。采用Hadoop技術體系中分布式存儲技術,可有效解決海量數據存儲的難題,且利用Hadoop提供Map/Reduce統一的并行計算框架對非結構化、半結構化數據進行綜合分析利用,解決了公司海量異構數據類型的共存及計算分析問題。
3.3 高效智能的數據挖掘與分析工具
針對公司各業務系統中已存在,即將采集的低價值密度的數據,Hadoop提供了豐富的統計分析、多維分析、挖掘算法庫、數據挖掘工具,滿足公司對價值密度較低的數據的分析需求。
4 研究場景
4.1 研究內容
完成基于客戶歷史違章用電的檢查結果,構建客戶違約違章用電模型,評估客戶當前是否正在發生違約違章風險。
4.2 研究方法
分類預測輸出的預測結果是給出待預測對象從屬于某個類別的判斷。例如:根據客戶歷史用電數據,判斷其為可能違約用電客戶或為正常用電客戶。
4.3 算法選型
在實際工程應用中采用較多的算法主要有:決策樹、BP神經網絡、樸素貝葉斯、Logistic回歸等。通過對比研究,我們采用決策樹算法的隨機森林算法,其精確度優于其它算法,且其運行速度較快。
4.4 算法實驗
取烏魯木齊公司地區2014年12個月及2015年1至3月的客戶基礎信息、用電信息及繳費行為信息數據為原始數據進行實驗。
第1組實驗:
訓練集:2014年10、11、12月份數據。
測試集:隨機森林算法預測得到的2015年1月份數據。
驗證集:2015年1月份真實數據。
混淆矩陣:
預測正常客戶 預測壞客戶 客戶總數
實際正常客戶 2368823 294896 2663719
實際壞客戶 249459 214699 464158
查準率:42.13%,查全率:46.26%。
第2組實驗(非居民)
訓練集:2014年10、11、12月份數據,采樣1000條記錄。
測試集:隨機森林算法預測得到的2015年2月份數據。
驗證集:2015年2月份真實數據。
混淆矩陣:
預測正常客戶 預測壞客戶 客戶總數
實際正常客戶 138655 61965 200620
實際壞客戶 32885 52108 84993
查準率:45.68%,查全率:61.31%。
第3組實驗(非居民)
訓練集:2014年10、11、12月份數據,采樣1000條記錄。
測試集:隨機森林算法預測得到的2015年1月份數據。
驗證集:2015年1月份真實數據。
混淆矩陣:
預測正常客戶 預測壞客戶 客戶總數
實際正常客戶 137707 51944 189651
實際壞客戶 44661 51301 95962
查準率:49.69%,查全率:53.46%。
從以上測試結果看出,該模型的查準率為40%-50%,查全率為50%-60%,滿足預測要求。
5 總結
基于大數據技術對電網客戶違約情況的分析和預測,能使得公司提前對預測的客戶違約情況做好應對策略,降低公司虧損風險。目前,基于Hadoop的大數據平臺已具備數據接入、存儲、計算、分析和可視化展現等基礎功能,初步具備支撐基于平臺進行應用建設。下一步將新增跨域協同計算、自助式分析、數據安全管理等功能,規范數據存取和計算標準化服務,支撐業務部門進行快速構建應用,提高公司數據分析應用水平。
作者單位
國網新疆電力公司信息通信公司 新疆維吾爾自治區烏魯木齊市 830018