999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據Hadoop技術對電網客戶違約情況的分析和預測

2017-02-23 12:04:18鄒岳琳劉昆
電子技術與軟件工程 2016年24期
關鍵詞:數據挖掘大數據

鄒岳琳+劉昆

隨著智能電網的發展,電網公司的各類業務應用產生了海量的數據,基于Hadoop的大數據處理技術是以分布式文件系統為基礎的大規模并行數據處理平臺,它能充分利用硬件集群的資源,進行并行計算和內存流計算,大大提高了數據運算分析的效率,全面支撐電網公司如客戶欠費風險預測等對海量準實時數據處理分析的需求。

【關鍵詞】大數據 Hadoop 存儲計算 數據挖掘 用電行為

1 公司數據建設現狀分析

隨著公司“三集五大”管理體系和調控、運監、客服三中心的全面建設,信息系統已全面融入公司生產經營管理業務的各個方面,積累了大量的結構化數據、非結構化數據、海量歷史準實時數據和地理信息數據,有效支撐企業數據共享融合、分析決策系統建設。但隨著公司各業務系統數據量不斷增大,以及數據價值挖掘需求的增長,針對平臺需要在橫向擴展、實時快速處理能力方面進一步提升,針對應用功能建設需要在跨業務跨部門分析能力方面需進一步優化。為適應公司信息化管理手段,需引入大數據關鍵技術的研究、驗證和示范應用來促進公司支撐一體化、專業化、扁平化、集約化管理,構建新型電網企業運營體系,增強價值創造力和核心競爭力。

2 大數據在企業的應用情況

在國外,互聯網企業已經對大數據技術進行了深度探索和研究,并投入關鍵應用領域。同時,傳統的金融、電信、能源等領域也引入大數據技術,用于解決數據處理環節上遇到的瓶頸,創新了業務應用,助力企業從激烈的競爭環境中脫穎而出。

與國外市場相比,國內除少數大型的互聯網公司外,絕大多數企業對于大數據的研究與應用還處于探索階段,但這些局部的合理嘗試已經為這些企業帶來了豐厚回報和成長優勢,這也初步驗證了“大數據”在中國所具有的廣闊應用前景。

3 大數據應用關鍵技術

3.1 分布式存儲及實時計算能力

Hadoop技術體系中具備全分布式架構、數據塊粒度切分、在線擴容減容、復制備份等關鍵技術,支撐了安全的PB級以上規模數據在線存儲,為解決公司逐漸膨脹的數據體量提供存儲支撐。

3.2 海量異構數據存儲及處理

針對電網業務中海量規模的結構化、非結構化數據存儲,傳統的集中式、陣列式存儲模式,存在擴容性不強、可靠性及高可用性不佳等問題。采用Hadoop技術體系中分布式存儲技術,可有效解決海量數據存儲的難題,且利用Hadoop提供Map/Reduce統一的并行計算框架對非結構化、半結構化數據進行綜合分析利用,解決了公司海量異構數據類型的共存及計算分析問題。

3.3 高效智能的數據挖掘與分析工具

針對公司各業務系統中已存在,即將采集的低價值密度的數據,Hadoop提供了豐富的統計分析、多維分析、挖掘算法庫、數據挖掘工具,滿足公司對價值密度較低的數據的分析需求。

4 研究場景

4.1 研究內容

完成基于客戶歷史違章用電的檢查結果,構建客戶違約違章用電模型,評估客戶當前是否正在發生違約違章風險。

4.2 研究方法

分類預測輸出的預測結果是給出待預測對象從屬于某個類別的判斷。例如:根據客戶歷史用電數據,判斷其為可能違約用電客戶或為正常用電客戶。

4.3 算法選型

在實際工程應用中采用較多的算法主要有:決策樹、BP神經網絡、樸素貝葉斯、Logistic回歸等。通過對比研究,我們采用決策樹算法的隨機森林算法,其精確度優于其它算法,且其運行速度較快。

4.4 算法實驗

取烏魯木齊公司地區2014年12個月及2015年1至3月的客戶基礎信息、用電信息及繳費行為信息數據為原始數據進行實驗。

第1組實驗:

訓練集:2014年10、11、12月份數據。

測試集:隨機森林算法預測得到的2015年1月份數據。

驗證集:2015年1月份真實數據。

混淆矩陣:

預測正常客戶 預測壞客戶 客戶總數

實際正常客戶 2368823 294896 2663719

實際壞客戶 249459 214699 464158

查準率:42.13%,查全率:46.26%。

第2組實驗(非居民)

訓練集:2014年10、11、12月份數據,采樣1000條記錄。

測試集:隨機森林算法預測得到的2015年2月份數據。

驗證集:2015年2月份真實數據。

混淆矩陣:

預測正常客戶 預測壞客戶 客戶總數

實際正常客戶 138655 61965 200620

實際壞客戶 32885 52108 84993

查準率:45.68%,查全率:61.31%。

第3組實驗(非居民)

訓練集:2014年10、11、12月份數據,采樣1000條記錄。

測試集:隨機森林算法預測得到的2015年1月份數據。

驗證集:2015年1月份真實數據。

混淆矩陣:

預測正常客戶 預測壞客戶 客戶總數

實際正常客戶 137707 51944 189651

實際壞客戶 44661 51301 95962

查準率:49.69%,查全率:53.46%。

從以上測試結果看出,該模型的查準率為40%-50%,查全率為50%-60%,滿足預測要求。

5 總結

基于大數據技術對電網客戶違約情況的分析和預測,能使得公司提前對預測的客戶違約情況做好應對策略,降低公司虧損風險。目前,基于Hadoop的大數據平臺已具備數據接入、存儲、計算、分析和可視化展現等基礎功能,初步具備支撐基于平臺進行應用建設。下一步將新增跨域協同計算、自助式分析、數據安全管理等功能,規范數據存取和計算標準化服務,支撐業務部門進行快速構建應用,提高公司數據分析應用水平。

作者單位

國網新疆電力公司信息通信公司 新疆維吾爾自治區烏魯木齊市 830018

猜你喜歡
數據挖掘大數據
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 国产精品久线在线观看| 欧美日在线观看| 日韩欧美综合在线制服| 精品视频一区在线观看| 99久久国产综合精品2023| 欧美一级黄色影院| 在线观看欧美国产| 成年人国产网站| 少妇高潮惨叫久久久久久| 国产91九色在线播放| 欧美 亚洲 日韩 国产| a亚洲视频| 国产啪在线91| 一级不卡毛片| a级毛片免费网站| 五月天久久综合国产一区二区| 亚洲天堂网站在线| 欧美精品影院| 国产微拍精品| 黄色成年视频| 久久99精品久久久大学生| 免费jjzz在在线播放国产| 国内精品视频| 国产日本视频91| 国产精品一线天| 成人伊人色一区二区三区| 日本高清免费不卡视频| 午夜在线不卡| 在线日韩一区二区| 久久午夜夜伦鲁鲁片不卡| 日韩黄色大片免费看| swag国产精品| 天堂av综合网| 免费看美女自慰的网站| 国产欧美日韩综合在线第一| 日韩在线中文| 日韩专区欧美| 亚洲首页在线观看| 中日无码在线观看| 无码精品一区二区久久久| 婷婷六月在线| 日本妇乱子伦视频| 国产日韩欧美中文| 动漫精品中文字幕无码| 色噜噜在线观看| 亚洲最大福利视频网| 久久国产毛片| AV片亚洲国产男人的天堂| 一边摸一边做爽的视频17国产| 国产精品永久免费嫩草研究院| 国产主播在线观看| 九九热在线视频| 国产99视频免费精品是看6| 成年A级毛片| 精品亚洲欧美中文字幕在线看| 国产一线在线| 亚洲欧洲自拍拍偷午夜色| 欧美成人第一页| 国产黄色免费看| 日韩一级毛一欧美一国产| 99精品热视频这里只有精品7| 亚洲VA中文字幕| 91人人妻人人做人人爽男同| 精品国产免费第一区二区三区日韩| 婷婷亚洲天堂| 色综合久久88色综合天天提莫| 国产成人一区二区| 国产精品99一区不卡| 67194在线午夜亚洲| 成年网址网站在线观看| 美女扒开下面流白浆在线试听| 欧美午夜理伦三级在线观看| 免费看a毛片| 亚洲人成网站色7799在线播放| 3D动漫精品啪啪一区二区下载| 日韩欧美91| 欧美日本在线观看| 国产精品亚洲天堂| 国产在线精品美女观看| 亚洲无限乱码| 亚洲色图综合在线| 狠狠躁天天躁夜夜躁婷婷|