999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于密度的聚類算法與改進拉依達準則的95598工單處理方法

2022-11-22 11:04:14陸子秋
電力與能源 2022年5期
關鍵詞:利用故障

彭 昕,陸子秋,閆 筱

(國網上海市電力公司嘉定供電公司,上海 201800)

95598客服熱線作為電網公司與用戶交流的平臺,是重要的服務窗口。隨著電力行業的發展,用戶體驗要求不斷提高,為盡快解決用戶問題,對客服人員工作效率的要求也不斷提高[1]。另外,客服人員在記錄用戶描述的問題時可能會由于各種因素導致部分信息出錯,一旦故障地址填寫錯誤,就可能導致搶修人員前往錯誤地址,占用搶修資源,延長故障修復時間,影響用戶的正常用電。因此,利用各種高效且具備一定糾錯能力的數據處理工具構建處理系統,已成為當前急需解決的問題。

為解決這些問題,本文利用密度的聚類算法(DBSCAN)識別出脫離用戶聚集區的異常點,利用改進拉依達準則識別位于用戶聚集區的異常點,對于識別出的異常點均利用抄表段中心坐標替換。為方便工作人員進行分析,將所有故障信息在地圖上進行可視化處理,輸出故障熱力圖。

1 故障地址糾正

95598客服人員在接聽用戶來電時,可能由于多種因素導致部分地址不準確,大幅偏離實際地址,海量數據下逐個回訪確認耗時耗力,效率低下。為不影響搶修人員前往現場搶修,可將錯誤地址修正為實際地址周邊區域,而同抄表段往往代表著地理位置相近,因此可利用抄表段中心地址替換錯誤地址。

為增強中文地址的可處理性,將其轉化為經緯度坐標進行分析,若無法轉換,說明待轉換地址缺失部分信息或有較多不規范的俗稱,可將無法轉換的地址記錄下來并利用抄表段中心坐標替換,其基本技術路線如圖1所示。

圖1 地理編碼技術路線

2 抄表段中心坐標

通常情況下,同抄表段下有多個故障地址,而同一抄表段往往代表著地理位置相近,可以利用抄表段中心地址來替換掉錯誤地址,并且即使算法將正常坐標點誤判為異常坐標點。由于采用地址相近的抄表段坐標中心,也不會使得誤判坐標點較實際地址相差過大。

在計算抄表段中心坐標時,應不能包括待判斷坐標值,公式如下:

(1)

式中Ci——第i個坐標的抄表段中心坐標;Ai——不包含待判斷坐標值的集合;xi——第i個坐標值。

由式(1)可知,由于計算抄表段中心坐標排除自身,因此即使抄表段相同,計算出的抄表段中心也可能不同。

3 DBSCAN異常檢測算法

故障地址常為居民聚集區或工業聚集區,轉換為經緯度坐標同樣具備此類特性,脫離聚集區域的離群點往往為記錄錯誤的地址,且由于用戶聚集區域的復雜性,某個地區聚集區域的形狀、數量是難以獲取的,因此異常檢測算法必須能適應各種不同的聚集區域形狀,根據數據情況自適應不同數量的聚集區域,DBSCAN能有效檢測離群點[2-3],并且DBSCAN劃分具有足夠密度的數據區域為簇,與K-Means等算法比較,DBSCAN能處理各種形狀的數據區域,也不需要指定聚類個數。

與K-Means算法相比,DBSCAN更適合用于異常檢測,DBSCAN具體計算流程如下。

(1)定義鄰域半徑ε、鄰域半徑中點的最小數目min_samples。

(2)隨機初始化一個點xi,若該點為核心點,則該點鄰域半徑內應包含至少min_samples個點,即:

Nε(xi)≥min_samples

(2)

若該點不滿足式(2),則該點為邊界點,重新初始化一個點,邊界點鄰域內:

Nε(xi)≤min_samples

(3)

(3)初始化第一點后,逐個判斷其鄰域內的點是否為核心點,若為核心點,仍逐個判斷其鄰域內的點是否為核心點,直到處理完所有的點。

其中,異常點為既不是核心點也不是邊界點的坐標點。

由DBSCAN原理可知,其僅能識別出脫離聚集區的離群異常點,并且由于DBSCAN是先確定異常點再利用排除異常點后的抄表段中心替換異常點,基本技術路線如圖2所示。計算抄表段中心坐標不易受離群異常點影響,剔除異常點后也有利于提升下一步先計算抄表段中心再識別異常點的改進拉依達準則算法的魯棒性。

圖2 DBSCAN算法技術路線

為進一步說明DBSCAN的優勢,采用經典的笑臉散點圖進行說明,不同的類別利用不同的顏色表示,其中DBSCAN算法聚類示意圖如圖3所示,K-Means算法聚類示意圖如圖4所示。

圖3 DBSCAN算法聚類示意圖

圖4 K-Means算法聚類示意圖

由圖3和圖4可知,對于相對而言較容易聚類的笑臉的眼睛與嘴巴部分,兩種算法都能有較好的分辨能力。在實際情況中,用戶聚集區的形狀往往并非明顯呈一個可被K-Means算法聚類中心的近圓形,且各聚集區往往也不會有較大的間隔,這使得K-Means的魯棒性非常差,多次聚類結果往往不一致,對于復雜形狀甚至無法聚類,例如笑臉中包圍中心的外圍圓形。DBSCAN則很好地解決了此類問題,仍能將笑臉外圍的圓形聚為一類。

4 改進拉依達準則

DBSCAN無法識別出處于聚集區域的異常點,可進一步利用工單信息中的抄表段屬性。由于同一抄表段下地理位置相近,若某一故障地址過度偏離該抄表段中心地址,此故障地址往往記錄錯誤,可利用改進拉依達準則計算偏離閾值。拉依達準則能識別出樣本數據值異常的情況,即使該錯誤地址仍位于聚集區,但經緯度坐標為真實地理位置,不能直接認為較大或較小的坐標值即為異常點,對拉依達準則進行改進篩選過度偏離抄表段中心的地址:

(4)

若當前待檢測坐標為異常坐標,則利用抄表段中心替換,技術路線如圖5所示。

圖5 改進拉依達準則技術路線

為進一步說明改進拉依達準則的優勢,采用標準正態分布示意圖表示,如圖6所示。

圖6 標準正態分布示意圖

由圖6可知,偏離數據均值越大的數據出現的概率越小,當偏離均值過大時,往往可將其視為異常值,一般取置信度為0.95。本文中的判別對象為經緯度,是實際地理位置的坐標值,不能認為偏離經緯度中心的坐標為異常值,如城市郊區一般偏離經緯度中心較遠,直接利用經緯度坐標判斷可能導致異常坐標均為郊區坐標,考慮到本文數據中抄表段數據相同往往代表地理位置相近,若偏離抄表段中心過遠則其往往為異常值,可采用待檢測坐標與抄表段中心坐標的距離作為檢測對象,即過度偏離抄表段中心被認為是異常坐標。

綜上所述,本文模型實現的基本技術路線如圖7所示,基本步驟如下。

(1)將工單數據按照抄表段排序,提取其中的故障地址以及抄表段信息。

(2)將故障地址逐個利用工具轉換為經緯度坐標,將無法轉換的錯誤地址利用抄表段中心坐標替代。

(3)利用DBSCAN對坐標數據進行聚類,對各坐標所屬類別進行標記,檢測出的離群點利用抄表段中心坐標替代。

(4)利用改進拉依達準則逐個判斷各坐標是否需要糾正,若需要,可利用抄表段中心坐標替代。

圖7 模型基本技術路線

5 故障情況可視化

若要整體分析某區域撥打95598工單信息,采用表格的方式局限性較大且不直觀,不能直觀地觀察出區域內何處故障較多。因此,本文利用實際地圖繪制出熱力圖,直觀地展示各處的故障情況,可視化95598工單信息。為進一步提升熱力圖可視化系統的可讀性與可重復性,利用Java編寫網頁實現以下功能。

(1)熱力圖應在實際地圖上生成,而并非簡單地在二維坐標平面上生成。

(2)繪制熱力圖的坐標數據應為獨立文件,不集成在代碼中,以方便替換其他文件,實現快速替換數據繪制熱力圖。

(3)由于在實際地圖上繪制,地圖上非待分析區域應遮罩處理,待分析區域應高亮處理,待分析區域與非待分析區域應有明顯的邊界,地圖的顯示要素如文字標注、道路名稱等應能根據需要開啟或關閉。

6 算例分析

為說明所提方法的有效性,采用2021年上海市嘉定區95598工單數據共21 147條利用本文模型進行分析。

6.1 無法轉換地址分析

提取工單數據中的故障地址利用Python內Requests庫對地理編碼工具進行請求,判斷返回狀態值是否顯示轉換成功:若成功,則提取返回值中的經緯度坐標值;若失敗,則記錄失敗信息在工單信息中的位置以及地址。

利用地理編碼工具記錄的錯誤信息如表 1所示。

表1 地理編碼錯誤信息

由表1可知,地理編碼工具返回值為0即無法定位的地址數量不多,且均是缺乏部分信息或是不規范的俗稱導致編碼工具無法識別其經緯度坐標,因此地理編碼工具僅能初步篩選存在較明顯問題的地址。

6.2 DBSCAN算法分析

由表1可知,故障地址經地理編碼工具分析后僅能篩選出有較明顯問題導致無法定位的地址,無法識別記錄錯誤但無明顯問題的地址,即地理編碼成功后仍存在大幅偏離實際地址的錯誤地址,為識別出脫離聚集區域的離群異常點,采用DBSCAN算法。

DBSCAN分析聚類散點圖如圖8所示,利用抄表段中心替換異常坐標后重新生成的散點圖如圖9所示。

圖8 DBSCAN算法處理前

圖9 DBSCAN算法處理后

圖8和圖9中,橫坐標lng為經度,縱坐標lat為緯度,圖8的紅色標記即為識別出的離群點。由于本文采集的數據為嘉定區95598工單服務信息,故障坐標點組成的形狀應與嘉定區行政區域在地圖上形狀基本一致。然而由圖8可知,由于地址記錄錯誤等原因,實際有較多坐標點脫離聚集區域,經DBSCAN處理后,未被識別為異常的坐標點組成的形狀與嘉定區形狀基本一致,說明DBSCAN算法能有效處理離群點。由于并非所有異常點均具備抄表段信息,部分異常坐標點不能利用抄表段中心坐標替代,因此圖9中仍然存在部分離群點,存在抄表段信息的異常坐標點已被抄表段中心坐標替換,因此圖8中的離群點少于圖9中的離群點。

6.3 改進拉依達準則分析

由于抄表段相同往往代表地理位置相近,若某地址過度偏離其抄表段中心坐標,則說明其地址記錄存在問題,過度偏離的閾值由改進拉依達準則確定,即先計算抄表段中心坐標再計算識別閾值。

改進拉依達準則處理前聚類散點圖如圖10所示,將異常坐標點利用抄表段中心坐標替換后生成的散點圖如圖11所示。

圖10和圖11中,橫坐標lng為經度,縱坐標lat為緯度,圖10的紅色標記點即為利用改進拉依達準則識別出的異常點。較DBSCAN算法識別出的異常點,改進拉依達準則識別出的異常點基本位于聚集區域內。

圖10 改進拉依達準則處理前

6.4 熱力圖可視化

利用上述方法處理經緯度以及工單信息后,生成的熱力圖如圖12如所示。

圖11 改進拉依達準則處理后

圖12 故障情況熱力圖可視化

7 結語

針對95598工單信息中對搶修影響較大的故障地址往往由于各種因素導致其不準確甚至大幅偏離實際地址的問題,本文進行了如下處理。

(1)采用地理編碼工具將地址轉化為經緯度,增強地址信息的可處理性,初步篩選出錯誤地址,并利用抄表段中心坐標替換錯誤地址。

(2)采用DBSCAN算法識別出離群異常點,將識別出的異常坐標利用抄表段中心坐標替換,增強易受離群點影響的改進拉依達準則識別方法的魯棒性。

(3)改進拉依達準則,利用待檢測坐標與抄表中心坐標的距離作為檢測值,識別出非離群異常點,并利用抄表段中心替換。

(4)抄表段相同的工單往往代表其實際地址位置相差不大,采取抄表段中心坐標替代異常坐標不僅能有效修正錯誤地址,即使算法誤判,替換后的地址仍在實際地址附近。

(5)利用實際地圖以及工單信息生成熱力圖可視化故障信息,可直觀地觀察待分析區域的故障情況,以便搶修力量的部署。

猜你喜歡
利用故障
利用min{a,b}的積分表示解決一類絕對值不等式
中等數學(2022年2期)2022-06-05 07:10:50
利用倒推破難點
利用一半進行移多補少
故障一點通
利用數的分解來思考
Roommate is necessary when far away from home
利用
奔馳R320車ABS、ESP故障燈異常點亮
故障一點通
故障一點通
主站蜘蛛池模板: 久久精品嫩草研究院| 99精品伊人久久久大香线蕉| 91欧美亚洲国产五月天| 亚洲国产日韩在线成人蜜芽| 国产免费好大好硬视频| 热热久久狠狠偷偷色男同| 97一区二区在线播放| 亚洲天堂网在线视频| 国产手机在线ΑⅤ片无码观看| 精品国产Av电影无码久久久| 色综合天天视频在线观看| 国产综合无码一区二区色蜜蜜| 无码人中文字幕| 国产自在线播放| 欧美全免费aaaaaa特黄在线| 国产精品手机在线观看你懂的| 伊人色综合久久天天| 九九九九热精品视频| 日本91在线| 国产经典免费播放视频| 亚洲国产看片基地久久1024 | 国产成人一二三| 国产成人资源| 欧美啪啪视频免码| 久久久噜噜噜| 国产91精品久久| 欧美日韩免费观看| 国产午夜在线观看视频| 日韩乱码免费一区二区三区| 欧美国产视频| 国产精品无码制服丝袜| 亚洲色精品国产一区二区三区| 国产精品福利在线观看无码卡| 亚洲无码A视频在线| 波多野结衣视频一区二区 | 老司机精品一区在线视频| 日韩天堂在线观看| 国产一区成人| 日韩高清中文字幕| 中文国产成人久久精品小说| 美臀人妻中出中文字幕在线| 国产不卡国语在线| 呦女精品网站| av尤物免费在线观看| 91欧美在线| 毛片大全免费观看| 五月婷婷导航| 免费人成黄页在线观看国产| 日韩国产一区二区三区无码| 最新国产精品鲁鲁免费视频| 免费人成视网站在线不卡| 在线色国产| 91国内在线视频| 国产成人一区在线播放| 亚洲国产精品无码久久一线| 欧美α片免费观看| 国产欧美精品一区aⅴ影院| 国产在线视频二区| 国产成人调教在线视频| 国产白浆视频| 青青草原国产一区二区| 风韵丰满熟妇啪啪区老熟熟女| 亚洲国产亚综合在线区| 尤物特级无码毛片免费| av天堂最新版在线| 久久频这里精品99香蕉久网址| 久久黄色毛片| www亚洲精品| 亚洲视频免费播放| 亚洲欧美成aⅴ人在线观看| 99国产在线视频| 免费va国产在线观看| 国产在线一区视频| 在线免费不卡视频| 一级毛片不卡片免费观看| 欧洲在线免费视频| 精品久久久久久中文字幕女| 精品无码人妻一区二区| 在线观看国产精品第一区免费| 一区二区午夜| 国产91无码福利在线| 亚洲第一成人在线|