供電企業存量客戶用電地址數據結構化與規范化的清理方法研究

2018-10-30 07:59:12宋才華陳春梅鄧乾

微型電腦應用 2018年10期

宋才華，陳春梅，鄧乾

(廣東電網有限責任公司佛山供電局，佛山 528000)

0 引言

在城市建設日新月異的今天，眾多街道、社區被重新規劃與建設，這種現象造成供電企業營銷系統中越來越多客戶用電地址數據與現實地址不一致。除此之外，由于一些歷史原因導致現有的客戶用電地址數據存在大量的錯誤、名稱混亂、信息不完整等現象，如將表號作為地址、小區、樓棟等沒有標準稱謂等。同時，由于存量的客戶用電地址數據不是結構化的數據，存在不同小區的客戶地址填寫的規律不一致，甚至同一小區不同開發期、不同樓棟之間的地址填寫規律都不一致問題。這些問題嚴重影響了客戶服務工作、應急檢修工作的質量，對基于地址數據開展的各類分析與決策支持系統建設也產生了嚴重的影響。

本文圍繞供電企業客戶用電地址數據質量的現狀，結合大數據分析與挖掘的技術手段，以某地市供電局存量客戶用電地址數據的清理工作為案例，闡述供電企業如何通過創新技術手段實現客戶用電地址數據的結構化和規范化、并提高完整性與準確率。

1 客戶用電地址數據情況分析

某供電局客戶用電地址數據存在的問題可以總結以下幾類情況：

地址被簡寫、縮寫，如：XX區城市花園南區11#301、與碧桂園花園南區12棟502均處于同一個小區，即：XX區碧桂園城市花園。

相同地址以不同方式表述，如：XX區港口路2號3棟202、東方水岸3棟401也是同處于一個小區，即：XX區東方水岸。

歷史遺留的表述，如：石頭村居民小組、XX區石頭村夏園新村一街7號同處于XX區石頭夏園新村，其中石頭村居民小組是小區改造前的稱謂。

還有其他各種形式的問題，本文不再一一列舉。

2 客戶地址數據清理的目標

將所有客戶用電地址進行結構化與規范化的處理，實現行政區域、街道辦、小區的命名統一，即將客戶用電地址統一處理并表述為：市+區縣+街道+小區+樓棟+門牌號的形式(沒有小區的可采用道路+道路號形式)。[1]

3 客戶地址數據清理算法

3.1 算法框架簡述

地址規范化清理是一個多次循環的處理過程，每次清理的成果都會用來補充和修正基礎地址字典庫，然后用經過補充和修正的基礎地址字典庫參與下一輪的處理過程，直到完成整個清理過程,如圖1所示。

圖1 地址數據清理過程框架

在每一個地址規范化清理的循環中，首先會應用文本特征構建算法將待處理的客戶用電地址關鍵特征文本識別出來，進行原始地址層級化解析。然后將經過層級化解析的地址數據與基礎地址字典庫進行匹配，將匹配度滿足要求的數據作為清理成果，將匹配度不滿足要求的數據放入下一個清理循環中。即應用相似度與一致性評估的算法對清理成果進行綜合評估，從而在結構化地址列表中尋找與未被結構化的地址相一致或高度相似的地址數據繼續進行處理。[2]

3.2 基礎地址字典庫建立

基礎字典庫包含兩部分內容，即滿足層次化要求的佛山市基礎地址庫與地址要素通名庫。佛山市基礎地址庫從各類公開的電子地圖供應商獲取，地址要素通名庫借鑒已公開的數據成果并結合佛山市的實際情況進行補充[3]。

佛山市地址基礎庫結構,如圖2所示。

地址要素通名庫結構如下：

編號類型通名1道路路/大道/道/大街/街/巷/胡同/條/里2門牌號號3住宅小區里/區/園/村/坊/莊/居/寓/苑/墅/小區/弄/公寓4樓牌號號/號樓/樓/宿舍/齋/館/堂5POI大廈/廣場/飯店/中心/大樓/場/廣場/館/酒店/賓館/市場/花園/招待所

圖2 地址要素庫示意

3.3 原始地址層級化解析

對原始地址進行層級化解析的方法主要是分詞算法，而傳統的分詞算法主要包括3種模式：①基于字符串匹配的分詞方法；②基于理解的分詞方法；③基于統計的分詞方法。[4]

基于字符串匹配的分詞算法是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配，若在詞典中找到某個字符串，則匹配成功(識別出一個詞)。這種算法要有足夠強大的機器詞典(在本案例中即基礎地址庫)，并且原始數據的質量相對較高。

基于理解的分詞方法是通過讓計算機模擬人對句子的理解，達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析，利用句法信息和語義信息來處理歧義現象。通常這種方法應用在對特定的信息集進行語義分析方面，而地址字符串中的字符之間難以確定明確的上下文關系。[5]

基于統計的分詞方法的基本思想可以理解為某個字在上下文中，相鄰的字同時出現的次數越多，就越有可能構成一個詞。因此字與字相鄰共現的頻率或概率能夠較好的反映成詞的可信度。[6]

在本案例的應用中，在對“基于統計的分詞方法”思想進行理解的基礎上，進行算法擴展來實現原始地址的層級化解析。即在應用頻率(DF)之外，增加了信息增益(IG)、互信息、ⅹ2統計(CHI)、期望交叉熵(CE)4種方法，由傳統的分詞方法改進成為基于文本特征的分詞方法。

DF(Document frequency):此處可表述為用電地址頻率. DF表示在訓練集中包含某個特征項t的用電地址數。這種衡量特征想重要程度的方法基于這樣一個假設：DF較小的特征項對分類結果的影響較小；這種方法優先取DF較大的特征項，而DF較小的特征項將被剔除。

信息增益(IG)：IG通過統計某個特征項在用電地址中出現或不出現的次數來預測用電地址的類別。IG的計算如式(1):

信息增益G(t)反映了特征t對分類混亂程度的降低，也就是對分類的信息量。在實現中通過根據各個特征的信息贏取值排序,并根據設置的閾值選擇出合適規模的特征子集[7]。

互信息Ml(Mutual information):互信息值,它通過計算特征t和類別c間的相關性來完成提取。計算式如式(2)。

(2)

其中:A為t和c同時出現的次數。B為t出現而c沒有出現的次數。C為c出現而t沒有出現的次數。N為所有用電地址數。如果t和c不相關,則I(t,c)值為0。如果有m個類,于是對于每個t會有m個值,取它們的平均,就可得到特征選取所需的一個線性序。大的I平均值的特征被選取的可能性大[8]。

ⅹ2統計(CHI)：CHI方法有和Ml方法基本相似的思想,同樣通過計算特征t和類別c間的依賴程度來完成提取。如果特征項t和類別c反相關,就說明含有特征項t的用電地址不屬于c的概率要大一些,這對于判斷用電地址是否不屬于類別也是很有指導意義的。為克服這個缺陷,CHI使用公式計算特征項t和類別c的相關性。計算式可表達為式(3)。

(3)

3.4 相似度與一致性評估

由于客戶地址數據對供電企業來說是非常重要的數據資產，其準確程度對客戶服務工作、各類檢修工作影響都很大。所以，客戶用電地址數據的清理成果必須相較原始數據必須具有更高的準確度。[10]

相似度與一致性評估可以為客戶地址的層級化提供幫助，也可以有效提高地址規范化清理成果的準確性。本案例中對某一個群組里的客戶用電地址的相似度與一致性評估的數學算法主要采用了聚類算法、K近鄰算法、CART分類樹回歸算法。

聚類算法：一般情況下同類的用電地址相似度較大，而不同類的用電地址相似度較小。作為一種無監督的機器學習方法，聚類由于不需要訓練過程，以及不需要預先對文本手工標注類別，因此具有一定的靈活性和較高的自動化處理能力。[11]

一個用電地址表現為一個由字、詞和數字組成，可采用最出名的信息檢索方面的向量空間模型(vector space model,VSM)，將用電地址表示為加權特征向量D=D(T1，W1；T2，W2；…；Tn，Wn)，然后，通過計算用電地址相似度的方法來確定待分樣本的類別。當用電地址被表示為空間向量模型的時候，用電地址的相似度就可以借助特征向量之間的內積來表示。最簡單來說一個用電地址可以看成是由若干個單詞組成的，每個單詞轉化成權值以后, 每個權值可以看成向量中的一個分量，那么一個用電地址可以看成是n維空間中的一個向量，這就是向量空間模型的由來。單詞對應的權值可以通過TF-IDF加權技術計算出來[12]。

CART分類回歸樹：是一種決策樹分類方法，采用基于最小距離的基尼指數估計函數，用來決定由該子數據集生成的決策樹的拓展形。在本案例中，關鍵在于檢驗某個地址樣本集的分類回歸樹的基尼不純度。基尼不純度表示一個隨機選中的地址樣本在子集中被分錯的可能性(如一個客戶用電地址被分配到一個錯誤的小區)。基尼不純度為這個樣本被選中的概率乘以它被分錯的概率。當一個節點中所有樣本都是一個類時，基尼不純度為零。[13]

4 清理成果

某局營銷系統中的存量用電地址數據共2 457 829條，其中有90%的地址在經過規范化清理后實現了層級化。為檢查清理成果的準確度，在清理結果中選取了1 000個樣本數據進行電話核查，發現準確率高達99.9%。

5 總結

隨著電力體制改革的推進，供電企業亟需進行市場化營銷服務轉型，包括開展營銷工作管理創新、營銷客戶服務創新，借助移動互聯網的技術優勢提升客戶服務水平與質量。而實現上述工作目標的一項重要的基礎性工作就是提升客戶檔案信息的完整率與準確度，只有客戶檔案信息的完整率與準確度足夠高的情況下，才能充分發揮移動互聯網的技術優勢。[15]

本文所論述與展示的客戶用電地址清理思路、應用的相關算法是基于對供電局客戶用電地址數據進行深入統計分析后的研究成果，并已經在某供電局地址規范化工作中得到了驗證。其清理成果在提高用戶報障地址判斷的準確度、提高應急檢修的響應速度、為受停電影響的區域用戶發送消息提醒、掌握區域性的用電負荷需求等方面都發揮了非常重要的作用。其他公共事業機構在解決客戶地址的有效性與規范性時，可以結合本單位的客戶地址數據的實際情況，參考本文中所涉及的思路與方法或對其進行進一步的改進。