國網客服中心南方分中心 江蘇 南京 210000
電力客服中心承載著受理電力用戶故障報修、業務咨詢、服務申請、投訴舉報、意見建議等工作。經統計,目前電力服務行業中,客戶能夠直接提供戶號的比例在50%左右,有近50%的客戶無法提供戶號信息,客服專員只能通過地址等信息進行再次查詢,而地址是查詢停電信息、歷史報修記錄、派發供電單位等主要依據。同時,在服務問題分析定位中,需要對某類問題高發的區域進行提取,那么同樣要對地址進行統計。實際應用中,為了便于地址之間做匹配,需要將客戶地址中的“村、小區、街道、路、單位/公司名稱”等實體信息提取出來,從而提升匹配的成功率。在這一背景下,我們研究了一種地址實體提取的方法。
地址信息的提取不光在電力客服中心有著重要的應用,在其他行業也有著相關應用。隨著電子地圖的發展,地址在人們生活中的作用越來越重要,將大量的中文地址轉化為地理坐標,并定位到地圖上,從而實現空間與非空間數據的整合[1]。在地址分析方面,也涌現出了很多方法,比如在《基于規則的中文地址要素解析方法》論文中,通過構建各類地址要素特征詞庫,利用地名詞典和特征詞庫來解析地址[2]。《基于自動機分詞的中文地址地理編碼技術研究與實現》中提出了利用中文地址的自動機的中文分詞算法等等[3]。以上方法的分詞準確率還有待進一步提升。本文的優勢在于在結合電力行業客戶地址特點的基礎上,形成本行業內特有的地址庫和“切點庫”從而有利于提升地址實體提取的準確性。
(1)規律總結。對電力服務中客戶提供的地址進行了特點總結,共總結出“X省”+“X市”+“X區/縣”+“X鄉/鎮”+“X村”、“X省”+“X市”+“X區/縣”+“X街道/社區”+“X路”+“X小區”+“X號/幢/#/-X(門牌號)”等17種地址模式。

地址特點總結(舉例)現場地址 地址特點陜西省渭南市臨渭區三張鎮張毛村 標準的“X省”+“X市”+“X區/縣”+“X鄉/鎮”+“X村”陜西省咸陽市秦都區人民西路49號芙蓉佳苑小區8-2-201標準的“X省”+“X市”+“X區/縣”+“X鄉/鎮”+“X村”陜西省延安市黃陵縣腰坪鄉建莊村 標準的“X省”+“X市”+“X區/縣”+“X鄉/鎮”+“X村”陜西省西安市藍田縣三里鎮楊坡頭村二組標準的“X省”+“X市”+“X區/縣”+“X鄉/鎮”+“X村+X組”陜西省西安市高陵縣耿鎮蘇家村 標準的“X省”+“X市”+“X區/縣”+“X鄉/鎮”+“X村”陜西省安康市漢濱區老城街道鼓樓社區興安東路北醫大小區3號樓-2-303標準的“X省”+“X市”+“X區/縣”+“X街道/社區”+“X路”+“X小區”+“X號/幢/#/-X(門牌號)”陜西省西安市未央區鳳城三路東段888號頤和郡小區6-1-1801標準的“X省”+“X市”+“X區/縣”+“X路”+“X號”+“X小區”+“X號/幢/#/-X(門牌號)”
(2)具體方法。鑒于電力客服中心的客戶地址具備一定的結構性,區別于傳統的完全基于地址庫匹配方式的地址分詞算法,本文采用前三級地址用地址庫+后級地址進行“切點”分詞的方法,進行地址中的實體信息提取。
前三級地址采用地址庫匹配方法主要原因為,前三級地址涉及省、市、縣/區,該部分信息在國家統計局官網中即可獲取,容易組成地址地名庫進行匹配,匹配成功率高。后級地址采用逐詞搜索辦法,主要原因是客戶提供信息差異化較大,地址地名庫不夠完善,匹配率低,因此通過將地址中“切點”找出進行分詞的方法進行實體信息提取。常規切點主要指的是“鎮/鄉、組、街、路、大道、弄、小區、村”等信息。
利用VBA編寫代碼,前三級地址與地址庫逐級匹配,后幾級主要通過關鍵詞進行截取,從而提取出“小區、村、街道”等末級信息。
(1)停電信息檢索。將客戶地址信息中的“村、小區、街道、路”等信息提取出來,后臺系統自動實現與停電信息中停電影響范圍中的地理信息對比,從而實現停電信息的自動化檢索,為節省人力提供了有效支撐。

(2)頻繁停電區域定位。通過對反映頻繁停電問題的客戶地址進行提取,最終定位頻繁區域,為電網質量改善提供了支撐。

以上方法對電力客服中心工單地址實體信息的有效提取率達到90%以上,有效支撐了業務受理和數據分析工作。