國網客服中心南方分中心 江蘇 南京 210000
電力客服中心承載著受理電力用戶故障報修、業(yè)務咨詢、服務申請、投訴舉報、意見建議等工作。經統(tǒng)計,目前電力服務行業(yè)中,客戶能夠直接提供戶號的比例在50%左右,有近50%的客戶無法提供戶號信息,客服專員只能通過地址等信息進行再次查詢,而地址是查詢停電信息、歷史報修記錄、派發(fā)供電單位等主要依據。同時,在服務問題分析定位中,需要對某類問題高發(fā)的區(qū)域進行提取,那么同樣要對地址進行統(tǒng)計。實際應用中,為了便于地址之間做匹配,需要將客戶地址中的“村、小區(qū)、街道、路、單位/公司名稱”等實體信息提取出來,從而提升匹配的成功率。在這一背景下,我們研究了一種地址實體提取的方法。
地址信息的提取不光在電力客服中心有著重要的應用,在其他行業(yè)也有著相關應用。隨著電子地圖的發(fā)展,地址在人們生活中的作用越來越重要,將大量的中文地址轉化為地理坐標,并定位到地圖上,從而實現空間與非空間數據的整合[1]。在地址分析方面,也涌現出了很多方法,比如在《基于規(guī)則的中文地址要素解析方法》論文中,通過構建各類地址要素特征詞庫,利用地名詞典和特征詞庫來解析地址[2]。《基于自動機分詞的中文地址地理編碼技術研究與實現》中提出了利用中文地址的自動機的中文分詞算法等等[3]。以上方法的分詞準確率還有待進一步提升。本文的優(yōu)勢在于在結合電力行業(yè)客戶地址特點的基礎上,形成本行業(yè)內特有的地址庫和“切點庫”從而有利于提升地址實體提取的準確性。
(1)規(guī)律總結。對電力服務中客戶提供的地址進行了特點總結,共總結出“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村”、“X省”+“X市”+“X區(qū)/縣”+“X街道/社區(qū)”+“X路”+“X小區(qū)”+“X號/幢/#/-X(門牌號)”等17種地址模式。

地址特點總結(舉例)現場地址 地址特點陜西省渭南市臨渭區(qū)三張鎮(zhèn)張毛村 標準的“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村”陜西省咸陽市秦都區(qū)人民西路49號芙蓉佳苑小區(qū)8-2-201標準的“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村”陜西省延安市黃陵縣腰坪鄉(xiāng)建莊村 標準的“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村”陜西省西安市藍田縣三里鎮(zhèn)楊坡頭村二組標準的“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村+X組”陜西省西安市高陵縣耿鎮(zhèn)蘇家村 標準的“X省”+“X市”+“X區(qū)/縣”+“X鄉(xiāng)/鎮(zhèn)”+“X村”陜西省安康市漢濱區(qū)老城街道鼓樓社區(qū)興安東路北醫(yī)大小區(qū)3號樓-2-303標準的“X省”+“X市”+“X區(qū)/縣”+“X街道/社區(qū)”+“X路”+“X小區(qū)”+“X號/幢/#/-X(門牌號)”陜西省西安市未央區(qū)鳳城三路東段888號頤和郡小區(qū)6-1-1801標準的“X省”+“X市”+“X區(qū)/縣”+“X路”+“X號”+“X小區(qū)”+“X號/幢/#/-X(門牌號)”
(2)具體方法。鑒于電力客服中心的客戶地址具備一定的結構性,區(qū)別于傳統(tǒng)的完全基于地址庫匹配方式的地址分詞算法,本文采用前三級地址用地址庫+后級地址進行“切點”分詞的方法,進行地址中的實體信息提取。
前三級地址采用地址庫匹配方法主要原因為,前三級地址涉及省、市、縣/區(qū),該部分信息在國家統(tǒng)計局官網中即可獲取,容易組成地址地名庫進行匹配,匹配成功率高。后級地址采用逐詞搜索辦法,主要原因是客戶提供信息差異化較大,地址地名庫不夠完善,匹配率低,因此通過將地址中“切點”找出進行分詞的方法進行實體信息提取。常規(guī)切點主要指的是“鎮(zhèn)/鄉(xiāng)、組、街、路、大道、弄、小區(qū)、村”等信息。
利用VBA編寫代碼,前三級地址與地址庫逐級匹配,后幾級主要通過關鍵詞進行截取,從而提取出“小區(qū)、村、街道”等末級信息。
(1)停電信息檢索。將客戶地址信息中的“村、小區(qū)、街道、路”等信息提取出來,后臺系統(tǒng)自動實現與停電信息中停電影響范圍中的地理信息對比,從而實現停電信息的自動化檢索,為節(jié)省人力提供了有效支撐。

(2)頻繁停電區(qū)域定位。通過對反映頻繁停電問題的客戶地址進行提取,最終定位頻繁區(qū)域,為電網質量改善提供了支撐。

以上方法對電力客服中心工單地址實體信息的有效提取率達到90%以上,有效支撐了業(yè)務受理和數據分析工作。