許鑫 王莉 孫志杰
摘要摘要:傳統的故障工單處理方法是人工處理,效率低下。在對95598工單地址分析的基礎上,建立了用于存儲標準數據集的標準地址庫結構和匹配規則,提出了基于標準地址庫的95598客戶服務故障工單匹配方法。該方法依據標準地址庫分詞,限定了正向匹配算法的最大詞長,能夠沿著自定義的地址匹配規則進行匹配,從而減少了待匹配地址與標準數據集的匹配次數,縮小了下次分詞所用到的目標數據集,提高了匹配效率。通過對歧義地址的定義和對規則樹的拓展,提高了匹配成功率和系統執行的靈活性。
關鍵詞關鍵詞:匹配算法;標準數據庫;模糊地址匹配;95598工單;標準地址庫
DOIDOI:10.11907/rjdk.171133
中圖分類號:TP319
文獻標識碼:A文章編號文章編號:16727800(2017)005014003
0引言
目前,針對95598故障工單中地址信息匹配停留在人工分析層面,當用戶對停電次數過多產生不滿進行投訴時,業務人員只能通過系統查詢該地區兩個月內由于供電企業責任引起的故障停電和計劃停電次數,以確定是否為頻繁停電投訴。利用人工查詢停電次數不僅存在效率低下、規范性差等問題,并且對工作人員經驗要求較高。
為解決這一問題,本文提出一種基于標準地址數據庫的95598故障工單地址分詞匹配算法。該算法通過采用最大正向匹配算法將地址分詞在標準地址庫中進行匹配[1]。通過借助每次分詞時對標準地址庫搜索,獲取正向最大匹配算法的詞長[2],并實時參照地址匹配規則樹,達到不斷更新匹配詞長和縮小目標數據集的目的。匹配出規范地址后,終止算法,返回目標數據集,完成規范地址輸出。
1地址匹配方法
1.1匹配方法框架
(1)構建標準數據庫。將國網冀北電力有限公司知識庫中的行政區域與營業區域對照表規范化處理后形成標準數據庫,創建地址結構數據表。
(2)地址匹配。調用分詞算法進行自動匹配,如果匹配成功,則經過轉換格式直接輸出;如果匹配失敗,則輸出到待處理庫等待人工修正。人工進行原因分析修正,完善標準數據庫或添加歧義表數據,將地址標準化處理并實現規范地址輸出。
1.2匹配方案實現
(1)標準地址庫構建。標準地址主要是為分詞匹配提供標準詞長及匹配值,因此需要分析當前故障地址和停電信息的地址結構,明確各行政區域的劃分,然后分級構建對應的標準數據表。
經過對2015~2016年6萬多張故障報修工單和4萬多條停電信息進行分析,當前故障地址信息以省、市、區/縣、鄉/鎮/街道辦事處、村/小區為結構,停電信息地址結構為供電單位、停電范圍。其中,供電單位作為地址的一部分是因為停電信息的地址有些只提供區縣和村落,將供電單位也作為地址信息的參考對象,可避免區縣重名,出現識別錯誤。停電范圍內的地址信息以市、區/縣、鄉/鎮/街道辦事處、村/小區結構為主。針對以上數據結構,構建地址層級結構如圖1所示。
(2)地址匹配定義??紤]到故障報修工單地址的書寫格式問題,為了提高匹配效率,便于按照當前地址格式進行匹配,梳理了故障報修工單數據中的地址信息,整理出地址的所有書寫格式,如表1所示。
為了便于表示,將標準地址庫中各表進行編號,如表2所示,然后利用編號對故障工單地址的匹配規則進行定義,如表3所示。以表3中規則一為例,當對地址進行匹配時,首先對省表中數據進行匹配運算,省表匹配成功后,再匹配市表,依次進行匹配,匹配完成后終止運算,返回規范的地址。但當規則一在匹配到區/縣(編號3)時匹配失敗,就直接按照規則三繼續匹配,直到匹配完成。如果在執行運算過程中遇到多個分支,則默認按規則排序前后依次執行。
(3)模糊地址處理。由于故障工單中的地址信息是95598客服人員直接根據用戶口述填報,因此得到的地址數據存在表達模糊、地址編寫不完整問題,可將模糊地址分為可匹配的模糊地址和不可匹配的模糊地址兩類[1][3]。針對可匹配的模糊地址,通過附加一些匹配規則來提高匹配成功率。可以匹配的模糊地址主要分為歧義地址和行政區劃稱謂不全。對于這兩種地址,該匹配算法提出如下解決方法:①構建歧義地址匹配表。通過建立歧義地址、行政區劃稱謂不全與標準地址之間的關聯關系,構建數據表。當地址匹配到相應的行政區劃且無法在標準地址庫中匹配成功時,可對歧義地址表中存在關聯關系的數據進行匹配,根據匹配情況得出結果;②人工完善歧義表內容。在匹配過程中,歧義表主要通過自動匹配失敗后的人工梳理,逐步完善匹配規則。
雖然歧義表作為標準地址庫的一部分,在整個數據表設置中有些冗余,但是可以解決匹配模糊地址問題,從而提高匹配成功率。
例如:“河北省承德市雙灤區雙塔山百旺家園”相對于標準地址“河北省承德市雙灤區雙塔山鎮百旺家園”缺少了“鎮”這個行政區劃稱謂,屬于行政區劃稱謂不全。通過地址分析,在匹配到“鎮”的行政區劃時,對歧義表中相關聯的“鎮”信息進行匹配,從而匹配成功。
2匹配過程
(1)分詞過程。待匹配地址載入到匹配流程中,按照匹配規則限定最大詞長及匹配目標集,并對待匹配地址進行分詞。
(2)匹配過程。將分詞的待匹配地址與標準地址匹配。如果匹配成功,按照標準地址庫截取相應的行政區劃詞長,并按照規則循環匹配;如果匹配不成功,查詢歧義地址表并進行匹配。匹配成功后輸出標準地址,匹配不成功需要查詢匹配規則樹重新定義詞長與標準數據集。如果匹配規則樹沒有此規則,那么此地址將跳入到人工處理流程。
(3)規范地址輸出。如果為自動執行過程,在匹配完成后就直接輸出匹配成功的規范地址;如果是人工處理匹配過程,則需要工作人員對存在的問題進行分析,根據所發現的問題修正標準庫、歧義表、規則樹。詳細流程如圖3所示。
3創新點及應用成果
基于標準地址庫的95598客戶服務故障工單地址匹配方法創新點如下:
(1)實現了故障地址的有效分詞。該地址匹配方法根據匹配規則樹和上一次匹配成功的行政區劃,從標準地址數據庫的地址結構數據表中確定當前匹配的地址范圍,實現多級詞表設計,從而解決了匹配過程中單個詞表導致的匹配詞量過多問題,可以利用多級詞表的關聯關系實現將標準詞表匹配范圍最小化。在模糊地址匹配設計上利用標準地址數據庫的地址結構數據表與歧義地址匹配表內數據的關聯關系,快速定位模糊地址對應的標準地址,有效解決了模糊地址的匹配問題。在地址匹配過程中利用規則引導地址匹配過程,減少了匹配次數,提高了匹配效率。
(2)有益于預警工作開展。地址規范化處理有助于電力部門在工單數據的統計分析上實現地址維度的數據統計分析,比如:針對某地區停電數據分析、某地用戶偏好分析、某地業務數量統計分析等。另外,該技術的延伸將有助于實現計劃停電信息、投訴工單信息的分析及地址處理。
頻繁停電投訴的管理及數據分析,難點在于地址填寫不規范,本技術方案解決了在頻繁停電投訴管理和數據分析中遇到的地址不規范難題,為投訴預警及服務關口前移創造了條件。
參考文獻參考文獻:
[1]程昌秀,于濱.一種基于規則的模糊中文地址分詞匹配方法[J].地理與地理信息科學,2011(3):2629.
[2]王瑞雷,欒靜,潘曉花,等.一種改進的中文分詞正向最大匹配算法[J].計算機應用與軟件,2011,28(3):195197.
[3]譚侃侃.基于規則的中文地址分詞與匹配方法[D].濟南:山東科技大學,2011.
[4]金在全,趙照.一種改進的增字最大匹配算法[J].科學技術與工程,2007,7(9):47614764.
[5]吳勝遠.一種漢語分詞方法[J].計算機研究與發展,1996,33(4):306 310.
[6]陳桂林,王永成,韓客松,等.一種改進的快速分詞算法[J].計算機研究與發展,2000,37(4):418424.
[7]張黎,徐蔚然.中文分詞研究[J].軟件,2012,33(12):103108.
[8]高文利,李德華.分詞索引樹的構建[J].語言研究,2007(4):103105.
責任編輯(責任編輯:杜能鋼)