999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據算法的電話號碼與客戶編號對應關系 的識別研究與實現

2019-04-01 09:10:14劉鯤鵬宮立華
計算機應用與軟件 2019年3期
關鍵詞:文本模型

劉鯤鵬 盛 妍 何 薇 宮立華

1(國家電網有限公司客戶服務中心 天津 300309)2(北京中電普華信息技術有限公司 北京 100085)

0 引 言

國網95598客服人員在受理客戶來電業務時,需要對客戶戶號進行核對,以便解決客戶來電訴求。由于大部分客戶無法提供客戶戶號,坐席人員需要通過詢問客戶用電地址信息與現有檔案用電地址進行匹配,獲取客戶戶號。這種方式勢必會造成坐席服務效率低下,引起客戶情緒浮躁等問題。

另一方面,目前中心標簽是以電話號碼為對象構建,省公司標簽是以用戶號為對象構建,為實現中心和省公司標簽共享,需要構建電話號碼和用戶號之間的動態精準匹配關系,支撐以電話號碼為對象的客戶畫像和以用戶號為對象的客戶畫像,實現中心和省公司在標簽對象上的融合應用[1]。鑒于此,識別客戶來電號碼與戶號的對應關系勢在必行。

1 設計思路

從業務數據入手,客戶檔案中的戶號和聯系方式為靜態數據,而95598數據、IVR數據和網站數據都屬于動態數據,其中的號碼與戶號關系為動態關系[2]。本文從動態關系出發,更新、補充、完善靜態數據,通過計算匹配度得分對號碼和戶號的對應關系進行識別。

2 研究內容

2.1 對應關系識別

2.1.1 有電話號碼有戶號情況

1) 數據源:

(1) 近兩年戶號不為空的95598工單數據(注:根據數據探索結果確定時間范圍)。

(2) 客戶檔案數據。

2) 研究步驟:

(1) 數據加工。提取95598工單業務中記錄戶號與號碼的工單,并加工關系基表(戶號、號碼、來電頻次、時間點、地址、姓名等)。

(2) 正確性校驗。為保證對應關系的準確性,對提取的對應關系進行數據校驗,排除無效關系。對應關系在檔案中成功匹配,無需進行校驗,規定此情況匹配度得分最高;對應關系在檔案沒有匹配成功:此類情況需對工單數據中的用電地址信息、客戶姓名與檔案進行準確性校驗。同時,再結合用戶撥打行為特征,如撥打頻次、最近撥打時間、來電時間點、撥打業務類型等行為綜合校驗對應關系的準確性。在數據校驗的過程中,計算關系匹配度得分,根據匹配度得分確定關系可靠性。

計算匹配度得分:借助于大數據文本挖掘技術[3],對涉及到文本校驗因素,進行分詞并計算文本相似度,進而將文本相似度作為因素指標[4];對撥打行為指標(如號碼撥打次數、撥打時間點、最近撥打時間、撥打事件類型、用電地址在歷史工單中出現次數、客戶姓名在歷史工單中出現次數、同一戶號是否在歷史工單中出現,出現該戶號的頻次等因素)可作為行為量化因素指標;通過使用層次分析法、熵值法、因子分析法等大數據建模方法,構建指標權重劃分模型,計算各個因子指標權重,進而計算關系匹配度得分[5]。

說明:在校驗過程中,若不滿足以上因素的檢驗條件,則將不滿足條件的來電號碼放到下一分類情況(即有號碼無戶號情況)進行關系識別。

3) 匹配流程:

有號碼有戶號情況下對應關系匹配流程圖如圖1所示。

2.1.2 有電話號碼無戶號情況

1) 電話號碼記錄在檔案情況:

(1) 數據源:

① 近兩年戶號為空且來電號碼在檔案中有記錄的95598工單數據(根據數據探索結果確定時間范圍)。

② 提取步驟2.1.1中判別無效關系且號碼出現在檔案的95598工單。

③ 客戶檔案數據。

(2) 研究步驟:

① 數據加工。提取近兩年戶號為空且來電號碼在檔案中有記錄的95598工單,并通過電話號碼獲取檔案中的戶號;提取2.1.1節中判別無效關系且號碼記錄在檔案的工單;加工95598工單數據基表(記錄工單編號、來電號碼、客戶編號、用電地址、客戶姓名、撥打頻次、最近撥打時間等內容)、客戶檔案數據基表(記錄客戶編號、用電地址、客戶姓名、聯系號碼等內容)。

② 正確性校驗。校驗準則:此類情況需對工單數據中的用電地址信息、客戶姓名與檔案進行準確性校驗。同時,再結合用戶撥打行為特征,如撥打頻次、最近撥打時間、來電時間點、撥打業務類型等行為綜合校驗對應關系的準確性。在數據校驗的過程中,計算關系匹配度得分,根據匹配度得分確定關系可靠性。

計算匹配度得分:需借助于大數據文本挖掘技術,對涉及到文本校驗因素進行分詞并計算文本相似度,進而將文本相似度作為因素指標;對撥打行為指標(如號碼撥打次數、撥打時間點、最近撥打時間、撥打事件類型、用電地址在歷史工單中出現次數、客戶姓名在歷史工單中出現次數、同一戶號是否在歷史工單中出現、出現該戶號的頻次等因素)可作為行為量化因素指標;通過使用層次分析法、熵值法、因子分析法等大數據建模方法,構建指標權重劃分模型,計算各個因子指標權重,進而計算關系匹配度得分。

在校驗過程中,若不滿足以上因素的檢驗條件,則將不滿足條件的來電號碼放到下一分類情況(即有號碼無戶號且號碼未記錄在檔案情況)進行關系識別。

(3) 匹配流程:

號碼記錄在檔案情況下對應關系匹配流程圖如圖2所示。

2) 號碼未記錄在檔案情況:

此類情況由于來電號碼未記錄在檔案中,無法通過電話號碼獲取相應的戶號,因此需要引入大數據模挖掘術,通過文本挖掘、構建模型,識別疑似戶號。

(1) 數據源:

近兩年戶號為空且來電號碼在檔案中沒有記錄的95598工單數據(根據數據探索結果確定時間范圍);提取2.1.1節中判別無效關系且號碼未記錄在檔案的95598工單;提取電話號碼記錄在檔案中判別無效關系的號碼工單客戶檔案數據。

(2) 研究步驟:

① 數據加工。提取近兩年戶號為空且來電號碼在檔案中沒有記錄的95598工單;提取電話號碼記錄在檔案中判別無效關系的工單;加工95598工單數據基表(工單編號、來電號碼、客戶編號等)、客戶檔案數據基表(客戶編號、用電地址、客戶姓名、聯系號碼等)。

② 因素指標。在尋找疑似戶號的過程中,需要構建因子指標,判別待識別來電客戶的通話行為、身份信息、地址信息等因素是否與現存對應關系的行為一致或者相近,最終尋找此來電號碼的疑似戶號?,F存對應關系可分為兩類:基于2.1.1節和電話號碼記錄在檔案中識別出的對應關系;其余的為檔案數據中已存在的對應關系?;谝陨蠑祿矗蜃又笜税凑諗祿Y構分為非結構化指標與結構化指標兩類。非結構化指標:客戶用電地址、客戶姓名、受理內容中提取信息量(戶號、電話號碼、姓名等)、處理意見中提取的信息量(戶號、電話號碼、姓名等)等文本內容。結構化指標:來電頻次、來電時間點、通話時長、各個業務類型的來電頻次、來電時長以及最近來電時間等通話行為。

③ 數據建模識別戶號。非結構化指標相似度計算方法:基于以上幾類文本數據,采用大數據文本挖掘技術,對其進行文本分詞,進而將非結構化數據轉化為結構化處理。將分詞之后的各個文本內容根據出現頻次,構造向量空間,利用余弦夾角度量方法、最長公共子序列方法、最小邊際距離算法等,計算各個對應文本的相似度,相似度作為建模因子指標。通過輸入非結構指標(即文本挖掘計算出的相似度),以及結構化因素指標,構建KNN數據模型計算每個號碼對象與現存對應關系的相似度,最終來確定該號碼對應的疑似戶號,實現號碼與戶號的匹配。現存對應關系可分為兩類:基于2.1.1節和電話號碼記錄在檔案中識別出的對應關系;其余的為檔案數據中已存在的對應關系。在訓練KNN模型的同時,需確定出合適的K值作為戶號類別歸屬的判別,在篩戶號歸屬的同時,需遵從如下原則:

在鄰近的K個可選戶號歸屬中,若屬于2.1.1節與電話號碼記錄在檔案中的對應關系優先選取該戶號(號碼關系相對可靠),否則按照模型相似度得分來分配疑似戶號歸屬。

(3) 匹配流程:

號碼未記錄檔案情況下對應關系匹配流程圖如圖3所示。

圖3 號碼未記錄檔案情況下對應關系匹配流程圖

綜合兩類情況找尋的戶號信息,進行合并處理,形成戶號與號碼的對應關系。在合并后的對應關系中,對應關系存在如下三種情況:

(1) 號碼與戶號1對1;

(2) 號碼與戶號1對多;

(3) 號碼與戶號多對1。

針對號碼與戶號多對多的情況,需進行優先級劃分。

2.2 優先級劃分

對于一戶多號、一號多戶的對應關系,需制定關系優先級,選取最可靠的對應關系。制定如下規則對其進行優先級劃分:

(1) 針對有號碼有戶號分類情況,按照匹配度得分,選取一戶多號、一號多戶最為可靠的關系;

(2) 針對有號碼無戶號且號碼出現在檔案分類情況,按照匹配度得分,選取一戶多號、一號多戶最為可靠的關系;

(3) 針對有號碼無戶號且號碼未出現在檔案)分類情況,按照模型相似度得分,選取一戶多號、一號多戶最為可靠的關系。

綜合三部分對應關系,針對合并之后出現一戶多號、一號多戶的情況再次進行優先級劃分,劃分規則遵從如下規定:

滿足條件第一種對應關系的優先級最高;滿足條件第二種對應關系的優先級次之;滿足條件第三種對應關系的優先級最低。

3 模型算法

為實現來電號碼與客戶號的動態匹配,需引入大數據分析、挖掘技術,校驗關系準確性以及識別來電號碼的疑似戶號。在進行關系動態匹配的過程中,需用到如下三方面大數據技術:

(1) 文本挖掘技術:需對用電地址、客戶姓名、工單受理內容等文本進行分詞,并計算文本相似度得分;

(2) 權重劃分模型:通過權重劃分模型輸出各個因子指標權重,進而計算對應關系匹配度得分,校驗準確性[6];

(3) KNN模型:針對未找到戶號的來電工單,構建KNN模型,通過模型輸出該號碼的疑似戶號。

3.1 文本挖掘

3.1.1 中文分詞技術

中文分詞指的是將漢字序列切分成若干個詞[7]。中文分詞是文本挖掘的基礎,現有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個詞,則匹配成功[8]。常用的幾種機械分詞方法如下:

(1) 正向最大匹配法(由左到右的方向);

(2) 逆向最大匹配法(由右到左的方向);

(3) 最少切分(使每一句中切出的詞數最小);

(4) 雙向最大匹配法(進行由左到右、由右到左兩次掃描)[9]。

3.1.2 詞向量技術

自然語言理解的問題要轉化為機器學習的問題,構造詞向量[10],并計算相似度得分:

編輯距離,表示從一個字符串轉化為另一個字符串所需要的最少編輯次數,這里的編輯是指將字符串中的一個字符替換成另一個字符,或者插入刪除字符。編輯距離的核心就是如何計算出一對字符串間的最小編輯次數,我們可以使用動態規劃的思想來計算其最小編輯次數[11],兩個字符串a=a1a2…an,b=b1b2…bm 的編輯距離遞歸計算公式如下:

(1)

(2)

(3)

式中:w表示增刪改三種操作的權重,一般定義為:

(4)

di0=i表示從b=b1b2…bi刪除為空的編輯次數;d0j=j表示從空插入成a′=a1a2…aj所需的編輯次數;dij則是對動態規劃中分解子問題的過程。其邏輯關系較為復雜,算法時間復雜度較高。

3.2 權重劃分(熵權法)

熵權法作為一種客觀賦權法,其優勢在于可以避免賦予權重的主觀性,符合數學邏輯且具有較為嚴格的數學意義[12]。熵權法的基本運算過程如下:

3.2.1 原始數據矩陣標準化處理

由于得到的原始數據差異較大,首先需要對數據進行無量綱化的處理。

(5)

對正指標無量綱化處理公式為:

(6)

對負指標無量綱化處理公式為:

(7)

得到新的矩陣記為Aij。

3.2.2 指標熵值的計算

(8)

3.2.3 各指標權重的確定

(9)

3.2.4 計算綜合得分

(10)

式中:Wj表示每個指標占的權重,Aij表示的是調整后的Xij值。

在信息論中,熵是對不確定性的一種度量。信息量越大,不確定性就越小,熵也就越?。豢筛鶕黜椫笜说淖儺惓潭?,利用信息熵這個工具,計算出各個指標的權重,為多指標綜合評價提供依據。

3.3 KNN模型

KNN是通過測量不同特征值之間的距離進行分類。它的思路是:如果一個樣本在特征空間中的K個最相似(即特征空間中最鄰近)的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。K通常是不大于20的整數。該方法在決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別[13]。

KNN算法實現步驟綜述:

(1) 計算樣本數據之間距離;

(2) 按照距離的遞增關系進行排序;

(3) 選取距離最小的K個點;

(4) 確定前K個點所在類別的出現頻率;

(5) 返回前K個點中出現頻率最高的類別作為測試數據的預測分類。

4 模型構建

4.1 因子指標設計

針對尋找到的對應關系需進行關系校驗,通過文本挖掘算法計算文本相似度得分,進而將文本相似度得分以及撥打行為指標作為構建權重劃分模型的輸入因子,通過模型計算相似度得分,校驗關系可靠性。因子指標設計成寬表,如表1所示。

表1 寬表

續表1

4.2 模型結果輸出

4.2.1 計算各類因素指標權重

通過文本分詞構造詞向量,并計算出地址相似度、姓名相似度得分作為模型的輸入因子,進而再結合撥打行為、撥打偏好等行為指標,構建權重劃分模型,模型輸出各類指標權重如表2所示。

表2 模型指標權重

4.2.2 計算對應關系匹配度得分

依據各類指標權重值,計算對應關系(戶號與號碼對應關系)匹配度得分,得分分布如表3所示。

表3 得分分布表

4.3 模型效果評估

4.3.1 結果驗證

選取浙江省2016/04/01至2017/04/01工單數據作為建模數據,通過構建權重劃分模型,計算對應關系匹配度得分。選取未來5個月內(2017/04/01-2017/08/31)有過撥打且記錄客戶戶號的工單作為模型驗證集,對模型輸出結果進行關系驗證,并將數據作十分位,分別驗證模型模型的命中率、覆蓋率情況,驗證結果如表4所示。

表4 模型結果表

從表4可知,分值越高,模型命中率越高,符合分值越高,戶號與號碼對應關系越緊密的趨勢特征。模型命中率在分值排名前70%以內都高于40%,并且在分值前70%模型覆蓋率達到了82.5%,故建議選取分值排名前70%作為模型預測有效對應關系。

4.3.2 不足之處

(1) 目前此方法主要是以95598工單數據為主線尋找戶號與號碼對應關系,后期可從智能互動網站、掌上電力、繳費等渠道獲取對應關系進行擴充;

(2) 此方法在進行KNN模型識別匹配過程中,計算復雜度較高,對匹配數據集按照地址范圍進行縮減,一定程度上會降低對應關系準確性;

(3) 此方法在構建權重劃分模型時,通過模型計算各類指標的權重,但一定程度上會忽略業務影響,后期可結合專家評分,綜合評判各類因素權重得分。

4.3.3 不可控因素

(1) 由于95598話務工單地址信息記錄不規范,導致地址相似度得分存在偏差;

(2) 由于95598話務工單姓名記錄不規范,導致姓名相似度得分存在偏差;

(3) 95598受理內容信息記錄不規范,導致截取客戶戶號信息、用電地址等信息不準確;

(4) 客戶檔案信息錄入不及時、且存在一戶多號情況(如開發商樓宇信息,針對一個戶號對應小區所有業主信息)。

5 結 語

從浙江省近1 年受理工單情況入手,通過構建統一身份識別模型,共有效識別出對應關系272萬,涉及工單量為431.74萬工單,覆蓋浙江省近1年工單總量的67.35%,即有67.35%的受理工單通過模型有效識別出戶號。

綜合以上,本文創新點如下:

(1) 基于大數據平臺分布式計算環境,對海量全業務95598工單數據、客戶檔案數據進行數據分析、數據建模,彌補傳統數據抽樣建模的不足,進而提升模型預測準確度;

(2) 創新性地引入文本相似度計算方法,對工單用電地址、客戶姓名進行分詞,進而構造詞向量空間,計算文本相似度;

(3) 創新性地使用權重劃分模型,對各項因素指標實現客觀權重評級;

(4) 創新性地引入KNN模型算法,實現對應關系(戶號與號碼對應關系)增量有效識別;

(5) 基于大數據平臺分布式計算環境,采用分布式計算方法(MapReduce計算、Spark內存計算),并行地實現數據加工處理、模型計算,提升模型計算高效迭代性,實現模型快速、高效精準輸出。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 午夜精品区| 日韩成人午夜| 国产swag在线观看| 青青热久免费精品视频6| 国产精品99久久久久久董美香| 亚洲成人www| 成人自拍视频在线观看| 一级毛片免费的| 国产网站免费| 成年人久久黄色网站| 波多野结衣一区二区三视频| 小说区 亚洲 自拍 另类| 欧美日韩va| 国产精品欧美在线观看| 视频二区欧美| 亚州AV秘 一区二区三区| 91在线视频福利| 国产农村妇女精品一二区| 中文纯内无码H| 免费va国产在线观看| 国产麻豆aⅴ精品无码| 三级国产在线观看| 国产成人AV大片大片在线播放 | 国产日本欧美在线观看| 亚洲国产精品不卡在线| 亚洲无码视频一区二区三区| 97色伦色在线综合视频| 狠狠亚洲五月天| 国产精品大白天新婚身材| 日韩AV无码免费一二三区| 日韩少妇激情一区二区| 中国精品自拍| 欧美视频在线不卡| 日本高清免费不卡视频| 九九线精品视频在线观看| 午夜毛片福利| 91精品国产综合久久香蕉922| 国产精品所毛片视频| 久夜色精品国产噜噜| 91国内在线观看| 中文字幕永久在线看| 2022精品国偷自产免费观看| 亚洲爱婷婷色69堂| 欧美综合区自拍亚洲综合天堂| 九九精品在线观看| 五月丁香在线视频| 东京热高清无码精品| 国产美女91呻吟求| 欧美午夜在线播放| 国产91视频免费观看| 亚洲第一色网站| 日韩A级毛片一区二区三区| 免费毛片a| 国产精品熟女亚洲AV麻豆| 麻豆国产原创视频在线播放 | 国产99视频免费精品是看6| 日韩免费中文字幕| 伊人色综合久久天天| 欧美在线综合视频| 在线a视频免费观看| 国产真实乱子伦精品视手机观看 | 国产本道久久一区二区三区| 国产精品偷伦视频免费观看国产| 亚洲无码37.| 97久久精品人人| 国产一级特黄aa级特黄裸毛片 | 日韩精品一区二区三区中文无码 | 91外围女在线观看| 久久人搡人人玩人妻精品一| 2020国产免费久久精品99| 欧美日一级片| 天天综合天天综合| 国产成人免费| 色综合成人| 亚洲自拍另类| 久久精品丝袜高跟鞋| 色综合天天综合中文网| 女人18毛片一级毛片在线 | 新SSS无码手机在线观看| 精品人妻AV区| 国产精鲁鲁网在线视频| 99久久国产综合精品女同|