999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自相似異常判斷模型的數據稽核方法

2016-12-07 02:54:28王崢嶸鄭邦峰吳清茂
電腦與電信 2016年7期
關鍵詞:用戶方法

王崢嶸 鄭邦峰 吳清茂

(中國移動通信集團海南有限公司,海南 海口 570125)

基于自相似異常判斷模型的數據稽核方法

王崢嶸 鄭邦峰 吳清茂

(中國移動通信集團海南有限公司,海南 海口 570125)

通過在數據稽核過程中根據數據自身的相似性來確定正常的數據趨勢,并判斷數據是否存在異常,滿足橫向數據稽核的要求,解決通信業務辦理數據稽核的問題。

數據稽核;自相似;異常

1 前言

隨著各行業對生產數據的完整性、準確性、一致性的要求越來越高,數據稽核的方法和技術應運而生。

目前數據稽核的方法和技術主要有以下兩種:

(1)在數據倉庫中的數據稽核

在ETL(Extract-Transform-Load)中,對相鄰的兩個環節中的數據總量進行驗證,并在總量正確的情況下將數據進行分量分維度驗證。采用在ETL過程中進行稽核的方法,只能對相鄰節點的數據進行比對,即只能進行縱向數據稽核,而無法進行橫向數據稽核,并且不能得到趨勢性的稽核結果。

(2)設定平衡關系式,將全量數據進行關系匹配驗證

采用設定平衡關系式,將全量數據進行關系匹配驗證,發現數據之間的不平衡。該種方法只能稽核到數據存在不平衡,而無法確認正確的數據形態。

上述兩種方法和技術都不能很好地解決通信業務辦理數據稽核的問題,而基于自相似模型的數據稽核系統,可通過在數據稽核過程中根據數據自身的相似性來確定正常的數據趨勢,并判斷數據是否存在異常,滿足橫向數據稽核的要求。

2 定義一種基于自相似模型的數據稽核方法

基于自相似模型的數據稽核方法包括基于不同的時間周期、地域歸屬關系、渠道關系、統計規律的自相似方法。

生產運營的特點決定了在業務辦理數據中,無法正確判斷異常錯誤來源或者不少細小量的業務異常被淹沒在大規模的正常數據中。首先,業務辦理數據存在工作時間和非工作時間的差別。其次,各地市之間的用戶基數的區別,以及各渠道辦理的本身特性,導致其辦理的業務量需要一個復雜的函數進行描述或者無法描述。最后,分類規則的不明晰,導致大量的業務辦理數據混成一團。但是這些特點并不能掩蓋數據真實的關系,數據根據其歸屬關系,以及時間的周期關系等,存在相關的自相似情況。分析這些自相似情況,根據相似度來判斷業務辦理是否有異常。在技術上,我們選用自相關函數。

x和y分別表示兩個時間序列之間和同一個時間序列在任意兩個不同時刻的取值之間的相關程度,即互相關函數是描述隨機信號x(t),y(t)在任意兩個不同時刻t1,t2的取值之間的相關程度。自相關函數是描述隨機信號X(t)在任意兩個不同時刻t1,t2的取值之間的相關程度;互相關函數給出了在頻域內兩個信號是否相關的一個判斷指標,把兩測點之間信號的互譜與各自的自譜聯系了起來。它能用來確定輸出信號有多大程度來自輸入信號,對修正測量中接入噪聲源而產生的誤差非常有效。

根據實際的測算,如果相似度>0.9,我們可以認為是相似的。

3 幾種自相似情況

3.1 基于時間周期的自相似情況

雖然在一天內,存在工作時間非工作時間的區別,也有忙閑時的區別,但是以天作為單位的時候,卻是存在自相似情況。對于業務量較高的日期和業務量較低的日期,之間存在一個差值,但是這種差值分布在每天的各個時間段,在任意時間段是存在一定的比例的。

例:日辦理業務量異常

(1)圖1所示是某月的平均每日24小時內的標準圖像。(系列2:某項業務)

圖1 標準圖形

(2)從圖2中可見,雖然業務量只有平常的3/4,但是從圖形上來講,他們是類似的度,根據上述算法,相似度為0.97148,在可以接受范圍內。(系列2:某項業務)

圖2 符合相似范圍內的示意

(3)從圖3中可見,雖然有一些差距,但是在接受范圍內。中午有一個較小的批量業務高峰,但不至于有根本差別的圖形,其相似度為0.921313。(系列2:某項業務)

圖3 存在批量業務高峰示意

(4)圖4從數值上看沒有問題,但明顯圖形不一樣。從總體業務辦理量來看,辦理的業務差不多,但是分散在各個時間段,但明顯發生了下午6點的業務高峰的情況,這種時候的相似度小于0.9。(系列2:某項業務)

圖4 存在高峰點異常示意

(5)如圖5(系列2:某項業務),從一個整月的圖形看,我們能夠清楚地看出每個周期的一致性,以及其中明顯的異常點。

圖5 月度數據示意

3.2 基于地域歸屬關系的自相似情況

由于各個地市的用戶的基數大小不同,對于一個小的地市而言,其辦理的業務量不及大地市的1/10,但是從分布圖形形狀看,它們是必須一樣的,即應該有同樣的高峰出現時段,同樣的忙閑時段,同樣的業務分布。

圖6 基于地域歸屬關系的自相似情況

從圖6(各個系列代表不同的業務辦理量(取對數,否則圖像較大))可以看出,雖然HNHK(海口)的業務量最大,但是從各個業務來看,他們的分布圖形是一致的。

3.3 基于不同渠道關系的自相似情況

雖然大部分業務可以通過不同渠道辦理,但是同一時段辦理業務的用戶是固定分布的,分布到各個渠道上的概率也是一定的,因此,雖然各個渠道辦理的業務量有差距,但是其圖形應該是相似的。

圖7 基于不同渠道的關系的自相似情況示意

從圖7(圖中系列代表不同的渠道)可以明顯看出,雖然圖像的相似有一些差距,但是基本上按照一定的規律發展,但是系列2明顯有不同,經過分析得知,在此過程,系列2對應的相關應用有異常,10點開始急劇下降,在15點恢復后進行業務補足處理,因此有一個高峰。

表1 相似度數據匯總

3.4 基于統計規律的異常業務數據判斷

在一個存在大規模用戶基數和純隨機發生的業務中(如通話量、短信量等),其數據的分布在統計意義上是滿足一定的概率分布的,但是如果需要找出在通話過程中,在短信發送量、數據流量上找出可能的異常或者涉嫌欺詐的行為,則必須要通過經營分析,仔細判別隨機業務中可能存在的幾十或者上百個變量的關系,費時費力。

為此我們采用了另外一種簡單有效的方式來進行判斷,由于業務的分布必定滿足一個在[0,max]范圍內的某一個概率分布,而我們常見的分布一般來講是“平滑”的(數學意義上的連續可導),如果在真實數據上發現有“毛刺”數據,則發生“毛刺”的地方則就可能是存在業務異常的地方。

在程序計算時,考慮簡化算法,采用“斜率連續急劇變化”作為存在“毛刺”的判斷。

(1)某一點斜率小于某固定值或者和前一點斜率差別較大,說明此時圖形存在一個劇烈的上升和下降的趨勢。

(2)下一點的斜率和上一點斜率的乘積<0,說明在此點處發生劇烈變化,從上升趨勢直接降低到下降趨勢。

根據上述兩點,則可以理解為在此點的數據為一個“毛刺”點,可以將此點挑出并預警。

例:垃圾短信量的確定

為了確定用戶是否存在發送垃圾短信的行為,單純找出短信發送量最大的用戶可能不準確,因為在隨機情況下,可能也有正常存在的發送短信量較多的用戶,因此需要確定垃圾短信的范圍,從而根據這些范圍找出相關的垃圾短信嫌疑用戶。可以利用該種方法得到相關的垃圾短信用戶,如圖8所示。

圖8 基于統計規律的異常業務數據判斷示例

4 結束語

數據稽核作為一種事后處理的機制在各行業的生產運營工作中得到廣泛應用,越來越多的生產活動、管理決策依賴于高質量的生產數據。基于自相似模型的數據稽核方法是對不同客戶辦理通信業務的行為在不同空間、時間及維度的相似性進行分析,根據分析結果確定業務辦理數據是否存在異常,明確數據異常趨勢是數據稽核的有效方法。

[1]顏超亞.電信計費數據稽核系統的設計和實現[D].重慶:重慶大學,2009.

[2]QB-Y-033-2012,NGBOSS2-CRM(V4.0)業務規范[S].

[3]QB-Y-034-2012,NGBOSS2-CRM(V4.0)技術規范[S].

[4]QB-Y-029-2012,NGBOSS2-BOSS(V4.0)業務規范[S].

[5]QB-Y-030-2012,NGBOSS2-BOSS(V4.0)技術規范[S].Data Auditing Method Based on Self Similar Anomaly Judgment Model

Wang Zhengrong Zheng Bangfeng Wu Qingmao
(China Mobile Communication Group Hainan Co.,Ltd.,Haikou 570125,Hainan)

In the data auditing process,the trend of the normal data is determined according to the data similarity,and the abnormal data is judged,meeting the requirements of the horizontal data audit,and solving the problem of data audit in the communication business.

data audit;self similar;anomaly

TP3-0

B

1008-6609(2016)07-0105-03

王崢嶸,女,海南人,本科,助力工程師,研究方向:業務支撐系統規劃,應用系統開發。

猜你喜歡
用戶方法
學習方法
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 欧美国产日韩在线| AV天堂资源福利在线观看| 91小视频在线观看免费版高清| 中文字幕永久视频| 中文字幕久久亚洲一区| 国产色婷婷| 欧日韩在线不卡视频| 国产色伊人| 久久精品电影| 亚洲第一极品精品无码| www.99在线观看| 4虎影视国产在线观看精品| 国产探花在线视频| 成色7777精品在线| 2021国产v亚洲v天堂无码| 国产sm重味一区二区三区| 欧美高清三区| 亚洲日韩日本中文在线| lhav亚洲精品| 久久中文字幕2021精品| 亚洲二区视频| 国产免费黄| 国产麻豆精品手机在线观看| 亚洲视频一区| 国产精品视频系列专区| 在线五月婷婷| 日本道综合一本久久久88| 精品人妻无码中字系列| 色呦呦手机在线精品| 国产精品太粉嫩高中在线观看| 亚洲人成亚洲精品| 精品人妻一区二区三区蜜桃AⅤ | 免费激情网址| 亚洲精品另类| 综合色天天| 色亚洲激情综合精品无码视频 | 色AV色 综合网站| 少妇人妻无码首页| 99精品国产自在现线观看| 国产精品美女在线| 91美女视频在线| 激情乱人伦| 一级一级特黄女人精品毛片| 欧洲av毛片| 奇米精品一区二区三区在线观看| 久久美女精品国产精品亚洲| 国产亚洲欧美在线人成aaaa| 成人国产精品一级毛片天堂| 成人精品午夜福利在线播放| 波多野结衣视频网站| 麻豆国产精品一二三在线观看| 国产黄在线观看| 久久精品国产在热久久2019| 亚洲国产一区在线观看| 久久久精品无码一区二区三区| 亚洲欧美日韩中文字幕在线| 午夜国产在线观看| 538国产在线| 91啦中文字幕| 亚洲成人免费看| 日韩在线欧美在线| 国内精品视频| 青青草原国产| 狠狠色丁婷婷综合久久| 日韩高清一区 | 9cao视频精品| 高清无码不卡视频| 色婷婷成人| 日韩欧美一区在线观看| 国产成人喷潮在线观看| 美女被操黄色视频网站| 欧美日本在线播放| 午夜免费视频网站| 青青久久91| 九九这里只有精品视频| 第九色区aⅴ天堂久久香| 国产乱子伦视频在线播放| 亚洲第一区在线| 中文字幕在线日本| 国产日韩精品一区在线不卡| 亚洲第一区在线| 国产精品免费电影|