許經偉,李公平,王文學,余 娜,涂賀元
(中國電信股份有限公司安徽分公司,合肥 230000)
對于電信運營商來講,大數據時代中充滿了機遇。特別是如今,對于電信運營商來講,從運營商業務模式轉向為數據資產運營商已經成為了一種必然的發展趨勢。特別是典型運營商所擁有的海量行為數據,使得其擁有者突出的數據優勢。在這個優勢之上,電信運營商可以通過各種大數據技術來打造電信大數據能力開放平臺。這樣電信運營商不僅僅是能夠實現精準化、個性化的營銷服務,還能夠為企業的經營管理提供幫助。2018年,安徽電信將大數據風險管理作為企業管理創新的抓手,通過數據匯聚、數據建模、機器學習、風險識別、派單管控建立了一套完成的大數據風險管理系統與流程,發現了企業經營管理過程中大量的風險問題,挽回大量的損失。
隨著移動互聯網的快速發展,越來越多的用戶和代理商享受到線上業務的便利。然而系統運營在開放式的互聯網環境中,所面臨的風險來自各方面。薅羊毛、惡意訂單、營銷欺詐、腳本訪問等惡意欺詐行為既對活動推廣和業務運行造成惡劣影響,也對公司的資金安全構成巨大風險。
安徽電信很早就已開展內部業務稽核方面的工作,包括業務稽核、審計集市、固化方式、金庫系統,但離高水平的業務風險管理還有不小差距。差距主要體現在兩方面:一是尚未在公司層面建立起對風險統一管理的流程、框架、策略。二是目前的風險管理不成熟及風險覆蓋范圍不足,主要依靠傳統風控手段靠經驗、分段稽核,缺乏全流程全視角的風控管理,對非業務類、流程類風險,識別滯后,未能有效防范風險發生。
通過大數據風控工作逐步實踐,建立完善業務風險防護系統,建立健全風控制度,形成完整體系。
大數據風控是通過業務風控風險識別技術算法,對一線人員、外部客戶、技術人員的業務行為進行分析建立風險模型,根據風險模型設定風險規則,快速識別業務風險,并且對業務行為的歷史數據建立通過機器學習的方法勾勒風險畫像,將日常業務行為和風險畫像進行比對,通過K-means 算法聚類出異常點并對有差異性的行為進行風險分析,通過持續迭代過程不斷發現業務風險。
同時將風險清單,進行派單管控,派單后續反饋跟蹤、效果評估,進一步提高對風險原因與風險處理成效等情況的掌控,更加準確地定義和掌握各類風險的危害程度和變化趨勢。
逐步建立包含風險額度評估、風險指數評估、派單處理評估和風險處理成效評估及決策支撐體系,實現業務風險現狀可視化展現,為領導決策提供數據支撐。
逐步完善風險案例知識庫,提煉各類典型風險案例,實現面向省市公司風險知識共享。
大數據風控重點完成風險識別和風險應對,主要是解決風險識別和通過相關系統實現風險派單和反饋,具體完成下列功能模塊實施:
(1)完善風險視圖,支持按日、按小時的展現,也支持風險的派單和評估。子菜單功能包括風險識別情況、風險派單情況、風險應對情況、風險庫情況可視化展現。

圖1 風險視圖
(2)建立風險庫,能夠對風險點和風險場景進行定義,目前已完成已有風險庫和為安徽電信三種監控對象(代理商、用戶、技術人員)特殊定義的風險點案例錄入。
(3)大數據平臺進行風險數據加工:即風險數據的采集、抽取、清洗、轉換和存儲。支持采用非監督算法進行數據的分類,采用監督算法進行模型的適配。支持采用統計學算法進行數據指標的采集和計算,支持各種基于規則的數據采集、計算方法,以形成代理商、用戶、技術人員的模型。
(4)形成閉環風險管控流程,對識別的風險規則固化,產生風險清單,進行清單級派單,跟蹤和優化,對風險的應對處理進行驗證、效果評估,提煉各類典型風險案例,共享各類風險知識。實現風險信息管理,風險知識的一點共享,確保風險及時發現、解決。
近年來,武漢商學院就教風的建設采取了多樣化的措施。比如采取“新進教師助教制度”,用“以老帶新”的方式傳承教學技藝和教學方法;開展教學質量月活動,通過微課比賽、教案比賽促進教學質量的提高;在教學環節上,對課堂提出高標準、對教學質量提出嚴要求;在科研上,加大力度獎勵做出了突出貢獻的老師等等。

圖2 智慧風控流程圖
(5)按月輸出風險分析報告,對風險管理活動進行記錄,描述風險分析的過程,為業務活動和業務安全性評估提供相關依據,同時對風險模型迭代優化、梳理業務場景進行建模分析提供支持。
(6)輸出風險模型,持續跟蹤:結合特定的業務場景,選擇合適的分析方法建設規則模型和機器學習模型,主要分為三類:
第一,面向一線人員:代理商風控模型,基于代理商的繳費、業務辦理日志進行聚類分析,輸出異常代理商行為;異常用戶發展分析模型,對發展的用戶的進行收入、活躍度、業務使用等數據進行關聯分析,輸出異常發展用戶。
第二,面向外部客戶:增量用戶價值模型,對用戶業務訂購、使用、繳費進行用戶價值分類預測,輸出用戶價值分檔;反欺詐模型,根據歷史欺詐號碼的特征行為,進行建模分析,輸出疑似欺詐號碼清單。
第三,面向技術人員:基于技術人員的業務風險模型,對技術人員使用本網業務情況、生產系統操作數據進行關聯分析,輸出異常行為數據。
通過項目實施,總結出來“四步法”,建立起風險識別與處理的閉環管理:
(1)數據建模:風險數據的采集、抽取、清洗、轉換和存儲。采用非監督算法進行數據的分類,采用監督算法進行模型的適配。采用統計學算法進行數據指標的采集和計算,實現各種基于規則的數據采集、計算方法,以形成風險模型。
(2)風險識別:通過感知、判斷或歸類的方式對現實的和潛在的風險性質進行鑒別的過程。風險識別是風險管理的第一步,也是風險管理的基礎。
(4)整改防范:對風險進行定級評級,建立風險視圖持續展示、預警各風險點發生情況;通過派單確認后固化風險模型,運營穩定后納入日常稽核流程進行整改。
項目實施過程中使用的大量的機器學習算法,針對不同的場景,通過無監督算法做初步篩選,有監督算法進行深度分析的模式建設9個風險分析模型,識別12類風險場景,發現多起業務操作違規問題,挽回直接經濟損失近600萬,算法使用建議如下:
4.2.1 無監督學習算法
(1)Kmeans 聚類算法:是一種基于樣本間相似性度量的間接聚類方法,算法以k 為參數,把n 個對象分為k 個簇,以使簇內具有較高的相似度,而且簇間的相似度較低。是一種較典型的逐點修改迭代的動態聚類算法,其要點是以誤差平方和為準則函數。缺點在于不同的劃分個數和不同的初始點的選取將導致不同的結果,所以算法結果難以比較。
(2)DBSCAN 聚類算法:核心概念是core samples,指位于高密度區域的樣本。算法將聚類視為被低密度區域分隔的高密度區域。DBSCAN 發現的聚類可以是任何形狀的,與假設聚類是convex shaped 的K-means 相反。缺點在于DBSCAN 對用戶定義的參數很敏感,細微的不同都可能導致差別很大的結果,而參數的選擇無規律可循,只能靠經驗確定。
(3)孤立森林算法:它是一個基于Ensemble 的快速異常檢測方法,具有線性時間復雜度和高精準度,是符合大數據處理要求的state-of-the-art 算法。iForest 是一種適用于連續數據的無監督異常檢測方法,即不需要有標記的樣本來訓練,但特征需要是連續的。對于如何查找哪些點容易被孤立(isolated),iForest 使用了一套非常高效的策略。在孤立森林中,遞歸地隨機分割數據集,直到所有的樣本點都是孤立的。在這種隨機分割的策略下,異常點通常具有較短的路徑。直觀上來講,那些密度很高的簇是需要被切很多次才能被孤立,但是那些密度很低的點很容易就可以被孤立。缺點在于iForest 對于特別高維的數據不適用(因為每一次對數據空間進行切割都是隨機選取的一個維度,當建完樹之后仍然會有大量的維度信息得不到使用,這就使得算法的可靠性得不到保障。同時高維度空間還有可能存在有大量的噪音維度或者是無關維度,會對樹的構建產生影響),此外iForest 僅對全局稀疏點敏感,不擅長處理局部的相對稀疏點。
4.2.2 有監督學習算法
(1)決策樹算法(decisiontree):它是一種典型的分類算法,在分類問題中,表示基于特征對實例進行分類的過程。它可以認為是if-then 規則的集合,也可以認為是定義在特征空間與類空間上的條件概率分布,其主要優點是模型具有可讀性、分類速度快。學習時,利用訓練數據根據損失函數最小化的原則建立決策樹模型;預測時,對新的數據利用決策樹模型進行分類。
(2)Logistic 回歸:它是一種分類方法,用于二分類領域,可以得出概率值,適用于根據分類概率排名的領域,如搜索排名等。Logistic 回歸的擴展softmax 可以應用于多分類領域,如手寫字識別等。其優點是計算代價不高,易于理解和實現;缺點是容易產生欠擬合且分類精度不高。