999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯(lián)圖譜的銀行大數(shù)據(jù)風控體系構(gòu)建研究

2021-07-16 10:07:26張素子
科學技術創(chuàng)新 2021年19期
關鍵詞:關聯(lián)模型

張素子

(興業(yè)消費金融股份公司,上海 200120)

大數(shù)據(jù)風控模型近幾年在信貸業(yè)務中被廣泛應用。傳統(tǒng)的風控模型基本是對借款人個人情況的評估,而較少去評價不同申請人之間的關聯(lián)關系。而信貸業(yè)務中的欺詐團伙經(jīng)常體現(xiàn)出較強的關聯(lián)關系,并伴隨著較強的偽裝手段,使得無法通過簡單的一度關系識別不同客戶是否來自同一群體。關聯(lián)圖譜是一種非常適合信貸業(yè)務反欺詐領域的方法,其識別欺詐客戶的效果較優(yōu),同時又具有技術上的可行性。

1 研究內(nèi)容

本文基于關聯(lián)圖譜的理論和技術,根據(jù)信貸業(yè)務的數(shù)據(jù)特征和業(yè)務要求,研究其在信貸業(yè)務大數(shù)據(jù)風控領域中的實際落地應用方案,包括關聯(lián)圖譜的實體與關系抽取、圖譜構(gòu)建、數(shù)據(jù)存儲等技術,以及基于關聯(lián)圖譜構(gòu)建大數(shù)據(jù)風控提示的具體實踐。

2 關聯(lián)圖譜的理論基礎及關鍵技術

2.1 關聯(lián)圖譜理論

關聯(lián)圖譜的本質(zhì)是語義網(wǎng)絡的一種,是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。關聯(lián)圖譜一般由實體- 關系- 實體的三元組構(gòu)成,這種三元組可以將互相獨立的貸款申請之間關聯(lián)起來,形成復雜而連通的網(wǎng)絡。

圖1 即是關聯(lián)圖譜的一個示例,申請人1、申請人2、申請人4 與公司1 是工作關系,申請人1 和申請人3 是配偶關系。雖然申請人2 和申請人3 并無直接的關聯(lián)關系,但是通過關聯(lián)圖譜可以將兩人聯(lián)系起來。后續(xù)可以通過機器學習的算法識別兩人是否屬于同一群體。

圖1 關聯(lián)圖譜示例

2.2 關鍵技術

2.2.1 實體抽取技術

關聯(lián)圖譜中的實體可以被定義為任何事物。在信貸業(yè)務中,一般可以認為實體是人、設備、IP 地址、公司、地址等,而關系包括從屬關系、聯(lián)系人關系。由于信貸業(yè)務中的實體都較為明確,例如身份號、手機號均可以唯一地識別實體,故信貸業(yè)務中實體抽取較為簡單,可以采用常用的結(jié)構(gòu)化數(shù)據(jù)來提取和標識實體。在實際應用中,選擇身份證號、手機號、地址、公司名來構(gòu)建關聯(lián)圖譜。

值得注意的是在實際應用中,諸如地址、公司名這樣的實體存在數(shù)據(jù)標準化的問題。數(shù)據(jù)標準化問題主要來源于客戶填寫時的方式千奇百怪,如新疆省和新疆維吾爾族自治區(qū)實際是同一省份。數(shù)據(jù)標準化的問題主要采用基于N-gram 和基于HMM的分詞方法對原始數(shù)據(jù)進行分詞后與已有的行政地址劃分庫和公司庫進行比對,可將非標準化的地址和公司映射至標準化的地址和公司名。

對于已知的詞匯,假設隨機變量S 是一個文字序列,隨機變量W 是S 可能的切分路徑。分詞實際上就是求解使條件概率P(W|S)最大的切分路徑W*,即

由于對W 來說S 為已知序列,故P(S|W)為1,P(S)為常數(shù),因此只需要求解P(W)。P(W)使用N-gram 語言模型建模,假設一個詞出現(xiàn)的概率,只與其前n-1 個詞相關。常用的Bi-gram 取n=2,即一個詞出現(xiàn)的概率只與其前一個詞相關:

可以用全切分有向無環(huán)圖(DAG)來畫出簡單句子的所有區(qū)分,并尋找出一條概率最大的路徑。

對于未知的詞匯,使用HMM (隱馬爾克夫模型) 模型,用Viterbi 算法找出最可能出現(xiàn)的隱狀態(tài)序列。

2.2.2 關系抽取技術

信貸業(yè)務中實體之間的關系也較為明確,如聯(lián)系人之間的關系可以是配偶、朋友、親戚等,對于此類關系,可以直接進行提取。

實際應用中,對于地址、公司的關系提取存在一定的集中性問題。如較多客戶填寫同一個工作單位,就不能簡單地把其處理為同事關系,一是因為客戶之間的關系較弱,他們本身認識或者成為同一群體的概率較小;二是圖譜中如有少數(shù)實體有較多關系相連,則群體發(fā)現(xiàn)算法會在這樣的大實體上集中,而忽視小實體之間關聯(lián)關系。信貸反欺詐中實際更關注小實體之間的關聯(lián)關系。故抽取關系的時候必須對集中性關系進行處理。

針對集中性問題,可以結(jié)合實際情況采用刪除和降低權(quán)重處理。

2.2.3 圖譜構(gòu)建技術

在抽取完實體與關系后,可以將所有信息放入連通圖。此時需要使用機器學習模型去將實體切割成不同的子群體,觀察群體內(nèi)部有無明顯的欺詐行為。切分群體的方法主要包括標簽傳播算法、Louvain 算法。

標簽傳播算法為基于圖的半監(jiān)督學習算法,基本思路是從已標記的節(jié)點的標簽信息來預測未標記節(jié)點標簽的信息,經(jīng)過多次迭代使整張圖達到穩(wěn)定,建立完全圖模型。

Louvain 算法是基于模塊度來衡量一個社群的劃分是不是相對比較好的結(jié)果,最終以最大化模塊度為目標,得出最優(yōu)的群體劃分方法。

2.2.4 數(shù)據(jù)存儲技術

關聯(lián)圖譜可以使用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫來存儲數(shù)據(jù),也可以選擇圖數(shù)據(jù)庫。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)可以采用實體- 關系- 實體的結(jié)構(gòu)來存儲數(shù)據(jù),可以將其拼接后進行指標計算,最后對每一個實體進行標注。結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢是邏輯清晰,編碼簡單,劣勢是計算速度較慢。

為了實現(xiàn)社群發(fā)現(xiàn)算法,解決計算量大、計算復雜的問題,采用了Spark 技術。Spark 技術是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,其速度顯著快于需要大量I/O 和CPU 計算的Hadoop的Mapreduce。本項目采用了Spark 的GraphX 組件進行圖數(shù)據(jù)處理和圖運算;采用了Spark Mlib 庫可以加速機器學習模型的運算速度。

同時,為了在建立網(wǎng)絡后分析所發(fā)現(xiàn)群體關聯(lián)情況和欺詐情況,采用了Neo4j 圖數(shù)據(jù)庫做可視化,使用聲明式圖形查詢語言Cypher,它允許用戶不必編寫圖形結(jié)構(gòu)的遍歷代碼,就可以對圖形數(shù)據(jù)進行高效的查詢。

3 基于關聯(lián)圖譜構(gòu)建大數(shù)據(jù)風控體系

3.1 大數(shù)據(jù)風控應用體系搭建

3.1.1 風控平臺搭建

大數(shù)據(jù)風控平臺是一個應用數(shù)據(jù)挖掘、機器學習等算法實現(xiàn)信貸審批、風險管控的集成式系統(tǒng)工具,它由多系統(tǒng)模塊聯(lián)合交互構(gòu)成,核心組成包括信貸審批系統(tǒng)、決策引擎、模型平臺、實驗平臺以及監(jiān)控平臺。

信貸審批系統(tǒng):主要實現(xiàn)三大功能,業(yè)務調(diào)度、流程引擎及審批工作臺。業(yè)務調(diào)度功能實現(xiàn)前端業(yè)務的接入,執(zhí)行不同業(yè)務對應的風控流程,并且對執(zhí)行過程匯總的異常進行監(jiān)控和處理;流程引擎則可實現(xiàn)具體信貸流程的配置管理,例如全自動審批還是人工審批與機器審批相結(jié)合;審批工作臺則是提供給信貸審批人員的操作界面,提供信息展示與審批結(jié)果記錄的功能。

決策引擎:自動化審批測略的部署平臺,承載的是風控業(yè)務的專家知識,基于客戶特征和模型的輸出,對客戶進行分層、風險判斷以及風險定價等操作。

模型平臺:模型實時部署運行平臺,關聯(lián)圖譜的應用均在模型平臺中完成,它可以在實時審批中整合信貸申請信息,提取關鍵特征,完成關聯(lián)圖譜與機器學習模型的結(jié)果預測,是整個在線風控平臺的一大核心。

實驗平臺:可實現(xiàn)離線策略仿真測算、模型搭建的功能。基于Hbase 數(shù)據(jù)庫的大量離線數(shù)據(jù)及算法服務器,進行風控模型挖掘、驗證、策略測算。

監(jiān)控平臺:分為實時運營監(jiān)控及離線定時監(jiān)控兩部分。實時運營監(jiān)控可計算當日實時業(yè)務審批情況,包括進件量、審批結(jié)果、異常申請件情況等,可進行實時的異常情況預警;離線監(jiān)控可按設計,定時生成按日、按周、按月的監(jiān)控報表,監(jiān)控報表基于Tableau 的報表平臺服務框架,底層數(shù)據(jù)管理采用Hive 數(shù)據(jù)倉庫工具。

3.1.2 關聯(lián)圖譜模型挖掘

構(gòu)建關聯(lián)圖譜時,首先需要確定關系有哪些,關系的選取主要根據(jù)專家經(jīng)驗,確定哪些關系可以表現(xiàn)出申請人在行為上的趨同性,同時這些行為上的趨同性對于信貸風險有一定影響,選擇的關系主要包括公司、地址、聯(lián)系人、手機號歸屬地等。確定關系后,將申請人與申請人之間通過不同的關系相連接形成網(wǎng)絡,若采用相同特征構(gòu)建關聯(lián)網(wǎng)絡則稱為同構(gòu)網(wǎng)絡,若采用不同的關聯(lián)特征構(gòu)建網(wǎng)絡則稱為異構(gòu)網(wǎng)絡。

構(gòu)建完網(wǎng)絡后,選擇可以將其中的節(jié)點劃分為社群的算法,社群發(fā)現(xiàn)的相關算法各有優(yōu)劣,需根據(jù)建模需求、樣本情況、開發(fā)時限等因素綜合判斷后選擇。

通過社群發(fā)現(xiàn)算法可將具有關聯(lián)關系的不同申請人標記為同一個群體,隨后需從百萬級的群體中挖掘出欺詐群體。欺詐是一個較為主觀的定義,業(yè)務較為廣泛的定義包括首逾客戶、從未還款客戶、通過人工欺詐調(diào)查得出的欺詐客戶等,定義完欺詐客戶后,需借由欺詐客戶挖掘出欺詐群體,欺詐群體的定義也沒有唯一標準,一般會要求群體中欺詐客戶的樣本點不低于N 人(N>=2)且群體的欺詐率為整體均值的M 倍以上(M>=2)。至此,就完成了基于關聯(lián)圖譜的欺詐團伙發(fā)現(xiàn)模型,后續(xù)可進一步應用圖數(shù)據(jù)庫,可視化欺詐團伙,進一步進行分析及模型優(yōu)化。

3.1.3 關聯(lián)圖譜應用場景實踐

根據(jù)3.1.2 的關聯(lián)圖譜模型的挖掘方法,項目組采用異構(gòu)網(wǎng)絡構(gòu)建關聯(lián)圖譜,應用標簽傳播的社群發(fā)現(xiàn)算法進行群體識別,成功發(fā)現(xiàn)1,179 個3 人及以上的高風險欺詐團伙,欺詐率為均值的4-5 倍。

3.2 落地實施方案

3.2.1 系統(tǒng)架構(gòu)

審批系統(tǒng)作為線上實時審批的流程管控系統(tǒng),串聯(lián)起決策引擎、模型平臺及人工審批平臺;離線實驗平臺則是模型挖掘、規(guī)則分析的主要平臺,復雜的算法模型策略在實驗平臺開發(fā)、驗證,隨后部署至模型平臺或決策引擎平臺;監(jiān)控平臺擔實時業(yè)務、報表統(tǒng)計的功能。主體系統(tǒng)架構(gòu)可詳見圖2。

圖2 風控平臺架構(gòu)

3.2.2 系統(tǒng)關鍵技術特點

整體風控平臺有三大關鍵技術特點。

一是能夠應對大量數(shù)據(jù)處理,實驗平臺采用了Spark 技術,Spark 技術是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,其速度顯著快于需要大量I/O 的CPU 計算的Hadoop 的Mapreduce,同時配置GPU 算法服務器,進一步加快計算效率。關聯(lián)圖譜的運算采用了Spark 的GraphX 組件進行圖數(shù)據(jù)處理和圖運算;采用了Spark Mlib 庫可以加速機器學習模型的計算速度。

二是能夠?qū)δP筒呗赃M行靈活高效的迭代,決策引擎平臺及模型平臺可以支持策略規(guī)則的高效更新上線。決策引擎為可視化操作,支持判斷邏輯的多種組合,流程鏈路的個性化配置,可優(yōu)化策略部署速度;模型平臺可支持更復雜的模型計算,彌補決策引擎的短板。

三是離線及在線系統(tǒng)的交互,可以支持風控策略的對抗升級。信貸申請的攻擊者會不停地進行內(nèi)部規(guī)則的猜測,原本有效的在線策略會隨著這些攻擊出現(xiàn)有效性下降的問題。在線系統(tǒng)可以及時發(fā)現(xiàn)實時的異常情況,反饋業(yè)務人員排查風險;離線數(shù)據(jù)雖然有滯后性,但可以支持大批量的數(shù)據(jù)運算,挖掘出在線系統(tǒng)無法捕捉的異常攻擊,反哺在線策略。

4 研究成果的創(chuàng)新價值及影響

傳統(tǒng)的機器學習模型更關注申請人自身的信貸風險。但在信貸業(yè)務中,人和人之間并不是獨立的,往往存在一定的集中性風險。欺詐中有較大比例的模式為團伙欺詐,需要能夠?qū)⒉煌悇e的特征整合起來,提取它們之間關聯(lián)特征與團伙特征,以識別不同申請人之間的關聯(lián)風險。關聯(lián)圖譜(復雜網(wǎng)絡)是解決上述問題的一種常用且有效的方法。充分發(fā)揮其直觀化、效率化的圖技術優(yōu)勢,在反欺詐方面成效顯著。

本項目的研究成果一是彌補了個體反欺詐的局限性,解決識別個體正常但屬于欺詐團伙的反欺詐防范痛點;二是可以充分整合個體反欺詐模型較難運用的弱特征變量,如手機號歸屬地、居住地等,將多源異構(gòu)的數(shù)據(jù)整合成機器可以理解的知識,將單點信息轉(zhuǎn)化為平面的相互關聯(lián)的圖譜;三是大幅提升了欺詐調(diào)查的效率,傳統(tǒng)的關系型數(shù)據(jù)庫,需要技術人員執(zhí)行一系列的復雜連接才能將關聯(lián)信息提取出來,圖數(shù)據(jù)庫在這方面具有天然的優(yōu)勢,可將欺詐團伙的網(wǎng)絡直接展現(xiàn)。

5 總結(jié)與展望

關聯(lián)圖譜在風控領域的應用是一個復雜的問題,對數(shù)據(jù)來源、系統(tǒng)性能、應用方案有著較高的要求。本文對關聯(lián)圖譜在銀行大數(shù)據(jù)風控體系內(nèi)的應用進行初探,模型效果經(jīng)測算在歷史樣本上效果較好。基于具有可行性的落地方案,成功上線,搭建起基于關聯(lián)圖譜的大數(shù)據(jù)風控體系,完成初版關聯(lián)圖譜模型上線。并持續(xù)運行穩(wěn)健,識別欺詐團伙逾期率約為正常客戶的5倍。當然,本文在這一領域的研究還有很大的上升空間,未來將持續(xù)對算法效果、運行效率進行研究與改進。

猜你喜歡
關聯(lián)模型
一半模型
不懼于新,不困于形——一道函數(shù)“關聯(lián)”題的剖析與拓展
“苦”的關聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
“一帶一路”遞進,關聯(lián)民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产99热| 五月天综合网亚洲综合天堂网| 激情综合婷婷丁香五月尤物| 国产成人一区| 男女性色大片免费网站| 69av免费视频| 一级一毛片a级毛片| 一级一级一片免费| 国产午夜看片| 在线观看国产精品第一区免费| 国产自产视频一区二区三区| 在线视频97| 亚洲视频在线网| 4虎影视国产在线观看精品| 久久久久久久97| 国产喷水视频| 国产真实乱子伦视频播放| 四虎精品国产永久在线观看| 99久久国产自偷自偷免费一区| 国产又大又粗又猛又爽的视频| 一区二区自拍| 精品国产三级在线观看| 日韩福利在线观看| 国产好痛疼轻点好爽的视频| 久久人与动人物A级毛片| 日韩午夜伦| 乱系列中文字幕在线视频| 亚洲日本中文字幕天堂网| 亚洲第一香蕉视频| 日本成人精品视频| 免费无码在线观看| 亚洲福利网址| 亚洲一区黄色| 97se亚洲综合在线天天| 黄色在线不卡| 国产第八页| 亚洲精品制服丝袜二区| 国产一级一级毛片永久| 国产女人在线观看| 国产综合日韩另类一区二区| 国产91视频免费观看| 亚洲无码高清免费视频亚洲| 国产精品第三页在线看| 国产99免费视频| 国产综合无码一区二区色蜜蜜| 国产不卡在线看| 色网在线视频| 国产日韩欧美视频| a亚洲视频| 国产精品成人不卡在线观看| 99国产精品免费观看视频| 强乱中文字幕在线播放不卡| 日a本亚洲中文在线观看| 亚洲欧美天堂网| 欧美成人第一页| 国产欧美视频在线观看| 51国产偷自视频区视频手机观看 | 久热99这里只有精品视频6| 韩日免费小视频| 久久久黄色片| 黄色在线网| 国产18在线| 国产一区免费在线观看| 波多野结衣国产精品| 一级黄色欧美| 99热这里只有精品免费| 亚洲无码高清一区| 国产欧美日韩另类精彩视频| 欧美一级特黄aaaaaa在线看片| 97视频在线精品国自产拍| 欧美成人aⅴ| 1024你懂的国产精品| 国产原创演绎剧情有字幕的| 18禁色诱爆乳网站| 婷婷六月综合| 国产精品永久久久久| 真实国产乱子伦视频| 欧美有码在线| 欧美h在线观看| 午夜日本永久乱码免费播放片| 亚洲色精品国产一区二区三区| 亚洲精品无码av中文字幕|