黃培哲
長江大學(電子信息學院),湖北 荊州 434000
隨著社會復雜程度的增加,出現的問題也呈現較為復雜的趨勢,這些復雜的問題雖然各不相同,但是其本質都是復雜系統相互影響下出現的問題,而交易網絡中存在的問題是典型的小世界和無標度特性的復雜網絡問題。目前針對此類問題的研究通常采用以網絡拓撲結構為基礎的鏈路預測方法,該方法的研究起源較早,在不斷的發展中,其理論逐漸完善,改進了復雜程度和預測可靠性。因此,研究基于交易模型的鏈路預測理論和技術對于提高相關部門的業務服務能力有著重要意義。
鏈路預測是依據現有互聯網的信息預測網絡中并沒有出現的相連節點以及節點間可能出現相連的概率。簡單來說,鏈路預測的目標是預測在互聯網上還沒有形成鏈路的連接點之間形成鏈路的可能性[1]。優秀的鏈路預測算法可以更好地剖析互聯網的網絡拓撲結構;此外,鏈路預測有較大的實際意義,如蛋白質互交試驗、道路運輸中的關鍵核心區等[2]。本文詳細介紹了鏈路預測的問題描述、優化算法的評價指標體系以及一些精選的預測算法[3]。
圖1是整體鏈路預測全過程的演示。圖1(a)是包括5個連接點、10條邊的全集網;圖1(b)是一個包括5個連接點、5條邊的網絡;在5個邊中挑選已經知道的3邊作為訓練集,如圖1(c)所示;將余下的2邊作為檢測集,如圖1(d)所示。最先得出圖1(b)的訓練集、檢測集及其鏈路預測算法,從而測算檢測集和不存在的邊沿的值。

圖1 鏈路預測劃分
性能指標包含AUC、“精密度”(Precision)、“排行”(RankingScore)。不一樣的評價體系對鏈接預測優化算法的精密度有不一樣的測量法。其中AUC是全部精密測量優化計算方法的精密度,是最常用的精確測量指標。Precision指標只考慮到前l位邊沿預測是否正確,而RankingScore則是用來考慮預測邊的排行[4]。
鏈接預測優化算法可分為三類:依據一部分信息的相似度指標、沿途徑的相似度指標、任意挪動的相似度指標。為了更好地運用依據一部分信息的鏈接預測優化算法,文中介紹了該方法的傳統式優化算法[5]。
交易互聯網的模型是由交易互聯網的普通賬戶和金融行業、大中小型精英團隊進行交易,從而聯絡在一起的。交易互聯網不僅有社交媒體的一般特性,也有即時互聯網的特性,這種出現在不同小區中間的交易服務平臺是十分常見的社會網絡。通過剖析各種交易互聯網的特性,能夠發現七層協議的不確定因素和預測構造中未生成的邊沿。數據格式特性的關鍵與數據格式七層協議的數據分析特性[6]有關,即度遍布、聚類算法指數和均值途徑長短。每一個賬戶產生交易的時長、地址、交易的額度、種類都不一樣,根據統計分析獲取交易種類信息,區別每一個銀行賬戶的交易習慣,每一個顧客可以使用不一樣的商業模式。除此之外,根據統計分析賬戶中的交易,能夠了解各交易點的每日、每月任務量,能夠了解關鍵交易的業務類型,還能夠預測每日或每月的交易額,進而防止提款額度不夠等突發情況。綜合以上幾個方面,預測實際效果會更強,但與此同時,好幾個層次的信息重合,預測的困難和多元性也會進一步提高。
在配備的交易網絡中,交易節點具備個性化的特點[7]。個別差異具體表現在這種交易的節點有自身的互聯網測量標準,如工程圖和粒度分布。根據靜態數據聚類分析,節點的總事務處理數表示節點的正中間事務處理數量,各節點進出水平差距很大。在網絡中,交易節點與別的節點產生聯絡的邊沿,在另一個視角開展交易時,接納交易的節點和產生交易的節點都和別的節點存在著內在聯系。比如,經營規模很大的互聯網節點與一般賬號開展交易,這種節點與一些關鍵交易也可能發生規模性交易。
不同團體之間的交易產生了繁雜的交易互聯網,這類交易互聯網不但具備精英團隊的特性,而且具備數據格式互聯網的特性。更重要的是,隨著時間的推移,這類交易節點會逐步產生和消退,賬號經營者或賬號在一段時間內經常交易,但在下一段時間內交易將完畢。在未來的一段時間內,從一開始就與別的節點逐漸展開交易,將隨著時間變化的互聯網當作一系列的時間序列模型互聯網,此時剖析每個時長架構里的互聯網和不同時間架構里的互聯網特性就顯得尤為重要[8]。
互聯網中的節點水平是代表一個節點到另外一個節點的線程數最形象化的數據統計,簡單統計分析不可以多方位發掘互聯網的潛在特性。互聯網節點的收斂性指數值表示節點與鄰近節點連接的總流量,說明節點與鄰近節點建立了關鍵的連接關系,在網絡配置中處在重要位置。因而,簡單數據統計無法找到互聯網的潛在性信息。剖析網絡架構必須更多的是統計分析特性[9]。
交易網絡銜接和事務管理工作頻率,互聯網的靜態數據構造能夠全方位表明互聯網的各種各樣特性,但靜態數據統計分析不可以很好地發掘網絡架構的潛在性特性[10]。比如,網絡中節點的度和節點的集群指數能夠表明節點和周邊節點連接的相對密度,但不可以表明由很多節點構成的小區或組的特性,社區示意圖如圖2所示。此外,針對網絡拓撲結構,這種統計分析特點不可以很好地說明其在網絡架構中的功效。

圖2 社區示意圖
在交易網絡中,社區的發生、提升和消退對金融機構有指導作用。比如,金融機構的政策實施可以使網絡上的交易更加頻繁,剖析網絡上這種交易的小區狀況,以說明政策實施是否可行。然而,也有一些潛在性的轉變無法從靜態數據網絡的特性中清楚地表現出來。網絡交易模型如圖3所示。

圖3 網絡交易模型
金融業的交易數據是指2個賬戶或賬號之間的交易,這類交易十分即時且具有可重復性。互聯網的體制是按照已知的交易情況來預測分析可能發生的交易,這對一部分金融業自身的推薦系統有著十分重要的意義。不僅要掌握網絡架構中模塊構造的演化,也需要熱衷將來獨立節點交易的發展。這種節點在互聯網交易中占據較大比例,針對信貸業務,能夠把握這種節點的交易狀況,設計開發潛在用戶,依據顧客交易喜好提出意見。在設計算法時,需要考慮網絡中各節點的活動方案和重要性指標,不但要考慮單獨節點的差別,還要考慮網絡中別的節點和節點的特性。銀行可以依據指標值與各個顧客開展交易,并完成對用戶的智能推薦。因此,根據已知的網絡構造預測可能發生的交易是非常重要的。
3.1.1 數據集來源及提取
事務管理的信息特性字段名有87個,所選擇的三個關鍵字段名能夠比較詳細地組成交易網絡。與時鐘頻率網絡剖析不一樣,預測優化算法不需要時間幀網絡構造,但必須獲得基本上網絡信息內容。圖4顯示了統計分析解決后的一些金融機構的網絡事務管理數據。

圖4 統計后的部分銀行網絡交易數據集
3.1.2 異常數據處理
交易事務管理數據信息中的異常數據關鍵來源于數據的2個事務管理節點之一,表示為null值。只有一個節點是幅值,緣故有可能是交易記錄異常,或是銀行數據有特殊意義。對這類數據信息有兩種處理方法。①以特定的特殊符號表明含有異常的事務管理賬號,這樣就不容易徹底遺失這種數據信息。解決后,全部數據都合理。在日后的網絡操作流程中,只需標識特殊符號。可是試驗發覺,這類出現異常節點的數目過多,假如單獨標識符表明為特殊符號,則會根據這一獨特節點產生一個極大的單獨小區組。該節點近視度數高,加上唯一的節點會對網絡架構造成重大影響。此外,預測優化計算方法對這類節點相對很敏感,一般情況下也會預測這一節點,但這種節點沒有意義,還會對我們的預測優化計算方法導致一定的影響。②馬上放棄清除節點。那樣會致使一部分節點的交易信息遺失,但數據信息自身的交易量比較大,清除該類一部分的相應占比比較小。因而,在數據預處理中能夠忽視這類清除。
3.1.3 網絡中孤立節點對的處理
從生產加工解決的業務流程數據信息中取得的網絡結構節點,這種節點有許多獨立的節點對,是互相連接的節點。這種節點可以是發生在互聯網貨架上的節點,也可以是以前沒有發生過的互聯網節點,或是之前只發生過一次買賣、以后不會發生,一直處在不激活的狀態。因為獨立節點并沒有到網絡中連接別的節點,因而沒法預測別的網絡結構中的這種節點。在網絡教學期內,優化計算方法不易處理這類節點,但會作為預測的一部分展示出這類節點,在實行鏈接預測時忽視這類獨立的節點對。第一部分應用6個月的交易數據信息作為解決問題后學習培訓的網絡構造;第二部分是文化教育網絡應用的數據,文中選擇了文化教育網絡2個月的交易數據信息;第三部分選擇一個月的交易數據信息,用檢測優化算法連接預測精確度。將這三個部分的信息集中化,并事先刪除異常節點。
(1)時效性。數據信息的交易在時間上是間歇性的。換句話說,一段時間里的交易頻次不一樣,交易量也不一樣。在大樣本中,組成網絡的節點(即賬號)與別的節點的連接事務管理會伴隨時間的推移而積累。網絡上有連接的2個節點或賬號之間在指定時間內產生連接,但在接下來的很長時間內沒有交易。在全部網絡中,這一節點依然顯示連接狀態。這為預測節點相互連接的優化算法提供了更高的差錯率。
(2)重復性。可重復性是指賬戶相互間的多種交易,每一個期內都可以反復交易。此外,網絡中的一些節點或賬號在交易中起著重要作用。比如,一些金融機構很有可能與別的很多網絡一起產生關鍵網絡,而別的網絡節點很有可能與這種反復的交易相關。在目前現有網絡預測中,大部分分析全是依據已取得的網絡構造預測未連接的節點。因此,在金融機構交易中,根據已連接的鏈接進行預測比未連接的鏈接之間進行預測更有意義。
首先,基本解決6個月的交易數據信息,獲得主要的網絡結構。此時獲得的網絡結構中包括很多單獨的節點對,這些單獨的節點對會對優化計算方法產生一定的影響。然后,將9個月的信息內容分成三個部分。第一部分必須是六個月的數據信息,把這六個月的交易數據信息引進數據分析互聯網。在該網絡中,節點代表著賬戶,節點中間的電極連接線表示交易的產生,權重值表示之前的交易工作頻率。
在具體網絡中,因為大家獲得的數據信息比較有限,換句話說就是大家獲得的網絡不完整,因此有許多非主題活動節點,其中節點1與節點2發生過一次交易。節點1的隔壁鄰居節點僅有節點2,節點2的隔壁鄰居節點僅有節點1。在節點1和節點2中間配備節點對,于是在網絡上得到了一對孤獨的節點,這種非主題活動節點會影響到我們的預測導出。因而,在具體網絡中需要刪掉這種節點。這是由于初始網絡構造不完整導致的,因此要先縮小獲得的網絡。
在網絡構造中,2個節點越類似,節點中間的銜接就越大。具體網絡中對類似的定義各種各樣,大致是根據節點的一同隔壁鄰居,即“相似度”(Similarity)。相似度關鍵是根據網絡中的節點,依據周邊節點的卡扣結構進行分析。比如,在好朋友網絡中,針對節點1,節點2是節點1的好朋友,節點2也是節點3的好朋友,那么節點1和節點3的結構類型有一定的相關性。因而,節點1和節點3也很可能成為朋友。這在大部分群集指數高的網絡中,預測的精確度非常高。
針對Markov鏈或樸素貝葉斯網絡等傳統的深度學習統計方式,應用節點的特性和節點與節點之間的強關聯性進行分析,這種計算方法在一些情況下十分精準。可是,這種網絡實體模型的主要參數很多、測算多元性很高。反過來,根據構造相似度的優化算法,僅使用周邊節點的構造特點進行分析,其特點是測算復雜性低、計算過程簡易。在具體網絡運用中,有時候能夠達到與機器學習算法方式同樣的準確度。充分考慮測算的便捷性,根據構造相似度的測算方法使用較為普遍。
交易網絡與別的網絡類似,預測優化算法關鍵是運用構造相似度優化算法。假如網絡中的一個節點與另一個節點的相似性很高,則2個節點之間的連接概率也很高。這代表著網絡中一些金融業已經連接的節點可能會在鄰近節點之間產生交易。與此同時,連接的節點比別的節點更容易產生事務管理。
本文對鏈路預測的概念及研究進行了概述,在此基礎上介紹了目前已有的鏈路預測算法以及評價指標,在傳統鏈路預測的基礎上,設計了一種基于交易網絡模型的新型鏈路預測算法,并對所設計的預測算法進行了詳細闡述,結果與現有的其他算法相比,本文提出的預測方法的預測精度更高。