999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向區(qū)塊鏈平臺(tái)的龐氏騙局模式檢測(cè)方法

2022-05-30 04:29:40毛典輝梁秀霞郝治昊
關(guān)鍵詞:分類(lèi)特征智能

毛典輝,梁秀霞,趙 爽,郝治昊

(北京工商大學(xué) 計(jì)算機(jī)學(xué)院,北京 100048)

1 概 述

2008年,中本聰發(fā)表了《Bitcoin: A Peer-to-Peer Electronic Cash System》[1]一文,討論了一個(gè)電子現(xiàn)金系統(tǒng),它是以區(qū)塊鏈[2-3]為底層架構(gòu)的虛擬貨幣平臺(tái),由此奠定了區(qū)塊鏈技術(shù)發(fā)展的基礎(chǔ)。由于區(qū)塊鏈具有不依賴(lài)于第三方管理機(jī)構(gòu),可通過(guò)分布式進(jìn)行數(shù)據(jù)的核算和存儲(chǔ),具有去中心化、不可篡改、可追溯和匿名性等特點(diǎn),為區(qū)塊鏈奠定了堅(jiān)實(shí)的“信任”基礎(chǔ)。正是由于去中心化特性,區(qū)塊鏈技術(shù)游走于法律灰色地帶,缺乏有關(guān)部門(mén)的監(jiān)管;匿名性隱藏了用戶(hù)的真實(shí)身份,更是增加了區(qū)塊鏈監(jiān)管難度。因此,各種詐騙組織借助區(qū)塊鏈技術(shù)[4]大肆進(jìn)行金融犯罪,如洗錢(qián)[5]、釣魚(yú)網(wǎng)址[6-7]和龐氏騙局[8]等。根據(jù)加密分析專(zhuān)家Chainalysis的最新報(bào)告[9],以區(qū)塊鏈作為底層技術(shù)的以太坊平臺(tái)(ETH)是深受歡迎的二代區(qū)塊鏈,已經(jīng)成為區(qū)塊鏈詐騙的首選加密平臺(tái)。因此,加強(qiáng)對(duì)以太坊為代表的區(qū)塊鏈平臺(tái)的金融詐騙監(jiān)管迫在眉睫。

基于智能合約[10-11]的以太坊詐騙又稱(chēng)為智能龐氏騙局。在龐氏騙局持續(xù)過(guò)程中,隨著投資者的加入,合約將獲得的投資優(yōu)先返還最先加入的人,后續(xù)投資者無(wú)法獲得回報(bào)而失去他們的投資。前者和后者使用相同的投資金額卻沒(méi)有相同金額的回報(bào),這是極其不公平的。顯然,這種合約給大多數(shù)后來(lái)者造成了損失,騙取了大量的財(cái)富。

對(duì)龐氏騙局智能合約進(jìn)行監(jiān)測(cè)時(shí)面臨了以下挑戰(zhàn):(1)在特征提取方面,要求提取貼近詐騙本質(zhì)的特征,使龐氏騙局能夠具有更好的區(qū)分度;(2)在檢測(cè)分類(lèi)方面,要求能夠提出減小目標(biāo)泄漏導(dǎo)致的預(yù)測(cè)偏移問(wèn)題,提高分類(lèi)準(zhǔn)確率的算法。

針對(duì)上述挑戰(zhàn),該文設(shè)計(jì)了一種基于智能合約混合特征的龐氏騙局檢測(cè)算法,提取交易主體間符合龐氏騙局中回報(bào)不公平的金字塔形式交易特征和能夠區(qū)分龐氏騙局的智能合約操作碼特征,并采用Catboost集成學(xué)習(xí)[12]的分類(lèi)算法解決算法訓(xùn)練過(guò)程中的梯度偏差以及預(yù)測(cè)偏移問(wèn)題。

2 技術(shù)方案

首先從Etherscan.io爬取智能合約相關(guān)交易及合約代碼,從交易記錄中可獲得合約賬戶(hù)得到投資的具體金額和時(shí)間戳,以及在回報(bào)分配上的比例,統(tǒng)計(jì)相關(guān)信息得到交易特征。由于智能合約以字節(jié)碼的形式保存于以太坊平臺(tái),該文通過(guò)反匯編將字節(jié)碼轉(zhuǎn)換為操作碼,利用改進(jìn)的TF-IDF[13]獲取合約的代碼特征。將交易特征和代碼特征結(jié)合成混合特征向量,進(jìn)入由若干個(gè)弱分類(lèi)器組成的Catboost[14]集成學(xué)習(xí),得到龐氏騙局分類(lèi)訓(xùn)練模型,最終實(shí)現(xiàn)對(duì)新交易合約的預(yù)測(cè)。因此,設(shè)計(jì)的龐氏騙局智能合約檢測(cè)算法技術(shù)路線如圖1所示。

圖1 整體技術(shù)流程

2.1 交易特征

為吸引更多投資者的加入,前期的龐氏騙局賬戶(hù)頻繁與投資者互動(dòng),互動(dòng)形式表現(xiàn)為給前期投資者返還回報(bào)利息。因此,龐氏騙局的賬戶(hù)余額通常保持在較低水平,而展現(xiàn)在投資者面前的則是一個(gè)守信的合約賬戶(hù),它能夠時(shí)常給投資者返還回報(bào)利息,并且保證所有的投資者都能夠獲得應(yīng)得的回報(bào)。因此,以下交易特征對(duì)分類(lèi)效果有很好的作用:

活躍度:記錄智能合約賬戶(hù)與外部賬戶(hù)(即投資者賬戶(hù))頻繁交易的特點(diǎn)。

賬戶(hù)余額:智能合約賬戶(hù)余額。

投資交易數(shù):對(duì)智能合約進(jìn)行投資交易的次數(shù)。

返利交易數(shù):從智能合約獲取返利交易的次數(shù)。

返利者比率:返利者占投資者的百分比。

最大返利次數(shù):參與者獲得返利的最大次數(shù)。

通過(guò)觀察交易記錄,發(fā)現(xiàn)在龐氏騙局中,大部分的投資進(jìn)入合約創(chuàng)建者的口袋,而使得回報(bào)總返利金額遠(yuǎn)低于總投資金額。完整詐騙過(guò)程中,在所有投資者獲得回報(bào)之前龐氏騙局便宣告破產(chǎn),使得多數(shù)遲到的投資者得不到回報(bào)。此外,獲得回報(bào)的投資者,其回報(bào)利息的高低也受投資時(shí)間影響,使得回報(bào)差異呈現(xiàn)出一個(gè)高水平。基于此,提取了可結(jié)合投資與回報(bào)相關(guān)特點(diǎn)的特征,如下:

總投資額:智能合約賬戶(hù)獲得的投資總額。

總返利額:智能合約賬戶(hù)指出的返利總額(詐騙者需要從合約中獲取利益。大部分龐氏騙局不會(huì)將全部投資作為返利返回給參與者,而是將一部分投資作為手續(xù)費(fèi)返利給合約創(chuàng)建者,因此可以看到龐氏騙局中回報(bào)交易的金額高于投資金額)。

總投資人:進(jìn)行投資的地址賬戶(hù)數(shù)。

總返利人:獲得回報(bào)的地址賬戶(hù)數(shù)(并不是所以投資者都可以獲得相應(yīng)的回報(bào)。所以,獲得返利的賬戶(hù)地址會(huì)少于投資賬戶(hù)地址)。

返利標(biāo)準(zhǔn)差:智能合約賬戶(hù)返利的標(biāo)準(zhǔn)差(投資者回報(bào)金額的標(biāo)準(zhǔn)差反映了回報(bào)的不平衡,并由此判斷處龐氏騙局的回報(bào)金額呈現(xiàn)金字塔結(jié)構(gòu))。

2.2 代碼特征

以太坊上龐氏騙局以字節(jié)碼的形式存在,字節(jié)碼可反匯編為操作碼。由于龐氏騙局的行為與普通智能合約的經(jīng)濟(jì)行為有一定的區(qū)別,在操作碼中表現(xiàn)為對(duì)龐氏騙局的重要性不同。獲取操作碼重要指標(biāo)ITF的準(zhǔn)備階段需將從以太坊區(qū)塊鏈瀏覽器上爬取的字節(jié)碼進(jìn)行反匯編以得到操作碼集合,之后通過(guò)ITF算法得到操作碼的重要性。詳細(xì)過(guò)程如下:

(1)使用pyevmasm工具將EVM字節(jié)碼反匯編成操作碼,通過(guò)預(yù)處理操作,最終得到可作為研究使用的數(shù)據(jù)集合。

(2)統(tǒng)計(jì)在特定合約內(nèi)特定操作碼出現(xiàn)的次數(shù)以及合約操作碼數(shù),通過(guò)計(jì)算TF實(shí)現(xiàn)對(duì)于操作碼數(shù)量的歸一化處理。

(3)通過(guò)統(tǒng)計(jì)特定操作碼在合約數(shù)據(jù)集合中出現(xiàn)的頻率和合約數(shù)據(jù)集內(nèi)操作碼的數(shù)量來(lái)度量該詞語(yǔ)對(duì)于合約代碼特征的重要程度。

(4)計(jì)算特定操作碼的重要指標(biāo)ITF值,即特定操作碼對(duì)特定合同的重要性。

在特定的智能合約操作碼片段中,操作碼出現(xiàn)的頻率呈現(xiàn)一定的概率,高頻率的特定操作碼是龐氏騙局的代碼特征。該文首先對(duì)操作碼數(shù)量進(jìn)行歸一化處理,以得到龐氏騙局中各操作碼的頻率。以操作碼m為例,對(duì)m進(jìn)行歸一化處理,如公式(1):

(1)

其中,TFm為歸一化處理后的頻率;nm為特定操作碼在某一個(gè)龐氏騙局中出現(xiàn)的次數(shù);N為特定操作碼在所有智能合約中出現(xiàn)的次數(shù)。

之后,公式(2)通過(guò)統(tǒng)計(jì)“m”在合約數(shù)據(jù)集合中出現(xiàn)的頻率來(lái)度量該詞語(yǔ)對(duì)于合約代碼特征的重要程度,即對(duì)該詞語(yǔ)的IDF值進(jìn)行計(jì)算:

(2)

其中,S為智能合約數(shù)據(jù)集合中所有操作碼總數(shù);Dm表示智能合約數(shù)據(jù)集合中操作碼“m”的數(shù)量。

最后,在上述基礎(chǔ)上,通過(guò)公式(3)即可計(jì)算得出詞語(yǔ)“m”的ITF值,若該詞語(yǔ)在龐氏騙局中出現(xiàn)頻率較高,而在智能合約數(shù)據(jù)集合(即其他合約)中出現(xiàn)頻率較低,則認(rèn)為該詞語(yǔ)對(duì)龐氏騙局代碼具有良好的表征能力,有利于與其他智能合約進(jìn)行區(qū)分并實(shí)現(xiàn)分類(lèi)。

ITFm=TFm*IFm

(3)

其中,TFm和IFm分別來(lái)自公式(1)、公式(2)。ITF與傳統(tǒng)的TF-IDF算法并不十分相同,ITF中采用的是結(jié)合操作碼“m”分別在龐氏騙局的詞頻與在所有數(shù)據(jù)集中的詞頻表示其對(duì)于龐氏騙局的重要程度,這種算法更適合于提取操作碼的特征。

3 分類(lèi)模型

由于交易是一種復(fù)雜的經(jīng)濟(jì)行為,龐氏騙局與其他經(jīng)濟(jì)行為相似度高,易混淆。普通的機(jī)器學(xué)習(xí)在龐氏騙局檢測(cè)上得不到優(yōu)秀的準(zhǔn)確率,一般的集成學(xué)習(xí)也容易在一定程度上產(chǎn)生預(yù)測(cè)偏離的問(wèn)題,使得最終的準(zhǔn)確率并不讓人信服其分類(lèi)效果。

該文采用了Catboost集成學(xué)習(xí)算法來(lái)訓(xùn)練龐氏騙局檢測(cè)模型。與其他的集成學(xué)習(xí)方法相比,Catboost為訓(xùn)練集生成一個(gè)隨機(jī)序列處理特征類(lèi)別,同時(shí)使用完全對(duì)稱(chēng)的二叉決策樹(shù)[15]作為基礎(chǔ)預(yù)測(cè)器解決預(yù)測(cè)偏移的問(wèn)題,提高了分類(lèi)效果的準(zhǔn)確性。圖2是分類(lèi)器的技術(shù)框架。

圖2 分類(lèi)模型技術(shù)框架 把爬取到的數(shù)據(jù)視為一個(gè)數(shù)據(jù)集D={(xk,yk)|k=1,2,…,n},其中

是m個(gè)特征的隨機(jī)向量,yk是數(shù)據(jù)xk的標(biāo)簽,若yk=1,表示xk是數(shù)據(jù)集里的一個(gè)龐氏騙局賬戶(hù),反之則表示xk是其他正規(guī)的賬戶(hù)。每個(gè)(xk,yk)都是獨(dú)立的,它根據(jù)某個(gè)未知的分布P(.,.)恒等分布。設(shè)置σ=(σ1,σ2,…,σn)對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)排列。根據(jù)式(4)得到數(shù)值型特征:

(4)

其中,[xσj,k=xσp,k]是一個(gè)艾弗森括號(hào),當(dāng)xσj,k=xσp,k時(shí)可得結(jié)果k=1,否則等于0。這里表示隨機(jī)排列的數(shù)據(jù)集與原來(lái)的數(shù)據(jù)集進(jìn)行匹配,p是一個(gè)先驗(yàn)值,其權(quán)值為a,其中a>0。

需要訓(xùn)練近似函數(shù)F:Rm->R來(lái)盡可能降低在特征轉(zhuǎn)換過(guò)程的損失:

L(F):=EL(y,F(x))

(5)

其中,L(.,.)是平滑損失函數(shù),(x,y)是獨(dú)立于訓(xùn)練集D的測(cè)試集P中的樣例。

根據(jù)近似函數(shù)Ft=Ft-1+?ht,可以得到一系列迭代Ft:Rm->R,其中α是步長(zhǎng),函數(shù)ht是一個(gè)基礎(chǔ)預(yù)測(cè)器,可以將預(yù)期的損失降到最低。

使用最小二乘近似,負(fù)梯度步近似最小化問(wèn)題:

(6)

在Catboost的基本預(yù)測(cè)器中,完全對(duì)稱(chēng)二叉決策樹(shù)遞歸地將特征空間Rm劃分為若干個(gè)獨(dú)立區(qū)域Rj(樹(shù)節(jié)點(diǎn)),bj為葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)被分配一個(gè)值,該值是被預(yù)測(cè)的類(lèi)別。根據(jù)xk>t判斷最終所屬類(lèi)別。決策樹(shù)h可以寫(xiě)成:

(7)

4 實(shí)驗(yàn)結(jié)果

4.1 實(shí)驗(yàn)環(huán)境及參數(shù)

提取特征及分類(lèi)模型訓(xùn)練實(shí)驗(yàn)都是在anaconda內(nèi)使用Python 3.6環(huán)境下來(lái)完成的。在實(shí)驗(yàn)過(guò)程中,采用Catboost深度學(xué)習(xí)框架構(gòu)建龐氏騙局檢測(cè)模型并進(jìn)行模型訓(xùn)練。使用了anaconda自帶的一些工具包數(shù)據(jù)的處理分析,如pandas、numpy等。

4.2 數(shù)據(jù)集

獲取的代碼數(shù)據(jù)有重復(fù)或破損,手動(dòng)檢查并刪除了無(wú)效地址,最終實(shí)際得到1 393個(gè)非龐氏騙局的地址和123個(gè)龐氏騙局的地址。在數(shù)據(jù)集中交易數(shù)據(jù)與合約數(shù)據(jù)分別保存在不同的文件夾。其中,每個(gè)合約地址都有對(duì)應(yīng)的若干個(gè)歷史交易。每個(gè)交易都含有時(shí)間戳、交易金額和手續(xù)費(fèi)等信息。合約操作碼以文本文檔文件保存,每一個(gè)智能合約都是一個(gè)字典格式。

4.3 評(píng)判標(biāo)準(zhǔn)

需要通過(guò)優(yōu)秀的性能指標(biāo)來(lái)判斷分類(lèi)模型的性能。使用精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1-score)來(lái)評(píng)判分類(lèi)模型的性能。各項(xiàng)指標(biāo)計(jì)算公式如下:

(8)

(9)

(10)

4.4 實(shí)驗(yàn)結(jié)果與分析

4.4.1 特征提取結(jié)果

該文利用交易數(shù)據(jù)提取了11個(gè)相關(guān)特征。提取的特征中不僅有與合約相關(guān)的余額、活躍度等特征,同時(shí)包含從參與者角度的投資和返利相關(guān)數(shù)據(jù)。最后以龐氏騙局和非龐氏騙局為集合分別將提取的特征值計(jì)算得到均值和標(biāo)準(zhǔn)差,結(jié)果如表1所示。

表1 交易特征

表1中清楚地展示了各項(xiàng)交易特征的均值和標(biāo)準(zhǔn)值。發(fā)現(xiàn)龐氏騙局各項(xiàng)標(biāo)準(zhǔn)差都小于非龐氏騙局,表示龐氏騙局各項(xiàng)交易特征的值比較接近,更有可能具有相似的行為。例如:龐氏騙局的活躍度標(biāo)準(zhǔn)差小于非龐氏騙局的活躍度標(biāo)準(zhǔn)差,而其均值卻相對(duì)大得多。活躍度越高表示龐氏騙局希望通過(guò)與投資者互動(dòng)返利以吸引越多的投資者。

該文參考了TF-IDF的思想,利用改進(jìn)的新算法ITF提取合約的操作碼特征。操作碼特征分別在龐氏騙局和非龐氏騙局中的均值如表2所示,其中,Ponzi為1的列數(shù)據(jù)表示龐氏騙局的數(shù)據(jù)。

表2 智能合約部分ITF取值

在表2中最后一項(xiàng),當(dāng)Ponzi=1時(shí)表示為龐氏騙局,Ponzi=0表示為非龐氏騙局。表中所有的數(shù)據(jù)表示為代碼特征的均值,可以看到此九個(gè)操作碼在龐氏騙局的ITF值較非龐氏騙局的高,將其作為特征進(jìn)行分類(lèi)有極大可能增加分類(lèi)的準(zhǔn)確率。

4.4.2 分類(lèi)結(jié)果

使用的Catboost集成學(xué)習(xí)分別與Knn、SVM[16]、DT、XGBoost[17]和RF[18]做了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示,其中Tra表示分類(lèi)過(guò)程僅使用交易特征進(jìn)行實(shí)驗(yàn),Code表示僅使用代碼特征進(jìn)行實(shí)驗(yàn),而Com表示用混合特征進(jìn)行分類(lèi)實(shí)驗(yàn)。

從表3中可以看到,提出的混合特征和基于Catboost的龐氏騙局檢測(cè)方法性能更好,原因在于Catboost對(duì)新增的特征有很好的適應(yīng)性,其完全對(duì)稱(chēng)樹(shù)可在最大程度上避免預(yù)測(cè)便宜問(wèn)題。提出的Catboost模型雖然在僅使用交易特征的實(shí)驗(yàn)中結(jié)果并不好,但結(jié)合代碼特征卻能夠得出最好的結(jié)果。在使用混合特征的Catboost實(shí)驗(yàn)各項(xiàng)評(píng)判指標(biāo)均達(dá)到最優(yōu),因此可以認(rèn)為Catboost能夠很好地利用交易特征與代碼特征,使得結(jié)果最優(yōu)化。若是僅使用代碼特征進(jìn)行實(shí)驗(yàn),XGBoost與RF的表現(xiàn)似乎都不錯(cuò),但是不要忽視了在Recall指標(biāo)上XGBoost比RF高了3個(gè)百分點(diǎn),其表明XGBoost更容易得到龐氏騙局的正確分類(lèi)。如果僅使用代碼特征結(jié)果都不算好。分析各種模型后,發(fā)現(xiàn)DT在僅使用交易特征的實(shí)驗(yàn)中可以得出相對(duì)較好的結(jié)果,尤其在Recall和F1-score指標(biāo)上明顯強(qiáng)于其他分類(lèi)模型。在缺少智能合約的龐氏騙局上可能能夠得到最優(yōu)的結(jié)果,因此DT可能更加適應(yīng)于Bitcoin或其他第一代區(qū)塊鏈的詐騙檢測(cè)。

表3 分類(lèi)結(jié)果對(duì)比實(shí)驗(yàn)

采用Catboost在特征提取前后的實(shí)驗(yàn)效果對(duì)比如圖3所示。其中,其他交易特征指的是僅與合約相關(guān)的余額、活躍度等特征,文中交易特征在其他交易特征的基礎(chǔ)上考慮了提取投資與回報(bào)相關(guān)特征;其他代碼特征值操作碼詞頻,文中代碼特征是提取操作碼的ITF值;相應(yīng)的混合特征則是將交易特征與代碼特征混合形成特征向量。

圖3(a)、(b)、(c)表示僅使用交易特征、僅使用代碼特征和使用了混合特征。新提取的特征能夠在各項(xiàng)指標(biāo)上勝于先前提取的特征,這表明了提取的交易特征與代碼特征都對(duì)龐氏騙局有更好的表征能力。且從圖3(d)中可以看到,代碼特征可以輔助代碼特征,使得結(jié)合二者的混合特征可以在代碼特征的實(shí)驗(yàn)上略勝一籌。鑒于此,在所有的詐騙中,即使代碼特征可以很好地作用檢測(cè)的特點(diǎn),也不能忽視交易數(shù)據(jù)的幫助。

圖3 特征提取前后實(shí)驗(yàn)結(jié)果

4.4.3 模型參數(shù)變化影響分析

在使用Catboost模型對(duì)龐氏騙局進(jìn)行檢測(cè)分類(lèi)時(shí),參數(shù)會(huì)影響分類(lèi)模型的性能,需要通過(guò)實(shí)驗(yàn)選取最好的參數(shù)值。該文選取對(duì)模型性能影響較大的參數(shù)進(jìn)行實(shí)驗(yàn),包括交叉驗(yàn)證的K值、損失函數(shù)、樹(shù)的深度depth以及學(xué)習(xí)率learning rate。各參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響如圖4所示。

(1)K折交叉驗(yàn)證(K-fold cross validation)指的是把訓(xùn)練數(shù)據(jù)D分為K份,用其中的K-1份訓(xùn)練模型,剩余的1份數(shù)據(jù)用于評(píng)估模型的質(zhì)量。將這個(gè)過(guò)程在K份數(shù)據(jù)上依次循環(huán),并對(duì)得到的K個(gè)評(píng)估結(jié)果進(jìn)行合并,如回歸問(wèn)題求平均或分類(lèi)問(wèn)題投票。由圖4中可以看到,混合特征各項(xiàng)性能指標(biāo)隨交叉驗(yàn)證K值變化而變化。

圖4(a)中,在K=5時(shí),Precision達(dá)到最高,然而此時(shí)Recall與F1-score指標(biāo)過(guò)低,龐氏騙局大量被誤判為非龐氏騙局,分類(lèi)模型最好的情況是三項(xiàng)指標(biāo)均接近1;在K=12時(shí),各指標(biāo)分別為:Precision=0.90,Recall=0.77,F(xiàn)1-score=0.82,幾乎都已達(dá)到最優(yōu)。若K值進(jìn)一步增加,三項(xiàng)指標(biāo)迅速下滑,幾乎可以認(rèn)為,在K=12時(shí)提出的分類(lèi)模型達(dá)到最優(yōu)的值。

(2)在loss參數(shù)的選擇上,Catboost適用的loss函數(shù)包括Logloss、CrossEntropy和MultiClassOeaVsAll,Logloss損失函數(shù)能非常好地表征概率分布,對(duì)于分類(lèi)問(wèn)題可以很好地判斷分類(lèi)結(jié)果屬于每個(gè)類(lèi)別的置信度,非常適合于該文的分類(lèi)問(wèn)題。由圖4(b)可以看出,Logloss函數(shù)對(duì)分類(lèi)確實(shí)得到了良好的效果,因此,該文選用Logloss作為分類(lèi)模型的損失函數(shù)。

(3)在基學(xué)習(xí)器的分類(lèi)中,二叉樹(shù)的深度對(duì)分類(lèi)效果有一定的影響。過(guò)深的depth不僅不會(huì)提高分類(lèi)的效果,同時(shí)極有可能造成分類(lèi)結(jié)果的過(guò)擬合。從圖4(c)可以看出,在depth=9之前,隨著depth深度的提高,分類(lèi)效果呈現(xiàn)先增后減的趨勢(shì),同時(shí)在depth=6時(shí)達(dá)到最優(yōu)的性能,因此,選取depth=6作為實(shí)驗(yàn)過(guò)程中的深度參數(shù)。

圖4 參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

(4)學(xué)習(xí)率作為監(jiān)督學(xué)習(xí)中重要的超參,其決定著目標(biāo)函數(shù)能否收斂到局部最小值以及何時(shí)收斂到最小值。合適的學(xué)習(xí)率能夠使目標(biāo)函數(shù)在合適的時(shí)間內(nèi)收斂到局部最小值。從圖4(d)可以看出,隨著學(xué)習(xí)率的遞增,分類(lèi)效果的三項(xiàng)指標(biāo)均大致呈現(xiàn)一個(gè)遞減的趨勢(shì),雖然在0.3時(shí)有一定的提升,但是提升效果沒(méi)有超過(guò)0.1時(shí)的,因此,斷定在learning_rate=0.1分類(lèi)效果達(dá)到最優(yōu)。

在實(shí)驗(yàn)的最后發(fā)現(xiàn),部分龐氏騙局所有投資人都獲得了回報(bào),從交易特征觀察似乎并不符合龐氏騙局。這樣的龐氏騙局占比達(dá)到1∶5。查看這些賬戶(hù)的源代碼,發(fā)現(xiàn)其回報(bào)分配依舊呈現(xiàn)金字塔形態(tài)。另外,這些賬戶(hù)的投資者數(shù)量都太小。因此可以判斷,這部分龐氏騙局是被正確分類(lèi)的,但是由于是創(chuàng)建初期,其仍屬于吸引投資時(shí)期,需要靠給投資者分配回報(bào)增加它的影響力。

5 結(jié)束語(yǔ)

在對(duì)以太坊平臺(tái)的龐氏騙局進(jìn)行檢測(cè)中,提出了一種新的特征提取方法。在交易特征上還原龐氏騙局的金字塔回報(bào)率形式。在代碼特征提取方面,借助TF-IDF的思想,提出了一種結(jié)合頻率的操作碼重要指數(shù)的特征提取方式,提取的代碼特征從數(shù)據(jù)集出發(fā),表示其對(duì)龐氏騙局的重要程度。針對(duì)訓(xùn)練過(guò)程梯度偏差以及預(yù)測(cè)偏移問(wèn)題,提出了新的集成學(xué)習(xí)方法Catboost,使用完全二叉樹(shù)作為基礎(chǔ)分類(lèi)器在最大程度上解決計(jì)算梯度估計(jì)時(shí)存在目標(biāo)泄漏導(dǎo)致的預(yù)測(cè)偏移問(wèn)題。

該方法在一定程度上仍存在少許不足,如召回率只達(dá)到了82%,意味18%的龐氏騙局被遺漏。在未來(lái)工作中,需對(duì)分類(lèi)模型進(jìn)行改進(jìn),以期達(dá)到更高的準(zhǔn)確率。此外,類(lèi)別不平衡對(duì)實(shí)驗(yàn)結(jié)果仍存在一定的影響,后續(xù)工作中不可將類(lèi)別不平衡問(wèn)題的處理全部寄托于模型中,可考慮擴(kuò)大龐氏騙局類(lèi)別數(shù)量,一定最大限度類(lèi)別不平衡帶來(lái)的影響。

猜你喜歡
分類(lèi)特征智能
分類(lèi)算一算
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類(lèi)討論求坐標(biāo)
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
數(shù)據(jù)分析中的分類(lèi)討論
教你一招:數(shù)的分類(lèi)
主站蜘蛛池模板: 欧美在线黄| 亚洲视频欧美不卡| 国产欧美成人不卡视频| 天堂av综合网| 亚洲国产综合精品一区| 亚洲首页在线观看| 久久精品aⅴ无码中文字幕| 精品久久综合1区2区3区激情| 日本国产精品| 国产欧美专区在线观看| 久久婷婷国产综合尤物精品| 日本手机在线视频| 欧美日韩91| 国产婬乱a一级毛片多女| 久久伊人操| 婷五月综合| 亚洲va欧美va国产综合下载| 久久综合九色综合97婷婷| 1769国产精品免费视频| 先锋资源久久| 久久香蕉国产线| 久青草国产高清在线视频| 国产伦精品一区二区三区视频优播| 日韩高清中文字幕| 国产福利观看| 国产区成人精品视频| 一本久道久久综合多人| 日韩福利在线观看| 日本在线国产| 久久人人97超碰人人澡爱香蕉| 久久青草免费91观看| 国产尤物在线播放| 日本午夜影院| 欧美影院久久| 人妻精品全国免费视频| 操国产美女| 日韩欧美亚洲国产成人综合| 国产一区二区三区在线观看视频 | 日韩精品无码免费一区二区三区 | 2020最新国产精品视频| 日韩经典精品无码一区二区| 99精品影院| 欧美色香蕉| 国产SUV精品一区二区| 亚洲中文字幕23页在线| 伊人久久久大香线蕉综合直播| 亚洲天堂成人在线观看| 国产激情影院| 午夜综合网| 亚洲区第一页| 婷婷午夜影院| 成人第一页| 久草视频一区| 97在线公开视频| 精品小视频在线观看| 亚洲男人天堂2020| 亚洲成人精品久久| 狠狠色婷婷丁香综合久久韩国| 国产精品久久久久婷婷五月| 成人福利在线视频| 国产一国产一有一级毛片视频| 国产亚洲美日韩AV中文字幕无码成人| 欧美综合成人| 中文字幕乱妇无码AV在线| 无码专区第一页| 成年看免费观看视频拍拍| 欧美国产综合视频| 久久午夜夜伦鲁鲁片不卡| 亚洲无限乱码一二三四区| 欧美日一级片| 欧美色视频日本| 亚洲成人高清在线观看| 欧美精品高清| 成人国产一区二区三区| 欧美黄网在线| a国产精品| 亚洲自偷自拍另类小说| 91免费国产在线观看尤物| 久久女人网| 国产精品成人第一区| 九色综合视频网| 最新亚洲人成无码网站欣赏网 |