面向區(qū)塊鏈平臺(tái)的龐氏騙局模式檢測(cè)方法

2022-05-30 04:29:40毛典輝梁秀霞郝治昊

計(jì)算機(jī)技術(shù)與發(fā)展 2022年5期

毛典輝，梁秀霞，趙爽，郝治昊

(北京工商大學(xué) 計(jì)算機(jī)學(xué)院，北京 100048)

1 概述

2008年，中本聰發(fā)表了《Bitcoin: A Peer-to-Peer Electronic Cash System》[1]一文，討論了一個(gè)電子現(xiàn)金系統(tǒng)，它是以區(qū)塊鏈[2-3]為底層架構(gòu)的虛擬貨幣平臺(tái)，由此奠定了區(qū)塊鏈技術(shù)發(fā)展的基礎(chǔ)。由于區(qū)塊鏈具有不依賴(lài)于第三方管理機(jī)構(gòu)，可通過(guò)分布式進(jìn)行數(shù)據(jù)的核算和存儲(chǔ)，具有去中心化、不可篡改、可追溯和匿名性等特點(diǎn)，為區(qū)塊鏈奠定了堅(jiān)實(shí)的“信任”基礎(chǔ)。正是由于去中心化特性，區(qū)塊鏈技術(shù)游走于法律灰色地帶，缺乏有關(guān)部門(mén)的監(jiān)管；匿名性隱藏了用戶(hù)的真實(shí)身份，更是增加了區(qū)塊鏈監(jiān)管難度。因此，各種詐騙組織借助區(qū)塊鏈技術(shù)[4]大肆進(jìn)行金融犯罪，如洗錢(qián)[5]、釣魚(yú)網(wǎng)址[6-7]和龐氏騙局[8]等。根據(jù)加密分析專(zhuān)家Chainalysis的最新報(bào)告[9]，以區(qū)塊鏈作為底層技術(shù)的以太坊平臺(tái)(ETH)是深受歡迎的二代區(qū)塊鏈，已經(jīng)成為區(qū)塊鏈詐騙的首選加密平臺(tái)。因此，加強(qiáng)對(duì)以太坊為代表的區(qū)塊鏈平臺(tái)的金融詐騙監(jiān)管迫在眉睫。

基于智能合約[10-11]的以太坊詐騙又稱(chēng)為智能龐氏騙局。在龐氏騙局持續(xù)過(guò)程中，隨著投資者的加入，合約將獲得的投資優(yōu)先返還最先加入的人，后續(xù)投資者無(wú)法獲得回報(bào)而失去他們的投資。前者和后者使用相同的投資金額卻沒(méi)有相同金額的回報(bào)，這是極其不公平的。顯然，這種合約給大多數(shù)后來(lái)者造成了損失，騙取了大量的財(cái)富。

對(duì)龐氏騙局智能合約進(jìn)行監(jiān)測(cè)時(shí)面臨了以下挑戰(zhàn)：(1)在特征提取方面，要求提取貼近詐騙本質(zhì)的特征，使龐氏騙局能夠具有更好的區(qū)分度；(2)在檢測(cè)分類(lèi)方面，要求能夠提出減小目標(biāo)泄漏導(dǎo)致的預(yù)測(cè)偏移問(wèn)題，提高分類(lèi)準(zhǔn)確率的算法。

針對(duì)上述挑戰(zhàn)，該文設(shè)計(jì)了一種基于智能合約混合特征的龐氏騙局檢測(cè)算法，提取交易主體間符合龐氏騙局中回報(bào)不公平的金字塔形式交易特征和能夠區(qū)分龐氏騙局的智能合約操作碼特征，并采用Catboost集成學(xué)習(xí)[12]的分類(lèi)算法解決算法訓(xùn)練過(guò)程中的梯度偏差以及預(yù)測(cè)偏移問(wèn)題。

2 技術(shù)方案

首先從Etherscan.io爬取智能合約相關(guān)交易及合約代碼，從交易記錄中可獲得合約賬戶(hù)得到投資的具體金額和時(shí)間戳，以及在回報(bào)分配上的比例，統(tǒng)計(jì)相關(guān)信息得到交易特征。由于智能合約以字節(jié)碼的形式保存于以太坊平臺(tái)，該文通過(guò)反匯編將字節(jié)碼轉(zhuǎn)換為操作碼，利用改進(jìn)的TF-IDF[13]獲取合約的代碼特征。將交易特征和代碼特征結(jié)合成混合特征向量，進(jìn)入由若干個(gè)弱分類(lèi)器組成的Catboost[14]集成學(xué)習(xí)，得到龐氏騙局分類(lèi)訓(xùn)練模型，最終實(shí)現(xiàn)對(duì)新交易合約的預(yù)測(cè)。因此，設(shè)計(jì)的龐氏騙局智能合約檢測(cè)算法技術(shù)路線如圖1所示。

圖1 整體技術(shù)流程

2.1 交易特征

為吸引更多投資者的加入，前期的龐氏騙局賬戶(hù)頻繁與投資者互動(dòng)，互動(dòng)形式表現(xiàn)為給前期投資者返還回報(bào)利息。因此，龐氏騙局的賬戶(hù)余額通常保持在較低水平，而展現(xiàn)在投資者面前的則是一個(gè)守信的合約賬戶(hù)，它能夠時(shí)常給投資者返還回報(bào)利息，并且保證所有的投資者都能夠獲得應(yīng)得的回報(bào)。因此，以下交易特征對(duì)分類(lèi)效果有很好的作用：

活躍度：記錄智能合約賬戶(hù)與外部賬戶(hù)(即投資者賬戶(hù))頻繁交易的特點(diǎn)。

賬戶(hù)余額：智能合約賬戶(hù)余額。

投資交易數(shù)：對(duì)智能合約進(jìn)行投資交易的次數(shù)。

返利交易數(shù)：從智能合約獲取返利交易的次數(shù)。

返利者比率：返利者占投資者的百分比。

最大返利次數(shù)：參與者獲得返利的最大次數(shù)。

通過(guò)觀察交易記錄，發(fā)現(xiàn)在龐氏騙局中，大部分的投資進(jìn)入合約創(chuàng)建者的口袋，而使得回報(bào)總返利金額遠(yuǎn)低于總投資金額。完整詐騙過(guò)程中，在所有投資者獲得回報(bào)之前龐氏騙局便宣告破產(chǎn)，使得多數(shù)遲到的投資者得不到回報(bào)。此外，獲得回報(bào)的投資者，其回報(bào)利息的高低也受投資時(shí)間影響，使得回報(bào)差異呈現(xiàn)出一個(gè)高水平。基于此，提取了可結(jié)合投資與回報(bào)相關(guān)特點(diǎn)的特征，如下：

總投資額：智能合約賬戶(hù)獲得的投資總額。

總返利額：智能合約賬戶(hù)指出的返利總額(詐騙者需要從合約中獲取利益。大部分龐氏騙局不會(huì)將全部投資作為返利返回給參與者，而是將一部分投資作為手續(xù)費(fèi)返利給合約創(chuàng)建者，因此可以看到龐氏騙局中回報(bào)交易的金額高于投資金額)。

總投資人：進(jìn)行投資的地址賬戶(hù)數(shù)。

總返利人：獲得回報(bào)的地址賬戶(hù)數(shù)(并不是所以投資者都可以獲得相應(yīng)的回報(bào)。所以，獲得返利的賬戶(hù)地址會(huì)少于投資賬戶(hù)地址)。

返利標(biāo)準(zhǔn)差：智能合約賬戶(hù)返利的標(biāo)準(zhǔn)差(投資者回報(bào)金額的標(biāo)準(zhǔn)差反映了回報(bào)的不平衡，并由此判斷處龐氏騙局的回報(bào)金額呈現(xiàn)金字塔結(jié)構(gòu))。

2.2 代碼特征

以太坊上龐氏騙局以字節(jié)碼的形式存在，字節(jié)碼可反匯編為操作碼。由于龐氏騙局的行為與普通智能合約的經(jīng)濟(jì)行為有一定的區(qū)別，在操作碼中表現(xiàn)為對(duì)龐氏騙局的重要性不同。獲取操作碼重要指標(biāo)ITF的準(zhǔn)備階段需將從以太坊區(qū)塊鏈瀏覽器上爬取的字節(jié)碼進(jìn)行反匯編以得到操作碼集合，之后通過(guò)ITF算法得到操作碼的重要性。詳細(xì)過(guò)程如下：

(1)使用pyevmasm工具將EVM字節(jié)碼反匯編成操作碼，通過(guò)預(yù)處理操作，最終得到可作為研究使用的數(shù)據(jù)集合。

(2)統(tǒng)計(jì)在特定合約內(nèi)特定操作碼出現(xiàn)的次數(shù)以及合約操作碼數(shù)，通過(guò)計(jì)算TF實(shí)現(xiàn)對(duì)于操作碼數(shù)量的歸一化處理。

(3)通過(guò)統(tǒng)計(jì)特定操作碼在合約數(shù)據(jù)集合中出現(xiàn)的頻率和合約數(shù)據(jù)集內(nèi)操作碼的數(shù)量來(lái)度量該詞語(yǔ)對(duì)于合約代碼特征的重要程度。

(4)計(jì)算特定操作碼的重要指標(biāo)ITF值，即特定操作碼對(duì)特定合同的重要性。

在特定的智能合約操作碼片段中，操作碼出現(xiàn)的頻率呈現(xiàn)一定的概率，高頻率的特定操作碼是龐氏騙局的代碼特征。該文首先對(duì)操作碼數(shù)量進(jìn)行歸一化處理，以得到龐氏騙局中各操作碼的頻率。以操作碼m為例，對(duì)m進(jìn)行歸一化處理，如公式(1)：

(1)

其中，TFm為歸一化處理后的頻率；nm為特定操作碼在某一個(gè)龐氏騙局中出現(xiàn)的次數(shù)；N為特定操作碼在所有智能合約中出現(xiàn)的次數(shù)。

之后，公式(2)通過(guò)統(tǒng)計(jì)“m”在合約數(shù)據(jù)集合中出現(xiàn)的頻率來(lái)度量該詞語(yǔ)對(duì)于合約代碼特征的重要程度，即對(duì)該詞語(yǔ)的IDF值進(jìn)行計(jì)算：

(2)

其中，S為智能合約數(shù)據(jù)集合中所有操作碼總數(shù)；Dm表示智能合約數(shù)據(jù)集合中操作碼“m”的數(shù)量。

最后，在上述基礎(chǔ)上，通過(guò)公式(3)即可計(jì)算得出詞語(yǔ)“m”的ITF值，若該詞語(yǔ)在龐氏騙局中出現(xiàn)頻率較高，而在智能合約數(shù)據(jù)集合(即其他合約)中出現(xiàn)頻率較低，則認(rèn)為該詞語(yǔ)對(duì)龐氏騙局代碼具有良好的表征能力，有利于與其他智能合約進(jìn)行區(qū)分并實(shí)現(xiàn)分類(lèi)。

ITFm=TFm*IFm

(3)

其中，TFm和IFm分別來(lái)自公式(1)、公式(2)。ITF與傳統(tǒng)的TF-IDF算法并不十分相同，ITF中采用的是結(jié)合操作碼“m”分別在龐氏騙局的詞頻與在所有數(shù)據(jù)集中的詞頻表示其對(duì)于龐氏騙局的重要程度，這種算法更適合于提取操作碼的特征。

3 分類(lèi)模型

由于交易是一種復(fù)雜的經(jīng)濟(jì)行為，龐氏騙局與其他經(jīng)濟(jì)行為相似度高，易混淆。普通的機(jī)器學(xué)習(xí)在龐氏騙局檢測(cè)上得不到優(yōu)秀的準(zhǔn)確率，一般的集成學(xué)習(xí)也容易在一定程度上產(chǎn)生預(yù)測(cè)偏離的問(wèn)題，使得最終的準(zhǔn)確率并不讓人信服其分類(lèi)效果。

該文采用了Catboost集成學(xué)習(xí)算法來(lái)訓(xùn)練龐氏騙局檢測(cè)模型。與其他的集成學(xué)習(xí)方法相比，Catboost為訓(xùn)練集生成一個(gè)隨機(jī)序列處理特征類(lèi)別，同時(shí)使用完全對(duì)稱(chēng)的二叉決策樹(shù)[15]作為基礎(chǔ)預(yù)測(cè)器解決預(yù)測(cè)偏移的問(wèn)題，提高了分類(lèi)效果的準(zhǔn)確性。圖2是分類(lèi)器的技術(shù)框架。

圖2 分類(lèi)模型技術(shù)框架把爬取到的數(shù)據(jù)視為一個(gè)數(shù)據(jù)集D={(xk,yk)|k=1,2,…,n}，其中

是m個(gè)特征的隨機(jī)向量，yk是數(shù)據(jù)xk的標(biāo)簽，若yk=1，表示xk是數(shù)據(jù)集里的一個(gè)龐氏騙局賬戶(hù)，反之則表示xk是其他正規(guī)的賬戶(hù)。每個(gè)(xk，yk)都是獨(dú)立的，它根據(jù)某個(gè)未知的分布P(.,.)恒等分布。設(shè)置σ=(σ1,σ2,…,σn)對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)排列。根據(jù)式(4)得到數(shù)值型特征：

(4)

其中，[xσj,k=xσp,k]是一個(gè)艾弗森括號(hào)，當(dāng)xσj,k=xσp,k時(shí)可得結(jié)果k=1，否則等于0。這里表示隨機(jī)排列的數(shù)據(jù)集與原來(lái)的數(shù)據(jù)集進(jìn)行匹配，p是一個(gè)先驗(yàn)值，其權(quán)值為a，其中a>0。

需要訓(xùn)練近似函數(shù)F：Rm->R來(lái)盡可能降低在特征轉(zhuǎn)換過(guò)程的損失：

L(F):=EL(y,F(x))

(5)

其中，L(.,.)是平滑損失函數(shù)，(x,y)是獨(dú)立于訓(xùn)練集D的測(cè)試集P中的樣例。

根據(jù)近似函數(shù)Ft=Ft-1+?ht，可以得到一系列迭代Ft:Rm->R，其中α是步長(zhǎng)，函數(shù)ht是一個(gè)基礎(chǔ)預(yù)測(cè)器，可以將預(yù)期的損失降到最低。

使用最小二乘近似，負(fù)梯度步近似最小化問(wèn)題:

(6)

在Catboost的基本預(yù)測(cè)器中，完全對(duì)稱(chēng)二叉決策樹(shù)遞歸地將特征空間Rm劃分為若干個(gè)獨(dú)立區(qū)域Rj(樹(shù)節(jié)點(diǎn))，bj為葉子節(jié)點(diǎn)，每個(gè)葉子節(jié)點(diǎn)被分配一個(gè)值，該值是被預(yù)測(cè)的類(lèi)別。根據(jù)xk>t判斷最終所屬類(lèi)別。決策樹(shù)h可以寫(xiě)成：

(7)

4 實(shí)驗(yàn)結(jié)果

4.1 實(shí)驗(yàn)環(huán)境及參數(shù)

提取特征及分類(lèi)模型訓(xùn)練實(shí)驗(yàn)都是在anaconda內(nèi)使用Python 3.6環(huán)境下來(lái)完成的。在實(shí)驗(yàn)過(guò)程中，采用Catboost深度學(xué)習(xí)框架構(gòu)建龐氏騙局檢測(cè)模型并進(jìn)行模型訓(xùn)練。使用了anaconda自帶的一些工具包數(shù)據(jù)的處理分析，如pandas、numpy等。

4.2 數(shù)據(jù)集

獲取的代碼數(shù)據(jù)有重復(fù)或破損，手動(dòng)檢查并刪除了無(wú)效地址，最終實(shí)際得到1 393個(gè)非龐氏騙局的地址和123個(gè)龐氏騙局的地址。在數(shù)據(jù)集中交易數(shù)據(jù)與合約數(shù)據(jù)分別保存在不同的文件夾。其中，每個(gè)合約地址都有對(duì)應(yīng)的若干個(gè)歷史交易。每個(gè)交易都含有時(shí)間戳、交易金額和手續(xù)費(fèi)等信息。合約操作碼以文本文檔文件保存，每一個(gè)智能合約都是一個(gè)字典格式。

4.3 評(píng)判標(biāo)準(zhǔn)

需要通過(guò)優(yōu)秀的性能指標(biāo)來(lái)判斷分類(lèi)模型的性能。使用精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1-score)來(lái)評(píng)判分類(lèi)模型的性能。各項(xiàng)指標(biāo)計(jì)算公式如下：

(8)

(9)

(10)

4.4 實(shí)驗(yàn)結(jié)果與分析

4.4.1 特征提取結(jié)果

該文利用交易數(shù)據(jù)提取了11個(gè)相關(guān)特征。提取的特征中不僅有與合約相關(guān)的余額、活躍度等特征，同時(shí)包含從參與者角度的投資和返利相關(guān)數(shù)據(jù)。最后以龐氏騙局和非龐氏騙局為集合分別將提取的特征值計(jì)算得到均值和標(biāo)準(zhǔn)差，結(jié)果如表1所示。

表1 交易特征

表1中清楚地展示了各項(xiàng)交易特征的均值和標(biāo)準(zhǔn)值。發(fā)現(xiàn)龐氏騙局各項(xiàng)標(biāo)準(zhǔn)差都小于非龐氏騙局，表示龐氏騙局各項(xiàng)交易特征的值比較接近，更有可能具有相似的行為。例如：龐氏騙局的活躍度標(biāo)準(zhǔn)差小于非龐氏騙局的活躍度標(biāo)準(zhǔn)差，而其均值卻相對(duì)大得多。活躍度越高表示龐氏騙局希望通過(guò)與投資者互動(dòng)返利以吸引越多的投資者。

該文參考了TF-IDF的思想，利用改進(jìn)的新算法ITF提取合約的操作碼特征。操作碼特征分別在龐氏騙局和非龐氏騙局中的均值如表2所示，其中，Ponzi為1的列數(shù)據(jù)表示龐氏騙局的數(shù)據(jù)。

表2 智能合約部分ITF取值

在表2中最后一項(xiàng)，當(dāng)Ponzi=1時(shí)表示為龐氏騙局，Ponzi=0表示為非龐氏騙局。表中所有的數(shù)據(jù)表示為代碼特征的均值，可以看到此九個(gè)操作碼在龐氏騙局的ITF值較非龐氏騙局的高，將其作為特征進(jìn)行分類(lèi)有極大可能增加分類(lèi)的準(zhǔn)確率。

4.4.2 分類(lèi)結(jié)果

使用的Catboost集成學(xué)習(xí)分別與Knn、SVM[16]、DT、XGBoost[17]和RF[18]做了對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表4所示，其中Tra表示分類(lèi)過(guò)程僅使用交易特征進(jìn)行實(shí)驗(yàn)，Code表示僅使用代碼特征進(jìn)行實(shí)驗(yàn)，而Com表示用混合特征進(jìn)行分類(lèi)實(shí)驗(yàn)。

從表3中可以看到，提出的混合特征和基于Catboost的龐氏騙局檢測(cè)方法性能更好，原因在于Catboost對(duì)新增的特征有很好的適應(yīng)性，其完全對(duì)稱(chēng)樹(shù)可在最大程度上避免預(yù)測(cè)便宜問(wèn)題。提出的Catboost模型雖然在僅使用交易特征的實(shí)驗(yàn)中結(jié)果并不好，但結(jié)合代碼特征卻能夠得出最好的結(jié)果。在使用混合特征的Catboost實(shí)驗(yàn)各項(xiàng)評(píng)判指標(biāo)均達(dá)到最優(yōu)，因此可以認(rèn)為Catboost能夠很好地利用交易特征與代碼特征，使得結(jié)果最優(yōu)化。若是僅使用代碼特征進(jìn)行實(shí)驗(yàn)，XGBoost與RF的表現(xiàn)似乎都不錯(cuò)，但是不要忽視了在Recall指標(biāo)上XGBoost比RF高了3個(gè)百分點(diǎn)，其表明XGBoost更容易得到龐氏騙局的正確分類(lèi)。如果僅使用代碼特征結(jié)果都不算好。分析各種模型后，發(fā)現(xiàn)DT在僅使用交易特征的實(shí)驗(yàn)中可以得出相對(duì)較好的結(jié)果，尤其在Recall和F1-score指標(biāo)上明顯強(qiáng)于其他分類(lèi)模型。在缺少智能合約的龐氏騙局上可能能夠得到最優(yōu)的結(jié)果，因此DT可能更加適應(yīng)于Bitcoin或其他第一代區(qū)塊鏈的詐騙檢測(cè)。

表3 分類(lèi)結(jié)果對(duì)比實(shí)驗(yàn)

采用Catboost在特征提取前后的實(shí)驗(yàn)效果對(duì)比如圖3所示。其中，其他交易特征指的是僅與合約相關(guān)的余額、活躍度等特征，文中交易特征在其他交易特征的基礎(chǔ)上考慮了提取投資與回報(bào)相關(guān)特征；其他代碼特征值操作碼詞頻，文中代碼特征是提取操作碼的ITF值；相應(yīng)的混合特征則是將交易特征與代碼特征混合形成特征向量。

圖3(a)、(b)、(c)表示僅使用交易特征、僅使用代碼特征和使用了混合特征。新提取的特征能夠在各項(xiàng)指標(biāo)上勝于先前提取的特征，這表明了提取的交易特征與代碼特征都對(duì)龐氏騙局有更好的表征能力。且從圖3(d)中可以看到，代碼特征可以輔助代碼特征，使得結(jié)合二者的混合特征可以在代碼特征的實(shí)驗(yàn)上略勝一籌。鑒于此，在所有的詐騙中，即使代碼特征可以很好地作用檢測(cè)的特點(diǎn)，也不能忽視交易數(shù)據(jù)的幫助。

圖3 特征提取前后實(shí)驗(yàn)結(jié)果

4.4.3 模型參數(shù)變化影響分析

在使用Catboost模型對(duì)龐氏騙局進(jìn)行檢測(cè)分類(lèi)時(shí)，參數(shù)會(huì)影響分類(lèi)模型的性能，需要通過(guò)實(shí)驗(yàn)選取最好的參數(shù)值。該文選取對(duì)模型性能影響較大的參數(shù)進(jìn)行實(shí)驗(yàn)，包括交叉驗(yàn)證的K值、損失函數(shù)、樹(shù)的深度depth以及學(xué)習(xí)率learning rate。各參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響如圖4所示。

(1)K折交叉驗(yàn)證(K-fold cross validation)指的是把訓(xùn)練數(shù)據(jù)D分為K份，用其中的K-1份訓(xùn)練模型，剩余的1份數(shù)據(jù)用于評(píng)估模型的質(zhì)量。將這個(gè)過(guò)程在K份數(shù)據(jù)上依次循環(huán)，并對(duì)得到的K個(gè)評(píng)估結(jié)果進(jìn)行合并，如回歸問(wèn)題求平均或分類(lèi)問(wèn)題投票。由圖4中可以看到，混合特征各項(xiàng)性能指標(biāo)隨交叉驗(yàn)證K值變化而變化。

圖4(a)中，在K=5時(shí)，Precision達(dá)到最高，然而此時(shí)Recall與F1-score指標(biāo)過(guò)低，龐氏騙局大量被誤判為非龐氏騙局，分類(lèi)模型最好的情況是三項(xiàng)指標(biāo)均接近1；在K=12時(shí)，各指標(biāo)分別為：Precision=0.90，Recall=0.77，F(xiàn)1-score=0.82，幾乎都已達(dá)到最優(yōu)。若K值進(jìn)一步增加，三項(xiàng)指標(biāo)迅速下滑，幾乎可以認(rèn)為，在K=12時(shí)提出的分類(lèi)模型達(dá)到最優(yōu)的值。

(2)在loss參數(shù)的選擇上，Catboost適用的loss函數(shù)包括Logloss、CrossEntropy和MultiClassOeaVsAll，Logloss損失函數(shù)能非常好地表征概率分布，對(duì)于分類(lèi)問(wèn)題可以很好地判斷分類(lèi)結(jié)果屬于每個(gè)類(lèi)別的置信度，非常適合于該文的分類(lèi)問(wèn)題。由圖4(b)可以看出，Logloss函數(shù)對(duì)分類(lèi)確實(shí)得到了良好的效果，因此，該文選用Logloss作為分類(lèi)模型的損失函數(shù)。

(3)在基學(xué)習(xí)器的分類(lèi)中，二叉樹(shù)的深度對(duì)分類(lèi)效果有一定的影響。過(guò)深的depth不僅不會(huì)提高分類(lèi)的效果，同時(shí)極有可能造成分類(lèi)結(jié)果的過(guò)擬合。從圖4(c)可以看出，在depth=9之前，隨著depth深度的提高，分類(lèi)效果呈現(xiàn)先增后減的趨勢(shì)，同時(shí)在depth=6時(shí)達(dá)到最優(yōu)的性能，因此，選取depth=6作為實(shí)驗(yàn)過(guò)程中的深度參數(shù)。

圖4 參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

(4)學(xué)習(xí)率作為監(jiān)督學(xué)習(xí)中重要的超參，其決定著目標(biāo)函數(shù)能否收斂到局部最小值以及何時(shí)收斂到最小值。合適的學(xué)習(xí)率能夠使目標(biāo)函數(shù)在合適的時(shí)間內(nèi)收斂到局部最小值。從圖4(d)可以看出，隨著學(xué)習(xí)率的遞增，分類(lèi)效果的三項(xiàng)指標(biāo)均大致呈現(xiàn)一個(gè)遞減的趨勢(shì)，雖然在0.3時(shí)有一定的提升，但是提升效果沒(méi)有超過(guò)0.1時(shí)的，因此，斷定在learning_rate=0.1分類(lèi)效果達(dá)到最優(yōu)。

在實(shí)驗(yàn)的最后發(fā)現(xiàn)，部分龐氏騙局所有投資人都獲得了回報(bào)，從交易特征觀察似乎并不符合龐氏騙局。這樣的龐氏騙局占比達(dá)到1∶5。查看這些賬戶(hù)的源代碼，發(fā)現(xiàn)其回報(bào)分配依舊呈現(xiàn)金字塔形態(tài)。另外，這些賬戶(hù)的投資者數(shù)量都太小。因此可以判斷，這部分龐氏騙局是被正確分類(lèi)的，但是由于是創(chuàng)建初期，其仍屬于吸引投資時(shí)期，需要靠給投資者分配回報(bào)增加它的影響力。

5 結(jié)束語(yǔ)

在對(duì)以太坊平臺(tái)的龐氏騙局進(jìn)行檢測(cè)中，提出了一種新的特征提取方法。在交易特征上還原龐氏騙局的金字塔回報(bào)率形式。在代碼特征提取方面，借助TF-IDF的思想，提出了一種結(jié)合頻率的操作碼重要指數(shù)的特征提取方式，提取的代碼特征從數(shù)據(jù)集出發(fā)，表示其對(duì)龐氏騙局的重要程度。針對(duì)訓(xùn)練過(guò)程梯度偏差以及預(yù)測(cè)偏移問(wèn)題，提出了新的集成學(xué)習(xí)方法Catboost，使用完全二叉樹(shù)作為基礎(chǔ)分類(lèi)器在最大程度上解決計(jì)算梯度估計(jì)時(shí)存在目標(biāo)泄漏導(dǎo)致的預(yù)測(cè)偏移問(wèn)題。

該方法在一定程度上仍存在少許不足，如召回率只達(dá)到了82%，意味18%的龐氏騙局被遺漏。在未來(lái)工作中，需對(duì)分類(lèi)模型進(jìn)行改進(jìn)，以期達(dá)到更高的準(zhǔn)確率。此外，類(lèi)別不平衡對(duì)實(shí)驗(yàn)結(jié)果仍存在一定的影響，后續(xù)工作中不可將類(lèi)別不平衡問(wèn)題的處理全部寄托于模型中，可考慮擴(kuò)大龐氏騙局類(lèi)別數(shù)量，一定最大限度類(lèi)別不平衡帶來(lái)的影響。