999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交易特征對(duì)以太網(wǎng)多類(lèi)型非法賬戶(hù)的分析與預(yù)測(cè)

2022-12-31 00:00:00周健閆石張杰黃世華
計(jì)算機(jī)應(yīng)用研究 2022年10期

摘要:日益頻繁的非法交易行為妨害以太坊安全交易,針對(duì)電子貨幣的匿名性使得非法交易行為難于跟蹤分析問(wèn)題。將以太坊平臺(tái)交易數(shù)據(jù)作為數(shù)據(jù)源,以被標(biāo)記的非法賬戶(hù)和未標(biāo)記的正常賬戶(hù)數(shù)據(jù)集作為訓(xùn)練集,利用交易數(shù)據(jù)的特征屬性為構(gòu)造基礎(chǔ),通過(guò)CatBoost算法對(duì)其中包含多種類(lèi)型的非法賬戶(hù)進(jìn)行整體預(yù)測(cè)。其過(guò)程通過(guò)T-SNE算法實(shí)現(xiàn)交易特征的降維可視化,采用多倍交叉驗(yàn)證,引入SHAP value因子判斷特征影響的正負(fù)屬性,所建立模型的預(yù)測(cè)效果準(zhǔn)確率達(dá)到了94.29%,感受者曲線(xiàn)下面積(AUC)數(shù)值的評(píng)估度量達(dá)到了0.984 6。該方案能較為準(zhǔn)確地預(yù)測(cè)以太坊交易平臺(tái)上存在的非法行為,有效改善基于區(qū)塊鏈的交易環(huán)境。

關(guān)鍵詞:區(qū)塊鏈;機(jī)器學(xué)習(xí);以太坊;非法賬戶(hù);交易特征

中圖分類(lèi)號(hào):TP311.13文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2022)10-005-2923-06

doi:10.19734/j.issn.1001-3695.2022.03.0113

Analysis and prediction of multi-type illegal accounts of Ether based on transaction characteristics

Zhou Jian1,2,Yan Shi1,Zhang Jie1,Huang Shihua1

(1.College of Management Science amp; Engineering,Anhui University of Finance amp; Economics,Bengbu Anhui 233040,China;2.College of Computer Science,Beijing University of Posts amp; Telecommunications,Beijing 100876,China)

Abstract:The increasingly frequent illegal transactions hinder the secure transactions of Ethereum,and the anonymity of electronic currency makes it difficult to track and analyze illegal transactions.This paper used the transaction data of the Ethereum platform as the data source,the marked illegal account and unmarked normal account data set as the training set,and the cha-racteristic attributes of the transaction data as the construction basis.

It used CatBoost algorithm to make an overall prediction of illegal accounts containing multiple types.It

used the T-SNE algorithm to realize the dimensionality reduction and visualization of transaction features,adopted multiple cross-validation,and introduced the SHAP value factor to judge the positive and negative attributes of the feature.The prediction effect accuracy rate of the established model reached 94.29%.The evaluation metric for the area (AUC) value reached 0.984 6.The proposed scheme can more accurately predict the illegal behavior on the Ethereum trading platform,and will effectively improve the blockchain-based trading environment.

Key words:blockchain;machine learning;Ethereum;illegal account;transaction feature

0引言

2008年區(qū)塊鏈技術(shù)被中本聰[1]提出,隨后以區(qū)塊鏈為基礎(chǔ)的電子虛擬貨幣[2,3],如比特幣(Bitcoin)[4,5]、以太坊(Ethereum)[6,7]、瑞波幣(Ripple)[8,9]等被應(yīng)用于電子交易中。然而區(qū)塊鏈技術(shù)的匿名性使得非法交易難于跟蹤和分析,這也進(jìn)一步吸引了犯罪分子,引發(fā)了更多的非法交易,如暗網(wǎng)交易[10]、違禁物品交易[11]、金融詐騙[12]等,全網(wǎng)首個(gè)利用區(qū)塊鏈智能合約技術(shù)[13]實(shí)施的網(wǎng)絡(luò)犯罪“BigGame”和“MDF項(xiàng)目”涉案數(shù)字貨幣130余萬(wàn)個(gè),市值約2 600余萬(wàn)元。基于區(qū)塊鏈技術(shù)犯罪成為一種新型高科技犯罪,嚴(yán)重妨害了電子虛擬貨幣交易的安全性和穩(wěn)定性。

基于區(qū)塊鏈的非法交易分析是一個(gè)挑戰(zhàn)性問(wèn)題。目前,非法交易行為的檢測(cè)仍然以鏈上數(shù)據(jù)的分析為主要方法。根據(jù)研究方法和研究目標(biāo)分為三類(lèi):

a)基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析方式。Fan等人[14]提出了一種許可區(qū)塊鏈的隱私保護(hù)DML模型,以解決其安全性能問(wèn)題,但在部署和實(shí)施上仍然存在不足;此后,比特幣和以太坊中都出現(xiàn)了一種典型欺詐活動(dòng)——智能龐氏騙局[15],以至于通過(guò)采用不同機(jī)器學(xué)習(xí)算法對(duì)其進(jìn)行深入研究以達(dá)到預(yù)測(cè)非法賬戶(hù)的目的,然而其在精度以及探究的問(wèn)題上依然存在不充分的問(wèn)題;Chen[16]則使用元啟發(fā)式算法在區(qū)塊鏈環(huán)境中找出合適的深度學(xué)習(xí)超參數(shù),以便進(jìn)一步探索區(qū)塊鏈之間的通信問(wèn)題,但其在參數(shù)的額外通信成本和等待同步等挑戰(zhàn)中,仍然存在不足。

b)基于復(fù)雜網(wǎng)絡(luò)和交易邏輯結(jié)構(gòu)的非法交易行為分析。如Lin等人[17]對(duì)以太坊中存在的智能龐氏騙局合約進(jìn)行分析,以尋找健康的區(qū)塊鏈交易環(huán)境,其在數(shù)量、數(shù)據(jù)和研究的非法賬戶(hù)類(lèi)型上還存在不充分的問(wèn)題;Meiklejohn等人[18]則是通過(guò)復(fù)雜網(wǎng)絡(luò)的方法進(jìn)行建模和理解以太坊中發(fā)生的交易信息,以挖掘出潛在的價(jià)值交易分析,但其所用方法不是整體的歸納方法,無(wú)法添加最新的節(jié)點(diǎn)表示。

c)基于特征值分析的方式。如早期通過(guò)對(duì)比特幣錢(qián)包[19]進(jìn)行分析,解析比特幣用于大規(guī)模犯罪所面臨的挑戰(zhàn)以及對(duì)比特幣環(huán)境[20,21]中存在的欺詐活動(dòng),但在特征提取以及監(jiān)督方法上存在不足問(wèn)題;Bartoletti等人[22]更深入地對(duì)以太坊中存在的大量龐氏騙局進(jìn)行了全面的分析調(diào)查,以總結(jié)其各類(lèi)觀點(diǎn)的影響,但其在應(yīng)用層面還缺乏不足,以及對(duì)于非法賬戶(hù)的類(lèi)型仍存在更廣泛的探究問(wèn)題。

總結(jié)以上這些方法,準(zhǔn)確度距離實(shí)際仍依舊存在差距,或者方法在性能上仍然存在優(yōu)化空間,以及在非法賬戶(hù)預(yù)測(cè)上只著重關(guān)注于某一種類(lèi)型,例如龐氏騙局[23,24]、釣魚(yú)節(jié)點(diǎn)[25,26]、非法洗錢(qián)[27,28]等,因此在對(duì)區(qū)塊鏈上存在非法賬戶(hù)行為的探究仍然存在不足。

針對(duì)以上存在的方法、性能及預(yù)測(cè)類(lèi)型不足等問(wèn)題,本文在原有交易特征基礎(chǔ)上進(jìn)行創(chuàng)新構(gòu)造,之后采用機(jī)器學(xué)習(xí)中[29,30]的K-means聚類(lèi)算法先對(duì)數(shù)據(jù)集中屬性特征進(jìn)行聚類(lèi)分析,再使用CatBoost[31,32]進(jìn)行非法賬戶(hù)的預(yù)測(cè)。根據(jù)劃分的特征屬性爬取全新的交易動(dòng)態(tài)數(shù)據(jù),其數(shù)據(jù)中的非法賬戶(hù)包含多種類(lèi)型,并呈無(wú)規(guī)則排列整理,利用T-SNE算法可視化出數(shù)據(jù)集在屬性特征中正常與非法賬戶(hù)的分布狀況,構(gòu)建后的模型在不同參數(shù)環(huán)境下,根據(jù)準(zhǔn)確率(accuracy)和感受者曲線(xiàn)下面積(receiver operating characteristic curve,AUC)數(shù)值這兩方面得出最優(yōu)預(yù)測(cè)效率的模型結(jié)構(gòu),通過(guò)引入SHAP value變量測(cè)出屬性特征影響模型構(gòu)建的正負(fù)性,并且本文將與其他機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,保證所選方法的高度優(yōu)良性。

1CatBoost算法

CatBoost算法作為梯度提升樹(shù)中最新的研究算法,并未應(yīng)用到對(duì)區(qū)塊鏈交易平臺(tái)上非法賬戶(hù)的預(yù)測(cè),其具有能夠很好地處理類(lèi)別特征問(wèn)題并且有效地減少過(guò)擬合問(wèn)題的特點(diǎn),根據(jù)式(1)將分類(lèi)特征值轉(zhuǎn)換為數(shù)值結(jié)果。

x^ik=∑p-1j=1[xσ,j,k=xσ,p,k]Yσ,j+a·p∑p-1j=1[xσ,j,k=xσ,p,k]+a(1)

其中:p是添加的先驗(yàn)項(xiàng);a是大于0的權(quán)重系數(shù);j是代表類(lèi)別特征值的系數(shù);k是訓(xùn)練樣本的系數(shù),i是第i個(gè)為類(lèi)別特征;∑p-1j=1[xσ,j,k=xσ,p,k]Yσj 是類(lèi)別特征值中等于標(biāo)簽值的次數(shù),∑p-1j=1[xσ,j,k=xσ,p,k]是總體類(lèi)別特征值個(gè)數(shù)。

而CatBoost算法作為梯度提升樹(shù)中的一種,采用對(duì)稱(chēng)樹(shù)作為基學(xué)習(xí)器,通過(guò)一組分類(lèi)器的串行迭代得出一個(gè)強(qiáng)學(xué)習(xí)器。CatBoost的第k次迭代目標(biāo)就是求hk ,即

hk=argh min1m∑mk=1[-fk(xk,yk)-h(xk)]2(2)

其中: fk(x,y)=σL[y,F(xiàn)k-1(x)]σFk-1(x)為梯度估計(jì),其中L[y,F(xiàn)k-1(x)]是損失函數(shù),F(xiàn)k-1(x)已完成的k-1步迭代形成的當(dāng)前的學(xué)習(xí)器。

為了得到梯度的無(wú)偏估計(jì),CatBoost結(jié)合本文數(shù)據(jù)集,具體建模過(guò)程如下:

a)對(duì)于非法賬戶(hù)數(shù)據(jù)集X中的每一個(gè)樣本xi,CatBoost會(huì)利用xi之外的全部訓(xùn)練樣本并得到模型Mi;

b)采用排序提升利用Mi計(jì)算xi的梯度估計(jì),即計(jì)算fk(x,y)的值;

c)利用新模型對(duì)樣本xi重新評(píng)估并形成一個(gè)基學(xué)習(xí)器;

d)進(jìn)一步對(duì)基學(xué)習(xí)器進(jìn)行處理,最終形成強(qiáng)學(xué)習(xí)器。以上過(guò)程在不斷地令非法賬戶(hù)數(shù)據(jù)集中的L[y,F(xiàn)k-1(x)]值變小,即減小模型在訓(xùn)練集中的預(yù)測(cè)誤差,最終形成CatBoost模型。

2非法賬戶(hù)檢測(cè)

2.1數(shù)據(jù)預(yù)處理

2.1.1交易特征

該數(shù)據(jù)集主要來(lái)源于兩部分,根據(jù)以太坊平臺(tái)公布的被標(biāo)記的非法賬戶(hù)數(shù)據(jù)集以及從平臺(tái)上爬取下來(lái)的正常賬戶(hù)數(shù)據(jù)集。以太坊社區(qū)所提供的非法賬戶(hù)數(shù)據(jù)集的類(lèi)型主要包括[33]:試圖模仿其他合同提供代幣的地址、詐騙彩票、假的初始硬幣、模仿其他交易用戶(hù)、智能龐氏合約騙局和釣魚(yú)節(jié)點(diǎn)。選取數(shù)據(jù)集中非法賬戶(hù)均包含上述多種類(lèi)型,所建模型針對(duì)其包含的多種類(lèi)型非法賬戶(hù)進(jìn)行結(jié)果預(yù)測(cè)。在對(duì)正常賬戶(hù)選取時(shí),從以太坊第1 209 500~12 010 000塊隨機(jī)選擇了4 024個(gè)正常賬戶(hù),非法賬戶(hù)則是通過(guò)以太坊公開(kāi)的被標(biāo)記數(shù)據(jù)集中選取了4 300個(gè)賬戶(hù)。通過(guò)對(duì)比收集到的正常賬戶(hù)與非法賬戶(hù)的地址,在篩選后,確保兩類(lèi)賬戶(hù)地址不存在重復(fù),因此總計(jì)得到了4 024個(gè)正常賬戶(hù)與4 300個(gè)非法賬戶(hù)。本文通過(guò)以太坊提供的API進(jìn)行數(shù)據(jù)爬取,先是將合計(jì)數(shù)據(jù)傳遞到Ethereum的API上,以獲得賬戶(hù)所從事的相關(guān)交易數(shù)據(jù)。本文觀察Steven等人[33]篩選出的43個(gè)特征屬性后,進(jìn)行創(chuàng)新構(gòu)造,將“min_val_sent”與“max_val_sent”兩個(gè)交易特征屬性進(jìn)行整合創(chuàng)建新的屬性特征,即“sent_Diff_betweent_ max_and_min”再利用這44個(gè)交易特征屬性進(jìn)行模型構(gòu)造,如表1所示。

2.1.2數(shù)據(jù)清洗

本文所選取數(shù)據(jù)集均來(lái)自于以太坊提供的實(shí)時(shí)交易數(shù)據(jù),因此復(fù)雜的數(shù)據(jù)交易需要檢查缺失值、無(wú)效值、空值的存在,以確保模型構(gòu)建后的準(zhǔn)確性和適用性。選擇利用Python對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,得知數(shù)據(jù)集中部分屬性特征的確存在缺失值和無(wú)效值,如表2所示。

根據(jù)上述結(jié)果,對(duì)存在問(wèn)題的屬性特征進(jìn)行處理,其原理是利用屬性特征中的整體數(shù)據(jù)進(jìn)行平均數(shù)的計(jì)算,得出的數(shù)值再填補(bǔ)到屬性特征的缺失值處或無(wú)效值處。

為確保數(shù)據(jù)清洗工作的完善性,通過(guò)觀察數(shù)據(jù)集具體分布情況,基于對(duì)噪聲數(shù)據(jù)的特征分布有以下特點(diǎn):a)超過(guò)90%的數(shù)據(jù)顯示為“0”值;b)在整個(gè)賬戶(hù)集中測(cè)量值與真實(shí)值存在較大誤差或無(wú)法得出其測(cè)量值;c)其特征屬性會(huì)影響模型預(yù)測(cè)的性能負(fù)擔(dān),如“total_ether_sent_contracts”“ERC20_avg_val_sent_contract”等多個(gè)特征屬性??紤]其或?yàn)槟P托阅茇?fù)擔(dān)形數(shù)據(jù),因此將此類(lèi)特征屬性進(jìn)行刪除,不引入最終的模型構(gòu)建。

2.2數(shù)據(jù)降維及聚類(lèi)分析

實(shí)驗(yàn)數(shù)據(jù)集特征空間呈現(xiàn)多維度化,利用T-SNE算法對(duì)其進(jìn)行非線(xiàn)性轉(zhuǎn)換,使其在2D平面中視覺(jué)出數(shù)據(jù)集賬戶(hù)標(biāo)簽類(lèi)型。T-SNE算法是一種通過(guò)二維或三維地圖給每個(gè)數(shù)據(jù)點(diǎn)一個(gè)位置實(shí)現(xiàn)高維數(shù)據(jù)可視化的統(tǒng)計(jì)方法,其算法主要有兩大優(yōu)勢(shì):a)對(duì)于不相似的點(diǎn),用一個(gè)較小距離會(huì)產(chǎn)生較大的梯度來(lái)讓這些點(diǎn)排斥開(kāi)來(lái);b)排除不會(huì)過(guò)于大,即避免不相似的點(diǎn)距離太遠(yuǎn)。具體算法邏輯如下:

算法1T-SNE算法運(yùn)行偽代碼

輸入:實(shí)驗(yàn)數(shù)據(jù)集,以及引用Python攜帶的三方庫(kù)。

輸出:T-SNE可視化后的圖形。

a)導(dǎo)入實(shí)驗(yàn)數(shù)據(jù)集。

b)去除實(shí)驗(yàn)數(shù)據(jù)集的無(wú)關(guān)列,即“address”,并將”FLAG“標(biāo)簽數(shù)據(jù)列作為單獨(dú)的y列。

c)利用StandardScaler函數(shù)標(biāo)準(zhǔn)化目標(biāo)特征,并設(shè)置T-SNE算法中的n_components參數(shù)為2,以滿(mǎn)足二維條件。

d)利用scatterplot函數(shù)生成可視化實(shí)驗(yàn)效果模型。

圖1表現(xiàn)出:a)標(biāo)簽和非標(biāo)簽數(shù)據(jù)有幾個(gè)可區(qū)分的集群,且這些集群分散在四周,呈點(diǎn)狀式分布排列;b)標(biāo)簽和非標(biāo)簽數(shù)據(jù)類(lèi)型的集群任然存在大部分的重疊;c)在右下角明顯存在小簇“非法”賬戶(hù)標(biāo)簽集群。以上結(jié)果強(qiáng)調(diào)了使用機(jī)器學(xué)習(xí)的重要性,以區(qū)分兩個(gè)二進(jìn)制類(lèi)型。

通過(guò)引用K-means聚類(lèi)算法對(duì)數(shù)據(jù)的類(lèi)別進(jìn)行分類(lèi)歸整,其實(shí)際意義是將數(shù)據(jù)集中的屬性特征類(lèi)別進(jìn)一步聚類(lèi)分析,觀察其不同賬戶(hù)類(lèi)別中是否處于同一實(shí)際效果,為確定K-means算法中K值的最優(yōu)質(zhì)心,實(shí)驗(yàn)選用肘部法則(elbow rule)以確定K的最優(yōu)取值,根據(jù)肘部法則效果圖可以清晰地觀察到本文使用的實(shí)驗(yàn)數(shù)據(jù)集最優(yōu)質(zhì)心K為2,即當(dāng)K=2時(shí),下降幅度曲線(xiàn)明顯趨近于緩慢,具體效果如圖2所示。

由圖3的聚類(lèi)效果可知,實(shí)驗(yàn)選取不同賬戶(hù)類(lèi)別數(shù)據(jù)集除小部分顯示為不同類(lèi)別特征,大部分均為相同類(lèi)別特征,進(jìn)一步強(qiáng)調(diào)了實(shí)驗(yàn)選用機(jī)器學(xué)習(xí)方法的重要性。

3實(shí)驗(yàn)結(jié)果分析

3.1參數(shù)評(píng)估

通過(guò)創(chuàng)建新的交易特征屬性以及K-means聚類(lèi)算法的初步聚類(lèi)整合,之后建模實(shí)驗(yàn)流程均在Python 3.9環(huán)境中實(shí)現(xiàn),首先讀取實(shí)驗(yàn)中的數(shù)據(jù)集,在使用CatBoost算法對(duì)數(shù)據(jù)集進(jìn)行模型建立時(shí),本文考慮了學(xué)習(xí)率(learning_rate)、學(xué)習(xí)器的數(shù)量(n_estimators)和最大深度(max_depth)三個(gè)重要的因素。

由于模型在訓(xùn)練時(shí),無(wú)法確定參數(shù)最優(yōu)情況,利用網(wǎng)格搜索優(yōu)化法對(duì)CatBoost算法進(jìn)行參數(shù)調(diào)整。除上述所選取的三個(gè)重要參數(shù)因素外,CatBoost算法的參數(shù)還包括最大樹(shù)數(shù)(itera-tions)、數(shù)值型參數(shù)的分割數(shù)(border_count)、葉的測(cè)試方法(leaf_estimation_method)、l2的正則參數(shù)(l2_leaf_reg)等,參數(shù)的具體釋義如表3所示。進(jìn)行調(diào)參時(shí),先保證其他參數(shù)保持不變,使用網(wǎng)格搜索法先對(duì)border_count參數(shù)進(jìn)行調(diào)優(yōu),進(jìn)而對(duì)iterations以及l(fā)earning_rate作進(jìn)一步的調(diào)優(yōu),緊接著再確定樹(shù)的深度(depth),最終確定模型參數(shù)結(jié)構(gòu)。對(duì)所選取的參數(shù)進(jìn)行調(diào)參后,其優(yōu)化的具體結(jié)果如表4所示。

根據(jù)上述調(diào)優(yōu)結(jié)果,利用Python環(huán)境對(duì)CatBoost算法在不同交叉倍數(shù)驗(yàn)證下得出結(jié)果,如表5所示,實(shí)驗(yàn)結(jié)果取同層實(shí)驗(yàn)的平均數(shù)作為最終數(shù)值。

根據(jù)表5所示,在3,4,5,11,12倍交叉驗(yàn)證下最終所得的結(jié)果遠(yuǎn)不如10倍交叉驗(yàn)證,10倍交叉驗(yàn)證有效加強(qiáng)了模型的構(gòu)建,以及對(duì)以太坊中非法賬戶(hù)預(yù)測(cè)的精度作出進(jìn)一步的提升。

3.2模型評(píng)估效果

利用網(wǎng)格搜索優(yōu)化法,本文已經(jīng)確定了三個(gè)對(duì)構(gòu)建模型起到至關(guān)重要的三個(gè)元素:a)學(xué)習(xí)率;b)樹(shù)深;c)學(xué)習(xí)器的數(shù)量。而通過(guò)上述實(shí)驗(yàn)分析,基于AUC數(shù)值以及對(duì)數(shù)損失函數(shù)(Logloss)對(duì)本實(shí)驗(yàn)再次細(xì)化,根據(jù)樹(shù)深以及學(xué)習(xí)器數(shù)量的不同分別在10倍交叉驗(yàn)證下進(jìn)行模型預(yù)測(cè)能力評(píng)估,其結(jié)果以折線(xiàn)圖形式表現(xiàn)走向趨勢(shì)。如圖4所示。

通過(guò)圖4可知,樹(shù)的深度為2時(shí),其AUC數(shù)值在學(xué)習(xí)器數(shù)量增高時(shí)明顯低于其他深度,但為一個(gè)典型的增長(zhǎng)趨勢(shì),而隨著樹(shù)深值的增大,AUC的評(píng)估度量也在逐步升高,模型參數(shù)調(diào)整的最優(yōu)結(jié)果也可從圖中顯示出,當(dāng)樹(shù)深在5(depth=5),學(xué)習(xí)器數(shù)量抵達(dá)300(n_estimators=300)時(shí),模型此時(shí)的AUC數(shù)值略高于其他參數(shù)結(jié)果,

而基于參數(shù)Logloss(對(duì)數(shù)損失)由CatBoost算法分別在訓(xùn)練集和測(cè)試集中執(zhí)行迭代次數(shù)。從圖5可觀察到,CatBoost算法在100次迭代之后兩類(lèi)數(shù)據(jù)集同時(shí)開(kāi)始走向收斂,可以證明實(shí)驗(yàn)構(gòu)建的模型的預(yù)測(cè)能力具有較好的適應(yīng)性。

為評(píng)估模型的預(yù)測(cè)能力,從測(cè)試集中隨機(jī)抽取20個(gè)樣本,以觀察模型的預(yù)測(cè)能否達(dá)到實(shí)際契合效果,如表6所示。

表6反映出,模型在隨機(jī)抽取20個(gè)樣本進(jìn)行預(yù)測(cè),所產(chǎn)生的結(jié)果與原結(jié)果只有一個(gè)不同,說(shuō)明模型具有較強(qiáng)的預(yù)測(cè)能力。為驗(yàn)證這一結(jié)果的可靠性,本文在隨機(jī)抽取樣本的范圍上進(jìn)行擴(kuò)大,如圖6所示。

圖6反映出模型預(yù)測(cè)概率雖然開(kāi)始時(shí)呈現(xiàn)大幅度下降,但隨著隨機(jī)樣本的擴(kuò)大,模型的預(yù)測(cè)能力逐漸趨于平穩(wěn),根據(jù)模型最終對(duì)整體數(shù)據(jù)集的預(yù)測(cè),預(yù)測(cè)準(zhǔn)確度達(dá)到0.940 7,這進(jìn)一步說(shuō)明本文的模型結(jié)構(gòu)對(duì)以太坊中非法賬戶(hù)的預(yù)測(cè)具有較強(qiáng)的適應(yīng)性和準(zhǔn)確性。

3.3特征重要性

在構(gòu)造對(duì)以太坊中非法賬戶(hù)預(yù)測(cè)的模型時(shí),本文也針對(duì)所選取數(shù)據(jù)集中的屬性特征進(jìn)行重要性的排序,因此列舉了對(duì)模型構(gòu)建具有較強(qiáng)影響性的十大重要特征,如圖7所示。

通過(guò)上述圖形結(jié)果可知,total_ether_balance、sent_tnx以及unique_Received_from_Addresses這個(gè)屬性特征為顯著重要變量,而time_Diff_between_first_and_last_(Mins)、avg_min_ between_sent_tnx、min_value_received、unique_Sent_To_ Addresses、avg_val_sent、max_val_sent和min_val_sent這七個(gè)預(yù)測(cè)變量則為一般重要變量,而剩余的33個(gè)預(yù)測(cè)變量其重要性所占比值都接近于0甚至等于0,具體的完整預(yù)測(cè)變量重要性如表7所示。

因此可知在CatBoost算法對(duì)數(shù)據(jù)集建模過(guò)程中,不同的屬性特征對(duì)其構(gòu)造模型的影響是不同的,在對(duì)特征屬性收集劃分中需要整理更多潛在可能影響到模型建造的特征屬性,才能使模型的適用性和準(zhǔn)確性得到提升。

實(shí)驗(yàn)為進(jìn)一步探究特征屬性對(duì)樣本的影響狀況,引入SHAP valve變量,表現(xiàn)出其影響的正負(fù)性,具體結(jié)果如圖8所示。

通過(guò)圖8的表現(xiàn),結(jié)合feauture important(屬性特征重要性)的結(jié)果,可視化出排名前十的特征屬性,其中顏色代表特征取值的大?。ㄒ?jiàn)電子版),寬度代表特征分布。若SHAP value小于零,則對(duì)標(biāo)簽特征產(chǎn)生負(fù)影響;否則對(duì)標(biāo)簽特征產(chǎn)生正影響。圖中,Unique_Received_from_Address特征屬性的正影響因子顯著高于負(fù)影響因子,然而sent_tnx、Time_Diff_between_first_and_last_(Mins)這兩個(gè)特征屬性的負(fù)影響因子高于正影響因子。通過(guò)引入SHAP value變量可直觀的判斷出不同屬性特征對(duì)模型構(gòu)建影響的正負(fù)性。

3.4模型對(duì)比

通過(guò)交易特征的創(chuàng)建以及其他算法與CatBoost的結(jié)合,再與其他算法模型和其本身原有模型進(jìn)行比較,分別使其在10倍交叉驗(yàn)證下對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行預(yù)測(cè),以此驗(yàn)證本文所選用方法的效果。具體情況如表8所示。

根據(jù)表8所示,本文選用的改進(jìn)后CatBoost算法通過(guò)交易特征的創(chuàng)建并利用K-means聚類(lèi)算法先對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行聚類(lèi)整合,再運(yùn)用CatBoost算法進(jìn)行模型的搭建,其結(jié)果無(wú)論在精確度或AUC數(shù)值上均高于其他算法,即本文所構(gòu)建的模型結(jié)構(gòu)對(duì)以太坊中非法賬戶(hù)的預(yù)測(cè)擁有較好的準(zhǔn)確性以及適應(yīng)性。而列舉的其他算法中,與CatBoost算法屬于同一梯度提升樹(shù)的LightGBM算法,其雖然在AUC數(shù)值上有良好表現(xiàn),但其精確度卻明顯小于CatBoost算法。而與單純的CatBoost算法比較,其精確度與AUC數(shù)值均有略微的提升。綜上所述,CatBoost算法通過(guò)對(duì)比其他算法模型,進(jìn)一步證明其在對(duì)本文收集到的以太坊賬戶(hù)數(shù)據(jù)集關(guān)于非法賬戶(hù)預(yù)測(cè)上有優(yōu)異的預(yù)測(cè)能力,這也使本文所構(gòu)建的算法模型更具有說(shuō)服力。

4結(jié)束語(yǔ)

基于對(duì)以太坊中公開(kāi)的賬戶(hù)數(shù)據(jù)集的搜集與整理,本文利用Python開(kāi)發(fā)環(huán)境使用CatBoost算法對(duì)整理的數(shù)據(jù)集進(jìn)行模型構(gòu)建,所構(gòu)建模型具有預(yù)測(cè)未來(lái)以太坊中非法賬戶(hù)的能力。構(gòu)建模型不僅在精確度以及AUC數(shù)值方面有較高水準(zhǔn),還展現(xiàn)了其預(yù)測(cè)變量重要性的順序以及具體對(duì)模型有正負(fù)影響力的能力。本文算法模型具有較強(qiáng)的適應(yīng)性,方法也建立在基礎(chǔ)層面,對(duì)其他應(yīng)用領(lǐng)域均有預(yù)測(cè)作用,在本文的基礎(chǔ)上可以通過(guò)進(jìn)一步的優(yōu)化和改進(jìn)以探究區(qū)塊鏈交易平臺(tái)中更深層次的非法行為。根據(jù)以太坊中海量賬戶(hù)之間的交易歷史來(lái)檢測(cè)是否存在非法賬戶(hù),從而為這一研究領(lǐng)域作出了貢獻(xiàn),該算法模型也可以被相關(guān)的經(jīng)濟(jì)機(jī)構(gòu)和部門(mén)所使用。

關(guān)于未來(lái)的工作,團(tuán)隊(duì)會(huì)用已有的架構(gòu)模型在其他應(yīng)用領(lǐng)域進(jìn)行預(yù)測(cè),以保證模型的適用性和可實(shí)踐性,對(duì)于不僅存在在以太坊中的非法賬戶(hù)預(yù)測(cè),而且其他關(guān)于基于區(qū)塊鏈的交易平臺(tái)非法預(yù)測(cè),團(tuán)隊(duì)都將進(jìn)行分析與探究。在關(guān)于屬性特征上,會(huì)進(jìn)一步嘗試提取區(qū)塊鏈交易中的新型特征,以完善模型在預(yù)測(cè)非法賬戶(hù)上的能力。本文使用CatBoost算法對(duì)模型進(jìn)行搭建,其本身也存在或多或少的缺陷,會(huì)通過(guò)優(yōu)化算法對(duì)模型預(yù)測(cè)能力的準(zhǔn)確度上進(jìn)行提升,使模型更具效率和說(shuō)服力。

參考文獻(xiàn):

[1]Nakamoto S.Bitcoin:a peer-to-peer electronic cash system[EB/OL].(2008-10-31).https://nakamotoinstitute.org/bitcoin.

[2]Tschorsch F,Scheuermann B.Bitcoin and beyond:a technical survey on decentralized digital currencies[J].IEEE Communications Surveys and Tutorials,2016,18(3):2084-2123.

[3]Chipere M.Virtual currency as an inclusive monetary innovation for the unbanked poor[J].Electronic Commerce Research and App-lications,2018,28:37-43.

[4]Bohme R,Christin,N,Edelman,B,et al.Bitcoin:economics,techno-logy,and governance[J] .Journal of Economic Perspective,2015,29(2):213-238

[5]Sajana P,Sindhu M,Sethumadhavan M.On blockchain applications:Hyperledger fabric and Ethereum[J].International Journal of Pure and Applied Mathematics,2018,118(18):2965-2970.

[6]Wang Shuai,Ouyang Liwei,Yuan Yong,et al.Blockchain-enabled smart contracts:architecture,applications,and future trends[J].IEEE Trans on Systems Man and Cybernetics-Systems,2019,49(11):2266-2277.

[7]Hasan M,Naeem M A,Arif M,et al.Higher moment connectedness in cryptocurrency market[J].Journal of Behavioral and Experimental Finance,2021,32:100562.

[8]Kristoufek L,Vosvrda M.Cryptocurrencies market efficiency ranking:not so straightforward[J].Physica-Statistical Mechanics and Its Applications,2019,531:120853.

[9]ElBahrawy A,Alessandretti L,Rusnac L,et al.Collective dynamics of dark Web marketplaces[J].Scientific Reports,2020,10(1):18827.

[10]Lehdonvirta V.Virtual item sales as a revenue model:identifying attributes that drive purchase decisions[J] .Electronic Commerce Research,2009,9(1-2):97-113.

[11]Hyvarinen H,Risius M,F(xiàn)riis G,et al.A blockchain-based approach towards overcoming financial fraud in public sector services[J].Business amp; Information Systems Engineering,2017,59(6):441-456.

[12]Bayramova A,Edwards D J,Roberts C,et al.The role of blockchain technology in augmenting supply chain resilience to cybercrime[J].Buildings,2021,11(7):283.

[13]Kim H,Kim S H,Hwang J Y,et al.Efficient privacy-preserving machine learning for blockchain network[J].IEEE Access,2019 ,7:136481-136495.

[14]Fan Shuhui,F(xiàn)u Shaojing,Xu Haoran,et al.Anti-leakage smart Ponzi schemes detection in blockchain[J].Information Processing amp; Management,2021,58(4):102587 .

[15]Tsai C W,Chen Yipeng,Tang T C,et al.An efficient parallel machine learning-based blockchain framework[J].ICT Express,2021,7(3):300-307.

[16]Chen Weili.Detecting Ponzi schemes on Ethereum:towards healthier blockchain technology[C]//Proc of World Wide Web Conference.2018:1409-1418.

[17]Lin Dan,Wu Jiajing,Yuan Qi,et al.Modeling and understanding Ethereum transaction records via a complex network approach[J].IEEE Trans on Circuits and Systems,2020,67(11):2737-2741.

[18]Meiklejohn S,Pomarole M,Jordan G,et al.A fistful of bitcoins:cha-racterizing payments among men with no names[J].Communication of the ACM,2016,59(4):86-93.

[19]Monamo P,Marirate V,Twala B,et al.Unsupervised learning for robust Bitcoin fraud detection[C]//Proc of Conferene on Information Security for South Africa.Piscataway,NJ:IEEE Press,2016:129-134.

[20]Abad-Segura E,Infante-Moro A,Gonzalez-Zamar M D,et al.Blockchain technology for secure accounting management:research trends analysis[J].Mathematics,2021,9(14):1631.

[21]Bartoletti M,Carta S,Cimoli T,et al.Dissecting Ponzi schemes on Ethereum:identification,analysis,and impact[J].Future Generation Computer Systems,2020,101:259-277.

[22]Bartoletti M,Carta S,Cimoli T,et al.Dissecting Ponzi schemes on Ethereum:identification,analysis,and impact[J].Future Generation Computer Systems-The International Journal of Escience,2020,102:257-277.

[23]Gurun U G,Stoffman N,Yonker S E.Trust busting:the effect of fraud on investor behavior[J].Review of Financial Studies,2018,31(4):1341-1376.

[24]Chen Liang,Peng Jiaying,Liu Yang,et al.Phishing scams detection in Ethereum transaction network[J].ACM Trans on Internet Techno-logy,2021,21(1):1-16.

[25]Lin Guoyan,Liu Bowen,Xiao Pengcheng,et al.Phishing detection with image retrieval based on improved texton correlation descriptor[J].Computers Materials amp; Continue,2018,57(3):533-547.

[26]Malcolm C V.Bitcoin,crypto-coins,and global anti-money laundering governance[J].Crime Law And Social Change,2018,69(2):283-305.

[27]Ducas E,Wilner A.The security and financial implications of blockchain technologies:regulating emerging technologies in Canada[J].International Journal,2017,72(4):538-562.

[28]Bradley A P.The use of the area under the ROC curve in the evaluation of machine learning algorithms[J].Pattern Recognition,1997,30(7):1145-1159.

[29]周健,張杰,閆石.基于鏈上數(shù)據(jù)的區(qū)塊鏈欺詐賬戶(hù)檢測(cè)研究[J].計(jì)算機(jī)應(yīng)用研究,2022,39(4):992-997.(Zhou Jian,Zhang Jie,Yan Shi.Research on blockchain of fraud account detection based on data onchain[J].Application Research of Computers,2022,39(4):992-997.)

[30]俞莎莎,牛保寧.基于交易不可信度的比特幣非法交易檢測(cè)[J].計(jì)算機(jī)工程,2022,48(8):166-172.

(Yu Shasha,Niu Baoning.Detection of Bitcoin transaction based on transaction unreliability[J].Computer Engineering,2022,48(8):166-172.)

[31]Huang Guomin,Wu Lifeng,Ma Xin,et al.Evaluation of CatBoost method for prediction of reference evapotranspiration in humid regions[J] .Journal of Hydrology,2019,574:1029-1041.

[32]Punmiya R,Choe S.Energy theft detection using gradient boosting theft detector with feature engineering-based preprocessing[J].IEEE Trans on Smart Grid,2019,10(2):2326-2329.

[33]Steven F,Joshua E,George A.Detection of illicit accounts over the Ethereum blockchain[J].Expert Systems with Applications,2020,150(7):113318.

收稿日期:2022-03-23;修回日期:2022-05-06基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61402001);安徽省高等學(xué)校自然基金資助項(xiàng)目(KJ2020A0013,KJ2019A0657,KJ2018A0441);安徽財(cái)經(jīng)大學(xué)重點(diǎn)項(xiàng)目(ACKY1815ZDB,ACKYB19012);安徽財(cái)經(jīng)大學(xué)科研創(chuàng)新基金項(xiàng)目(ACYC2020369)

作者簡(jiǎn)介:周健,男,安徽蚌埠人,教授,碩導(dǎo),博士(后),主要研究方向?yàn)橹悄苌虅?wù)與數(shù)據(jù)挖掘;閆石,男(通信作者),安徽合肥人,碩士,主要研究方向?yàn)橹悄苌虅?wù)與數(shù)據(jù)挖掘(467581941@qq.com);張杰,男,安徽六安人,碩士,主要研究方向?yàn)橹悄苌虅?wù)與數(shù)據(jù)挖掘;黃世華,女,河南信陽(yáng)人,碩士,主要研究方向?yàn)橹悄苌虅?wù)與數(shù)據(jù)挖掘.

主站蜘蛛池模板: 国产微拍精品| 久无码久无码av无码| 日本日韩欧美| 日韩黄色在线| 国产成人福利在线| 综合久久久久久久综合网| 国产精品男人的天堂| 亚洲午夜国产片在线观看| 精品国产免费观看一区| 国精品91人妻无码一区二区三区| 91蝌蚪视频在线观看| 国产午夜人做人免费视频中文 | 手机在线免费毛片| 制服丝袜在线视频香蕉| 亚洲无限乱码一二三四区| 91国内在线观看| 国产精品主播| 婷婷激情亚洲| 亚洲中文无码h在线观看| 人妻丰满熟妇av五码区| 婷婷色中文| 国产精品成人AⅤ在线一二三四| 色AV色 综合网站| 国产真实自在自线免费精品| 亚洲大学生视频在线播放| 免费女人18毛片a级毛片视频| 九色91在线视频| 奇米精品一区二区三区在线观看| 成人在线亚洲| 久久男人资源站| 先锋资源久久| 亚洲黄色网站视频| 国产在线观看一区精品| 日本精品视频一区二区| 国产成人91精品| 一区二区理伦视频| 国产欧美日韩精品第二区| 一本大道无码日韩精品影视| 免费一极毛片| 国产真实乱了在线播放| 国产人成在线视频| 国产理论最新国产精品视频| 亚洲日韩国产精品综合在线观看| 99在线视频精品| 国产裸舞福利在线视频合集| 激情五月婷婷综合网| 国内精品视频| 国产第一页免费浮力影院| 一区二区三区四区在线| 久久精品丝袜| 日韩精品一区二区三区免费在线观看| 大香网伊人久久综合网2020| 久久久久久午夜精品| 久久国产高潮流白浆免费观看| 无码丝袜人妻| 国产视频大全| 2020亚洲精品无码| 国产毛片高清一级国语| 国产精品无码久久久久久| 亚洲国产成人超福利久久精品| 久久精品aⅴ无码中文字幕| 日本黄色a视频| 国产91精品调教在线播放| 久久久久人妻精品一区三寸蜜桃| 久久香蕉欧美精品| 青青草久久伊人| av天堂最新版在线| 国产三区二区| 久久亚洲天堂| 中文纯内无码H| 欧美国产日韩另类| 国产男女免费视频| 人人爱天天做夜夜爽| 一边摸一边做爽的视频17国产| 亚洲Av激情网五月天| 无码国产伊人| 在线播放精品一区二区啪视频| 日韩欧美在线观看| 真实国产乱子伦高清| 日韩精品毛片人妻AV不卡| 亚洲免费福利视频| 国产人在线成免费视频|