基于GAT與SVM的區(qū)塊鏈異常交易檢測

2024-02-18 20:50:24譚朋柳周葉

計算機應(yīng)用研究 2024年1期

譚朋柳周葉

摘要：公有鏈因為透明公開而面臨著眾多惡意交易和非法加密活動的問題，這造成了區(qū)塊鏈出現(xiàn)異常交易，對用戶的資產(chǎn)和信息安全造成嚴重損害。針對區(qū)塊鏈異常交易問題，提出一種關(guān)注區(qū)塊鏈事務(wù)圖局部結(jié)構(gòu)鄰節(jié)點特征與聯(lián)系，基于圖注意神經(jīng)網(wǎng)絡(luò)（graph attention network，GAT）與支持向量機（support vector machine，SVM）相融合的區(qū)塊鏈異常交易檢測方法——GAS（graph attention network and support vector machine）。采用隨機森林對節(jié)點交易數(shù)據(jù)特征進行重要性評估，并選取降序排列后前140個重要特征，再結(jié)合鄰節(jié)點特征，利用GAT對當前節(jié)點進行特征更新，更新后的特征作為SVM的輸入，從而實現(xiàn)異常檢測。實驗結(jié)果表明，相比非融合方法，GAS檢測結(jié)果性能更優(yōu)，準確率可達98.11%，精度可達94.01%以及召回率可達85.48%。

關(guān)鍵詞：區(qū)塊鏈；圖注意力神經(jīng)網(wǎng)絡(luò)；異常交易檢測；支持向量機

中圖分類號：TP311.13;TP309?? 文獻標志碼：A?? 文章編號：1001-3695（2024）01-003-0021-05

doi：10.19734/j.issn.1001-3695.2023.05.0207

Blockchain anomaly transaction detection based on GAT and SVM

Abstract：Public chains face numerous problems of malicious transactions and illegal cryptographic activities because of their transparency and openness， which cause anomalous transactions in blockchains and cause serious damage to users assets and information security. To address the problem of blockchain abnormal transactions， this paper proposed a blockchain abnormal transaction detection method based on the fusion of GAT and SVM， which focused on the features and connections of the local structure of the blockchain transaction graph neighbor nodes——GAS. In GAS， it utilized the random forest to evaluate the importance of transaction data features of nodes， and selected the top 140 important features in descending order. Then， combining with the features of neighboring nodes， it used GAT to update the features of the current node. The updated features served as input to SVM for anomaly detection. Experimental results demonstrate that compared to non-integrated methods， GAS shows superior performance in detecting anomalies， with an accuracy rate of 98.11%， precision of 94.01%， and recall rate of 85.48%.

Key words：blockchain; graph attention network; abnormal transaction detection; SVM

0 引言

區(qū)塊鏈是一個開放式數(shù)據(jù)平臺，在這個平臺上產(chǎn)生的交易會被礦工打包至區(qū)塊并上鏈，且所有的交易都會被記錄在鏈上。區(qū)塊鏈網(wǎng)絡(luò)中賬戶的資產(chǎn)以及交易記錄都是透明公開的，它們會直接顯示在每個區(qū)塊上，這種透明性為存儲區(qū)塊鏈交易數(shù)據(jù)提供了便捷［1］，使得交易的記錄和資產(chǎn)的流轉(zhuǎn)變得更加高效。區(qū)塊鏈這種分布式加密賬本以移除第三方的形式實現(xiàn)了去中心化、低成本、點對點的交易，被廣泛地應(yīng)用于金融、醫(yī)療、物流、物聯(lián)網(wǎng)和其他領(lǐng)域［2］。但區(qū)塊鏈自身去中心化、全球流通和匿名性性質(zhì)也帶來了鏈上交易的異常安全問題，常見的安全問題有攻擊、騙局、賬戶異常行為、私鑰泄露以及智能合約安全漏洞等［3］，其中雙花攻擊（使用同一筆加密貨幣支付給不同的賬戶進行多次交易）、交易數(shù)據(jù)造假、價格操縱、洗錢、勒索和頻繁惡意操作以及區(qū)塊鏈上的不符合正常交易規(guī)則或有問題的交易等構(gòu)成了區(qū)塊鏈上的異常交易。特別地，區(qū)塊鏈中比特幣等虛擬貨幣的加入讓網(wǎng)絡(luò)和金融領(lǐng)域的犯罪分子日益增多，他們將加密貨幣作為犯罪工具，實施敲詐、欺詐和洗錢等。例如，2018年，日本Coincheck虛擬貨幣交易所，其不幸被黑客攻擊，價值約580億日元新經(jīng)幣被竊取［3］。同年2月，加密貨幣創(chuàng)業(yè)公司BeeToken遭到網(wǎng)絡(luò)釣魚攻擊，損失的以太幣價值超過100萬美元。至2020年，全球加密貨幣交易中，有0.34%屬于非法交易，總值高達100億美元。而在2021年，大約有0.15%的加密貨幣交易牽扯到網(wǎng)絡(luò)犯罪、洗錢和恐怖主義融資等活動，欺詐案件［4］涉及資金總額約為140億美元。2022年，加密貨幣非法交易犯罪金額超過200億美元，創(chuàng)下歷史新高，這種情況對區(qū)塊鏈技術(shù)的發(fā)展造成了負面影響。

在此背景下，有關(guān)區(qū)塊鏈交易的違法活動層出不窮。為了應(yīng)對這些違規(guī)性問題，現(xiàn)有的區(qū)塊鏈交易異常檢測方法大多考慮的是通過獲取交易記錄構(gòu)建交易圖，對交易記錄中實體和地址進行識別且分類，或是對以太坊上智能合約漏洞檢測［5］以及異常交易行為檢測［6］。部分研究忽略了交易賬戶實體與實體之間存在的潛在聯(lián)系，這種潛在聯(lián)系體現(xiàn)于鄰節(jié)點的特性上，當以賬戶實體作為交易圖中一個節(jié)點時，當前節(jié)點其鄰域內(nèi)的鄰居節(jié)點交易特征包含了當前節(jié)點的交易信息，例如，鄰節(jié)點是當前節(jié)點發(fā)起交易的對象，惡意節(jié)點的交易對象可能是惡意節(jié)點或是良性節(jié)點等。而忽略這種潛在聯(lián)系，不利于找到不同節(jié)點之間多維度的關(guān)聯(lián)，因而降低了檢測準確率。

大數(shù)據(jù)時代，深度學習神經(jīng)網(wǎng)絡(luò)技術(shù)學習能力強，應(yīng)用領(lǐng)域廣泛，擴展了人工智能的極限，開辟了新的可能性。同時，機器學習作為人工智能子集，其中包含如K最鄰近、決策樹、支持向量機等有監(jiān)督學習，在分類預測問題上表現(xiàn)良好。因此，本文利用深度學習與機器學習模型進行結(jié)合，對區(qū)塊鏈異常交易檢測進行研究，提出一種將GAT［7］與機器學習SVM［8］融合的方法用于異常交易數(shù)據(jù)檢測，在特征處理時主要采用GAT對區(qū)塊鏈事務(wù)圖結(jié)構(gòu)當前節(jié)點實現(xiàn)特征更新，更新后的數(shù)據(jù)將利用支持向量機來處理，以此提高檢測準確率。

1 相關(guān)工作

區(qū)塊鏈可以實現(xiàn)數(shù)據(jù)安全共享，以交易的形式將數(shù)據(jù)發(fā)布到區(qū)塊鏈中，充分發(fā)揮了數(shù)據(jù)價值［9］。區(qū)塊鏈中加密貨幣以比特幣為例，總市值接近330億美元［10］，其去中心化無須可信任第三方就能通過區(qū)塊鏈平臺進行交易的交易模式，使得交易中容易存在非法犯罪活動等異常交易，嚴重威脅區(qū)塊鏈的健康發(fā)展，這給區(qū)塊鏈的安全測評及異常檢測帶來了極大的挑戰(zhàn)。

在多數(shù)異常檢測研究中，機器學習是常用的方法。機器學習中的SVM算法基于結(jié)構(gòu)化最小化原則，泛化能力強，可以解決高維問題，被廣泛使用。例如，胡海洋等人［11］提取數(shù)據(jù)的高維特征來訓練降噪自編碼器，自編碼器將數(shù)據(jù)特征降維后，使用one-class單分類支持向量機進行二次異常事件檢測。朱佳佳等人［12］同樣將改進的SVM算法用于異常流量檢測。目前，在區(qū)塊鏈的異常交易檢測領(lǐng)域有大量的研究。針對一些特定的異常交易行為，Wu等人［13］提出了一種名為trans2vec的網(wǎng)絡(luò)嵌入算法，基于收集到的交易記錄，并參照交易量和時間戳建立交易網(wǎng)絡(luò)，通過提取地址特征，運用one-class單分類支持向量機模型，實現(xiàn)異常檢測。2019年，Lin等人［14］利用與賬戶實體有關(guān)的交易記錄或特定的地址來識別不常見的地址，利用監(jiān)督的機器學習方法對交易歷史特征進行檢測，最后Light-GBM獲得了不錯的效果。2021年，沈蒙等人［15］制定異常行為判定規(guī)則，抽象出了兩種異常交易行為，即空投糖果和貪婪注資，這些可以與其他不同類別的異常交易行為相關(guān)聯(lián)，從而創(chuàng)建比特幣異常交易行為真值集，在動機分析基礎(chǔ)下利用子圖匹配技術(shù)實現(xiàn)比特幣異常交易行為檢測。2022年3月，陳彬杰等人［16］提出了具有隱私保護功能的聯(lián)盟鏈異常交易檢測方案，將提取后的交易數(shù)據(jù)采用矩陣乘法對其隨機化，然后發(fā)至云服務(wù)器，云服務(wù)器使用KNN分類學習算法進行檢測。2022年10月，林偉［17］根據(jù)區(qū)塊鏈交易數(shù)據(jù)的特點，多特征融合后處理成不同的拼接特征向量，以此構(gòu)建多特征融合模型（multi feature fusion，MFF）模型。

區(qū)塊鏈交易研究中，把數(shù)據(jù)特征轉(zhuǎn)換為交易事務(wù)圖作為重點的研究方法相對較少。2016年，Pham［18，19］采用冪律和網(wǎng)絡(luò)視圖濃縮法對比特幣用戶圖和交易圖進行特征提取，緊接著應(yīng)用局部離群因子（LOF）、基于馬蘭諾比斯距離（Mahalanobis distance-based，MDB）以及one-class SVM單分類支持向量機三種方法對數(shù)據(jù)進行檢測。2018年，Jourdan等人［20］分析比特幣交易圖中賬戶實體交易模式，以及與該交易模式有關(guān)聯(lián)的賬戶實體所涵蓋的信息，選出重要特征并利用特征來描述屬性，根據(jù)每個實體關(guān)聯(lián)的類別的方法進行分類，將模型分為具有淺層數(shù)據(jù)挖掘知識的弱小攻擊者與強攻擊，分別使用兩種模型進行檢測，最終結(jié)果獲得了較高的分類精度。2019年，Weber等人［4］使用Elliptic發(fā)布的區(qū)塊鏈數(shù)據(jù)，使用邏輯回歸（LR）、隨機森林（RF）、多層感知器（MLP）和圖卷積網(wǎng)絡(luò)（GCN）的變體來預測非法交易，并得出結(jié)論，GCN變體在以上方法中表現(xiàn)最為出色。2019年1月，Chen等人［21］提出了一種探索交易所交易網(wǎng)絡(luò)的方法，主要分析了Mt. Gox交易所以及其他六個交易市場，根據(jù)交易金額特征分為三類地址并構(gòu)建三種交易圖，將得到的交易圖特征序列作為矩陣進行重構(gòu)，利用主成分分析法（類似于SVD，奇異值分解）評估賬戶交易行為對比特幣價格的影響。朱會娟等人［22］基于交易事務(wù)圖，提出了一種殘差網(wǎng)絡(luò)結(jié)構(gòu) ResNet-32和三種自適應(yīng)特征融合方法，分別是RRCF（ResNet and raw concat fusion）、RRSF（ResNet and raw supervised fusion）和 RRUF（ResNet and raw unsupervised fusion），這些技術(shù)探索了高層抽象特征與淺層原始特征之間的優(yōu)勢互補關(guān)系，自動學習不同特征的權(quán)重，抑制噪聲信息，分析高層與淺層交叉特征信息，以此獲得最具識別能力的特征來提高區(qū)塊鏈異常交易檢測性能。2022年，張曉琦等人［23］針對區(qū)塊鏈圖結(jié)構(gòu)提出一種網(wǎng)絡(luò)表示學習模型DeepWalk-Ba用于特征提取，再使用機器學習算法進行異常檢測。Chen等人［24］考慮到動態(tài)事務(wù)圖，針對以太坊釣魚欺詐地址的檢測，利用真實的以太坊交易歷史數(shù)據(jù)生成交易網(wǎng)絡(luò)圖數(shù)據(jù)，將圖自監(jiān)督學習技術(shù)引入到圖節(jié)點分類模型中的編碼器中，該方法將許多基本模型集成在一起，用于檢測欺詐行為。

上述工作為區(qū)塊鏈異常交易檢測提供了良好的基礎(chǔ)，研究者們通過在區(qū)塊鏈異常交易特征的特征處理中考慮對所有交易特征進行挖掘，即考慮全局圖結(jié)構(gòu)，但大多沒有考慮到交易事務(wù)圖中局部圖結(jié)構(gòu)中鄰居節(jié)點對當前節(jié)點的影響，圖局部結(jié)構(gòu)的研究十分欠缺。因此，本文提出了一種基于GAT圖注意力機制網(wǎng)絡(luò)，關(guān)注區(qū)塊鏈局部事務(wù)圖結(jié)構(gòu)鄰居節(jié)點特征并與SVM融合的方法，獲取鄰居節(jié)點特征，考慮離散且高維度特征，根據(jù)鄰居節(jié)點權(quán)重實現(xiàn)當前節(jié)點自我特征更新，更新后的特征用于異常交易檢測。這對于區(qū)塊鏈異常交易檢測的研究價值和優(yōu)化潛力具有極大意義。

2 基于GAT與SVM的區(qū)塊鏈異常交易檢測方法

2.1 數(shù)據(jù)集介紹

Elliptic區(qū)塊鏈加密貨幣數(shù)據(jù)分析公司致力將區(qū)塊鏈分析用于金融犯罪防范，全球三分之二的加密貨幣交易量是使用 Elliptic的交易所進行，該公司對區(qū)塊鏈上實體之間的比特幣交易流記錄進行展示，此舉為加密貨幣領(lǐng)域的違規(guī)性問題提供了解決方案。該公司于2019年發(fā)布了Elliptic數(shù)據(jù)集［4］。該數(shù)據(jù)集將比特幣交易的對象映射為兩種真實實體類型，即合法類型（例如交易所、錢包提供商、礦工、合法服務(wù)等）與非法類型（例如騙局、惡意軟件、恐怖組織、勒索軟件、龐氏騙局等）。數(shù)據(jù)收集階段共分為49個時間步長，根據(jù)最初的比特幣交易數(shù)據(jù)，將每個實體抽象為簡單節(jié)點，比特幣資金流向表示為邊，以此構(gòu)建交易事務(wù)圖。圖中節(jié)點大約有203 000，有向邊約為234 000。已知類型的節(jié)點與未知類型節(jié)點比例為46 564∶157 205，已知類型中合法交易實體節(jié)點與非法交易實體節(jié)點比例為42 019∶4 545。對每個節(jié)點而言，其關(guān)聯(lián)了166個特征，這些特征涵蓋多個方面，前94個特征表示如時間步長、交易筆數(shù)、交易費用，以及輸入/輸出數(shù)量和總計交易數(shù)等有關(guān)交易的本地信息;后72個特征稱為聚合特征，聚合特征是基于圖結(jié)構(gòu)邊的方向，從中心節(jié)點分別向前或向后跳一定距離收集交易信息而得到的。在這 72 種交易信息和屬性中，包括輸入/輸出數(shù)量、交易費用等數(shù)據(jù)的最大值、最小值、標準差和相關(guān)系數(shù)等指標。

2.2 GAS檢測方法

2.2.1 圖注意力網(wǎng)絡(luò)

圖注意力網(wǎng)絡(luò)（graph attention network，GAT）是在GCN的基礎(chǔ)上，用注意力機制對鄰居節(jié)點特征加權(quán)求和的一種方法。GAT用注意力機制來替代GCN中固定的標準化操作，網(wǎng)絡(luò)中允許每個節(jié)點關(guān)注鄰域內(nèi)的其他鄰居節(jié)點，忽略全局結(jié)構(gòu)信息，利用自注意網(wǎng)絡(luò)層（masked self-attention layer），通過堆疊該層，獲取每個節(jié)點周圍鄰居節(jié)點特征，對鄰域中的不同節(jié)點可分配不同的權(quán)重，再根據(jù)函數(shù)計算實現(xiàn)當前節(jié)點特征更新。GAT網(wǎng)絡(luò)對節(jié)點特征進行更新的具體步驟如下，首先計算交易事務(wù)圖中各個節(jié)點的注意力值，注意力值為

eij=（aT［Whi‖Whj］）（1）

其中：eij表示節(jié)點i與節(jié)點j的注意力值，即節(jié)點i對節(jié)點j的影響力系數(shù);h={h1，h2，…，hN}表示節(jié)點輸入特征，hi∈RApF，F(xiàn)表示節(jié)點的特征維數(shù);aT表示權(quán)重向量;T表示轉(zhuǎn)置;W表示每個節(jié)點上應(yīng)用的線性變換權(quán)重矩陣，為可學習參數(shù)，在自注意層，每一層的aT與W是相同的;hi為節(jié)點i的特征向量;hj為節(jié)點j的特征向量。將注意力值與鄰域節(jié)點注意力值的總和進行比值得到注意力分數(shù)αij，αij可表示為

其中：αij表示節(jié)點i對節(jié)點j的注意力分數(shù);k為鄰居節(jié)點;Ni為節(jié)點i的一部分鄰節(jié)點個數(shù);LeakyReLU為激活函數(shù)。最后得出的新特征值為

h′i=σ（Σj∈NiαijWhj）（3）

其中：h′i為節(jié)點i更新后的特征向量;σ為激活函數(shù);W同上。

2.2.2 支持向量機

支持向量機（support vector machine，SVM）是一種廣泛應(yīng)用于分類、回歸和離群點檢測等領(lǐng)域的機器學習方法。其基本想法是在特征空間中尋找一個超平面，將不同類別的樣本分開。其中，距離超平面最近的一些數(shù)據(jù)點被稱為支持向量。線性支持向量機算法如下：

輸入：給定一個由N組樣本（x1，y1），（x2，y2），…，（xn，yn）組成的訓練數(shù)據(jù)集，其中xi∈RApn，yi∈{－1，1}，w和b是模型參數(shù)。

輸出：分離超平面和分類決策函數(shù)。

a）構(gòu)造并求解約束最優(yōu)化問題：

求得最優(yōu)解w，b。

b）由此得到分離超平面與分類決策函數(shù)：

w*·x+b=0（6）

f（x）=sign（w·x+b）（7）

非線性支持向量機則可采用核函數(shù)將輸入特征映射到高維空間來構(gòu)建一個非線性決策面，令φ（x）表示將x映射到高維空間后的特征向量，決策函數(shù)為

f（x）=wTφ（x）+b（8）

其中：w是在高維空間中的權(quán)重值;b是偏置項。

2.2.3 GAS整體結(jié)構(gòu)

本文結(jié)合了深度學習與機器學習思想，利用GAT對交易原始的數(shù)據(jù)特征進行特征更新，并集成SVM基礎(chǔ)模型，集成后的方法稱為GAS。在第一階段采用隨機森林對特征進行重要性評估，選取評估結(jié)果高的特征。同時，本文考慮到交易事務(wù)圖局部結(jié)構(gòu)，在第二階段將特征選取的結(jié)果作為GAT網(wǎng)絡(luò)模型輸入，結(jié)合鄰居節(jié)點交易特征，利用網(wǎng)絡(luò)模型中掩模自注意層（masked self-attention layer）實現(xiàn)當前節(jié)點特征更新，并將集聚更新后的節(jié)點特征輸出，集聚新特征作為第三階段SVM分類器的輸入，以此完成整個異常交易檢測過程。整體結(jié)構(gòu)如圖1所示。

區(qū)塊鏈交易事務(wù)圖中包含了點對點的有向流，同一個實體可對一個或多個其他實體發(fā)送交易請求并生成交易單，非法實體發(fā)起的交易被定義為異常交易，每一個實體作為一個節(jié)點都可能和與之相鄰的節(jié)點之間存在聯(lián)系。采用GAS方法可進一步地關(guān)注局部圖結(jié)構(gòu)中鄰居節(jié)點的特征并且根據(jù)不同決定因素設(shè)置多頭注意力與權(quán)重值，捕獲圖結(jié)構(gòu)中數(shù)據(jù)存在的關(guān)系信息，最后利用SVM進行異常檢測。

2.3 區(qū)塊鏈交易數(shù)據(jù)特征處理

Elliptic數(shù)據(jù)集中交易特征數(shù)據(jù)呈現(xiàn)非線性相關(guān)并伴隨多數(shù)離散值，根據(jù)此數(shù)據(jù)分布情況，本文將利用機器學習與神經(jīng)網(wǎng)絡(luò)融合的技術(shù)對區(qū)塊鏈交易特征進行特征處理。

2.3.1 特征重要性評估與選取

重要特征的選取過程中能夠識別嘈雜特征、過濾掉冗余特征并找到與真實結(jié)果高度相關(guān)的特征變量。重要性評估結(jié)果相對較高的特征往往能夠有效幫助訓練模型，防止模型過擬合。

機器學習中隨機森林（random forest，RF）［25］是一種監(jiān)督式學習算法，靈活且易于操作。隨機森林進行特征重要性評估時，可通過基尼不純度（Gini impurity）來衡量特征重要性。這實際上是在森林中對目標變量估計價值重要性。Gini的平均遞減量（Gini mean decrease）為所有決策樹上相同特征節(jié)點的基尼遞減量（Gini decrease）的加權(quán)和，平均遞減量越高，表明特征的重要性越高。度量結(jié)構(gòu)如圖2所示。

為了解決圖注意力機制神經(jīng)網(wǎng)絡(luò)對特征卷積處理時計算成本高的問題，本文預先采用隨機森林對數(shù)據(jù)特征進行重要性度量與選取，在隨機森林選取重要特征階段采用網(wǎng)格搜索［26］對最優(yōu)特征個數(shù)進行求解，結(jié)果表明140個特征最佳。此處給出重要性得分排名前30的特征度量結(jié)果，如圖3所示。

圖3橫坐標是重要性得分，縱坐標是重要性得分排前30的特征。在以上過程中，本文把區(qū)塊鏈交易特征原始數(shù)據(jù)每一列特征標上序號，將已計算好得分的特征按照重要性降序排列并以一維數(shù)組的形式輸出重新加以存儲。

2.3.2 特征更新

本文利用交易事務(wù)圖中節(jié)點共享邊這一特性，挖掘鄰居節(jié)點的潛在信息，采用GAT中如圖4注意力機制結(jié)構(gòu)、圖5特征更新結(jié)構(gòu)進行數(shù)據(jù)特征更新。

如圖4所示是GAT圖注意力網(wǎng)絡(luò)注意力機制結(jié)構(gòu)，該結(jié)構(gòu)通過學習注意力權(quán)重來將鄰居節(jié)點的信息匯聚到當前節(jié)點。

特征更新結(jié)構(gòu)如圖5所示，這樣可進一步地關(guān)注局部圖結(jié)構(gòu)中鄰居節(jié)點的特征并且根據(jù)不同決定因素設(shè)置多頭注意力與權(quán)重值，捕獲圖結(jié)構(gòu)中數(shù)據(jù)存在的關(guān)系信息。

在GAT注意力網(wǎng)絡(luò)層中，針對性地選擇鄰居節(jié)點個數(shù)，將每個鄰居節(jié)點的特征向量都賦予權(quán)重值，隱層狀態(tài)下計算注意力值eij，使用softmax函數(shù)對分數(shù)進行歸一化，利用分數(shù)對隱層狀態(tài)每個頭部進行加權(quán)，得到注意力特征即為更新后的特征，新特征數(shù)據(jù)與節(jié)點標簽匹配后重新覆蓋存儲。

2.3.3 異常交易分類檢測

根據(jù)Elliptic區(qū)塊鏈交易數(shù)據(jù)集中的標簽，可將交易分為正常交易、異常交易與未知類別三類。異常分類檢測階段，將GAT輸出的140維度新特征作為SVM的輸入，本文利用正常交易與異常交易的標簽數(shù)據(jù)來訓練SVM模型，即完成二分類問題。具體結(jié)構(gòu)如圖6所示。

SVM接收GAT輸出的新特征數(shù)據(jù)，提取其中正常、異常與未知類別交易的標簽，將標簽從正常與異常的交易分離出來，用于模型訓練，未知標簽用于測試，根據(jù)模型評估值不斷調(diào)整參數(shù)進行優(yōu)化，得出最終模型，輸出檢測結(jié)果。

3 實驗與分析

3.1 評估準則

本文應(yīng)用機器學習常用的基于混淆矩陣評估準則對模型進行評估，其中運用到準確率（accuracy）、精確率（precision）、召回率（recall）和F1-score四個準則。其定義分別為

其中：分類器正確分類的正例數(shù)據(jù)稱為真陽性（true positive，TP）;負例數(shù)據(jù)中被正確分類的稱為真陰性（true negative，TN）;而被錯誤標記為正例數(shù)據(jù)的負例數(shù)據(jù)被稱為假陽性（false positive，F(xiàn)P）;錯誤標記為負例數(shù)據(jù)的正例數(shù)據(jù)則稱為假陰性（false negative，F(xiàn)N）。

3.2 實驗環(huán)境及參數(shù)設(shè)置

本文實驗使用一臺DELL臺式計算機，搭載2.80 GHz的Intel Core i5-8400處理器與8 GB機帶RAM。實驗過程利用Python的科學計算類庫PyTorch網(wǎng)絡(luò)框架與Sklearn算法庫搭建GAS并實現(xiàn)。模型參數(shù)設(shè)置中，特征更新階段，圖注意力網(wǎng)絡(luò)計算注意力值時本文采用tanh激活函數(shù)，epochs為50，學習率為0.01，網(wǎng)絡(luò)隱層的輸出設(shè)置為64，模型輸出通道數(shù)設(shè)置為1；考慮到更多的鄰居節(jié)點特征，掩模自注意層多頭注意參數(shù)head設(shè)置為7，采用恒定注意力機制，相同架構(gòu)下每個鄰節(jié)點權(quán)重值設(shè)置為1；為了增加模型穩(wěn)定性與魯棒性，參數(shù)dropout設(shè)置為0.5，SVM模型中參數(shù)kernel為RBF高斯核函數(shù)，C為180，gamma為auto。

3.3 模型評估及對比

本文將Elliptic區(qū)塊鏈交易數(shù)據(jù)中含有已知標簽的數(shù)據(jù)進行提取作為本次實驗的數(shù)據(jù)集，采用10折交叉驗證對數(shù)據(jù)集進行劃分。為了體現(xiàn)GAS的有效性，實驗將分為參照組與對比組。參照組對特征處理后的交易數(shù)據(jù)采取基礎(chǔ)模型進行檢測，其中所運用到的學習算法簡單介紹如下：

a）高斯樸素貝葉斯（Gaussian Nave Bayes，GNB）［27］假定樣本每個特征維度的條件概率均服從高斯分布，進而再根據(jù)貝葉斯公式來計算得到新樣本在某個特征分布下其屬于各個類別的后驗概率，最后通過極大化后驗概率來確定樣本的所屬類別的一種方法。

b）K最鄰近（K-nearest neighbor，KNN）［28］是利用K個最近鄰居樣本將數(shù)據(jù)集合中每一個樣本進行分類的方法。

c）邏輯回歸（logistic regression，LR）［29］通過代價函數(shù)尋找最優(yōu)解擬合模型參數(shù)，其是一種廣義回歸分析類模型。

d）支持向量機以學習樣本求解最大邊距或超平面（maximum-margin hyperplane）為決策邊界，以此對數(shù)據(jù)進行分類的一種方法。

參照組分別使用GNB、KNN、LR、SVM四個基礎(chǔ)學習算法，模型檢測的輸入為特征選取后具有140個特征的交易數(shù)據(jù)，檢測結(jié)果如表1所示。

對比組中，GAS方法的輸入與參照組相同，即同樣采用參照組中特征選取后含有140個重要特征的交易數(shù)據(jù)，同時，為了體現(xiàn)特征更新操作可有效關(guān)注到鄰域節(jié)點的特征性質(zhì)，實驗基于GAT圖注意特征更新后分別融合GNB、KNN、LR算法進行檢測，檢測結(jié)果如表2所示。兩組實驗都以accuracy、precision、recall、F1-score四個準則為基準，進行模型評估與比較。

參照組基礎(chǔ)模型作為GAS評估對比基準，將原始特征數(shù)據(jù)經(jīng)過隨機森林重要特征選取后利用機器學習分類。結(jié)果由上表1可知，高斯樸素貝葉斯模型accuracy處于最低，僅有63.71%，其recall與F1-score低于50%，其他分類器結(jié)果的accuracy均在96%～97%。KNN、LR、SVM分類器的precision、recall與F1-score的檢測結(jié)果值處于75%～95%。

在對比組中，由表2的實驗結(jié)果可以得出， GAS與文獻［17， 22］中方法的檢測結(jié)果對比，GAS相比RRUF，accuracy與recall分別提高了0.26%、20.23%;與MFF相比，precision與recall也提高了1.13%與0.56%。結(jié)合表1與2可以看出，GAS方法得出的準確率最高，accuracy比SVM提高了0.59%，達到了98.11%，其recall與F1-score也分別提高了7.51%、3.80%。而基于GAT圖注意力網(wǎng)絡(luò)分別融合單個分類器GNB、KNN、LR算法后，在GAT處理區(qū)塊鏈交易數(shù)據(jù)特征的基礎(chǔ)上，三個不同學習算法異常檢測的accuracy與precision均有所提升，部分模型的recall與F1-score也分別相應(yīng)提高。GAT與GNB融合后模型相比GNB，accuracy提高了9.76%，與KNN融合后四個評估準則的檢測結(jié)果均有提高，GAT與LR融合后相比LR模型，precision提高值最大，為2.80%。

由此可以看出，本文提出的基于圖注意力網(wǎng)絡(luò)特征更新融合方法能夠結(jié)合事務(wù)圖的局部鄰域之間的關(guān)系，重組特征，使得分類檢測更加準確，神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)易選擇局部最優(yōu)解，而SVM能夠有效避免這種情況，找到分類全局最優(yōu)解，使得整體模型性能更佳。圖7～10中橫坐標是學習算法，即基礎(chǔ)模型與GAS;縱坐標是不同評估結(jié)果值。從圖7～10可以清晰直觀地看到融合模型在基礎(chǔ)模型評估性能上的提升。

4 結(jié)束語

近幾年，拓撲圖結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)技術(shù)在眾多領(lǐng)域成功應(yīng)用，這也為區(qū)塊鏈異常檢測技術(shù)帶來一個新的嘗試。在區(qū)塊鏈異常交易檢測問題上，本文圍繞深度學習與機器學習兩方面，將其相融合，結(jié)合兩者優(yōu)點，提出了利用隨機森林與注意力神經(jīng)網(wǎng)絡(luò)對交易特征進行篩選與更新，利用SVM機器學習分類器對特征更新后的數(shù)據(jù)進行分類的GAS檢測方法。圖注意力神經(jīng)網(wǎng)絡(luò)能夠更好地關(guān)聯(lián)節(jié)點，選擇鄰域內(nèi)預測標簽的決定因素個數(shù)，采樣節(jié)點特征計算相似度，而非結(jié)構(gòu)特征，挖掘不同程度的節(jié)點之間的聯(lián)系;SVM可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇局部極小點問題。但GAS在特征更新階段，由于鄰節(jié)點重復問題，會造成計算冗余，同時，受到靜態(tài)圖的限制，每個節(jié)點不會根據(jù)最新的交易數(shù)據(jù)改變注意力分數(shù)。所以，本文將兩個算法進行融合，連接兩者優(yōu)勢以提升區(qū)塊鏈異常交易檢測模型的性能。由實驗結(jié)果可知，該融合方法在Elliptic數(shù)據(jù)集下表現(xiàn)良好，準確率、精度、召回率可達98.11%、94.01%、85.48%，此結(jié)果有助于區(qū)塊鏈異常交易檢測研究。

在下一步研究中，本文將考慮對動態(tài)交易事務(wù)圖的深入研究，改進和擴展融合算法使其能夠運用到動態(tài)圖上，能夠更高效地批處理數(shù)據(jù)。此外，將考慮探索新的策略模型或算法來進行區(qū)塊鏈異常交易檢測研究。

參考文獻：

[1]傅麗玉，陸歌皓，吳義明，等.區(qū)塊鏈技術(shù)的研究及其發(fā)展綜述［J］.計算機科學，2022，49（S1）：447-461，666.（Fu Liyu， Lu Gehao， Wu Yiming， et al. A review of blockchain technology research and its development［J］.Computer Science，2022，49（S1）：447-461，666.）

［2]徐晨.區(qū)塊鏈技術(shù)現(xiàn)存問題和未來發(fā)展趨勢［J］.電子元器件與信息技術(shù)，2022，6（6）：17-21.（Xu Chen. Existing problems and future development trend of blockchain technology［J］.Electronic Components and Information Technology，2022，6（6）：17-21.）

［3]孫國梓，李芝，肖榮宇，等.區(qū)塊鏈交易安全問題研究［J］.南京郵電大學學報：自然科學版，2021，41（2）：36-48.（Sun Guozi， Li Zhi， Xiao Rongyu， et al. Research on the security of blockchain transactions［J］.Journal of Nanjing University of Posts and Telecommunications：Natural Science Edition，2021，41（2）：36-48.）

［4]Weber M， Domeniconi G， Chen Jie， et al. Anti-money laundering in bitcoin：experimenting with graph convolutional networks for financial forensics［EB/OL］.［2022-10-27］.https：//arxiv.org/abs/1908.02591.

［5]錢鵬，劉振廣，何欽銘，等.智能合約安全漏洞檢測技術(shù)研究綜述［J］.軟件學報，2022，33（8）：3059-3085.（Qian Peng， Liu Zhenguang， He Qinming， et al. A review of smart contract security vulnera-bility detection techniques［J］.Journal of Software，2022，33（8）：3059-3085.）

［6]瞿元.比特幣異常行為檢測系統(tǒng)的研究與設(shè)計［D］.成都：電子科技大學，2021：36-48.（Qu Yuan. Research and design of bitcoin anomalous behavior detection system［D］.Chengdu：University of Electronic Science and Technology of China，2021：36-48.）

［7]Velicˇkovic＇ P， Cucurull G， Casanova A， et al. Graph attention networks［C］//Proc of International Conference on Learning Representations.2017：164-176.

［8]Saunders C， Stitson M O， Weston J， et al. Support vector machine［J］.Computer Science，2002，1（4）：1-28.

［9]王利朋，關(guān)志，李青山，等.區(qū)塊鏈數(shù)據(jù)安全服務(wù)綜述［J］.軟件學報，2023，34（1）：1-32.（Wang Lipeng， Guan Zhi， Li Qingshan， et al. A review of blockchain data security services［J］.Journal of Software，2023，34（1）：1-32.）

［10]Kuzuno H， Tziakouris G. Ad-hoc analytical framework of bitcoin investigations for law enforcement［J］.IEICE Trans on Information and Systems，2018，E101D（11）：2644-2657.

［11]胡海洋，張力，李忠金.融合自編碼器和one-class SVM的異常事件檢測［J］.中國圖象圖形學報，2020，25（12）：2614-2629.（Hu Haiyang， Zhang Li， Li Zhongjin. Anomalous event detection by fusing self-encoder and one-class SVM［J］.Journal of Image and Graphics，2020，25（12）：2614-2629.）

［12]朱佳佳，陳佳.基于熵和SVM多分類器的異常流量檢測方法［J］.計算機技術(shù)與發(fā)展，2016，26（3）：31-35.（Zhu Jiajia， Chen Jia. Anomalous traffic detection method based on entropy and SVM multi-classifier［J］.Computer Technology and Development，2016，26（3）：31-35.）

［13]Wu Jiajing， Yuan Qi， Lin Dan， et al. Who are the phi-shers？Phishing scam detection on ethereum via network embedding［J］.IEEE Trans on Systems， Man， and Cybernetics：Systems，2022，52（2）：1156-1166.

［14]Lin Yujing， Wu Powei， Hsu Chenghan， et al. An evaluation of bitcoin address classification based on transaction history summarization［C］//Proc of International Conference on Blockchain and Cryptocurrency.2019：302-310.

［15]沈蒙，桑安琪，祝烈煌，等.基于動機分析的區(qū)塊鏈數(shù)字貨幣異常交易行為識別方法［J］.計算機學報， 2021，44（1）：193-208.（Shen Meng， Sang Anqi， Zhu Liehuang， et al. A motivation analysis-based approach to identify abnormal trading behavior of blockchain digital currencies［J］.Chinese Journal of Computer，2021，44（1）：193-208.）

［16]陳彬杰，魏福山，顧純祥.基于KNN的具有隱私保護功能的區(qū)塊鏈異常交易檢測［J］.信息網(wǎng)絡(luò)安全，2022，22（3）：78-84.（Chen Binjie， Wei Fushan， Gu Chunxiang. KNN-based blockchain anomaly transaction detection with privacy protection［J］.Information Network Security，2022，22（3）：78-84.）

［17]林偉.基于多特征融合的區(qū)塊鏈異常交易檢測［J］.信息網(wǎng)絡(luò)安全，2022，22（10）：24-30.（Lin Wei. Blockchain anomaly transaction detection based on multi-feature fusion［J］.Information Network Security，2022，22（10）：24-30.）

［18]Pham T L S. Anomaly detection in bitcoin network using unsupervised learning methods［EB/OL］.（2016）［2022-10-30］.https：//arxiv.org/abs/1611.03941v2.

［19]Pham T L S. Anomaly detection in the bitcoin system-a network perspective［EB/OL］.（2016）［2022-10-30］.https：//arxiv.org/abs/1611.03942v1.

［20]Jourdan M， Blandin S， Wynter L， et al. Characterizing entities in the bitcoin blockchain［C］//Proc of IEEE International Conference on Data Mining Workshops.2018：55-62.

［21]Chen Weili， Wu Jun， Zheng Zibin， et al. Market manipulation of bitcoin：evidence from mining the Mt. Gox transaction network［C］//Proc of IEEE INFOCOM Conference on Computer Communications.2019：964-972.

［22]朱會娟，陳錦富，李致遠，等.基于多特征自適應(yīng)融合的區(qū)塊鏈異常交易檢測方法［J］.通信學報，2021，42（5）：41-50.（Zhu Huijuan， Chen Jinfu， Li Zhiyuan， et al. A blockchain anomaly transaction detection method based on multi-feature adaptive fusion［J］.Journal on Communications，2021，42（5）：41-50.）

［23]張曉琦，白雪，李光松，等.基于網(wǎng)絡(luò)表示學習的區(qū)塊鏈異常交易檢測［J］.網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2022，41（10）：11-20.（Zhang Xiaoqi， Bai Xue， Li Guangsong， et al. Blockchain anomaly transaction detection based on network representation learning［J］.Cyber Security and Data Governance，2022，41（10）：11-20.）

［24]Chen Liang， Peng Jiaying， Liu Yang， et al. Phishing scams detection in ethereum transaction network［J］.ACM Trans on Internet Technology，2020，21（1）：1-16.

［25]Liaw A， Wiener M. Classification and regression by random forest［J］.R News，2002，23（23）：18-22.

［26]Wang Huajun. Grid-search molecular accessible surface algorithm for solving the protein docking problem［J］.Journal of Computational Chemistry，1991，12（6）：746-750.

［27]Jahromi A H， Taheri M. A non-parametric mixture of Gaussian naive Bayes classifiers based on local independent features［C］//Proc of Artificial Intelligence and Signal Processing Conference.2017：209-212.

［28]Larose D T. K-nearest neighbor algorithm［M］//Discovering Know-ledge in Data：An Introduction to Data Mining.2004：1-18.

［29]Kleinbaum D G， Klein M. Logistic regression （a self-learning text）［M］.Berlin：Springer，2002：1-20.

計算機應(yīng)用研究2024年1期

計算機應(yīng)用研究的其它文章: 多策略融合的蛇優(yōu)化算法及其應(yīng)用; 基于Spark和NRSCA策略的并行深度森林算法; 基于子空間學習的快速自適應(yīng)局部比值和判別分析; 基于相似圖投影學習的多視圖聚類; HHUIM：一種新的啟發(fā)式高效用項集挖掘方法; 基于專家反饋的廣義孤立森林異常檢測算法