999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于C N N 的新型詐騙網站識別系統開發

2022-10-21 13:44:50魯國良袁鐵山
科學技術創新 2022年28期
關鍵詞:特征模型

魯國良,袁鐵山

(中國移動通信集團浙江有限公司紹興分公司,浙江 紹興 312000)

概述

網絡詐騙愈來愈成為當前社會發展問題中亟待解決的問題。這種詐騙形式具有成本低、難追蹤、隱蔽性強等特點。新形勢下的網絡詐騙常常利用存活周期為3~5 d 的網站,通過反復更換域名來實施詐騙。此類網站在頁面上十分雷同,人眼很容易分辨。但是由于缺少詐騙網站相關的數據集,學術界和工業界對此類問題都研究得比較少[1]。本文利用某運營商開發的RPA 工具獲取的詐騙網站首頁的高清照片,開發卷積神經網絡(CNN,Convolutional Neural Network )模型可以學習不同區域圖像的深度特征,并通過web 技術提交網址后獲取訪問用戶特征的專家知識并轉化為SVM 特征。模型結合上述兩種特征識別網站是否涉詐。最后通過Pandas 庫以Excel 形式輸出判別結果。

1 技術及理論基礎

1.1 pytorch 框架

自2012 年由Hinton 提出的VGG16 模型在ImageNet 比賽上以絕對優勢奪冠后,深度學習社區迎來了一波實踐工具的爆發式增長。Pytorc 易于學習,API 簡潔和易于理解,Pytorch 還支持分布式數據并行計算,此項功能可以大大縮短模型訓練時間。基于以上原因本文選擇基于Pytorch 進行研究[2]。

1.2 SVM 特征映射

支持向量機(Support Vector Machine,SVM)可以通過核技巧將線性不可分的樣本映射到特征空間中去,以盡可能大的間隔來區分樣本。相較于原始數據空間中的樣本,特征空間中的數據更具有線性可分性,更便于分類器進行分類任務。同時,映射后的特征具有更好的稀疏性。

1.3 ResNet 圖像特征提取

卷積神經網絡按照功能主要可以分為兩個模塊——即圖像特征提取模塊和分類器模塊。本文用于提取圖像特征的網絡為ResNet[3]。它以獨特的殘差結構而得名,見圖1,左側為淺層網絡殘差學習單元,右側為深層網絡殘差學習單元。殘差學習單元分為短路結 構(shortcut connection) 和 殘 差 結 構(residual mapping)。經過這種結構的設計,解決了深層網絡存在的性能下降問題,使得特征提取能力大幅提升。

圖1 ResNet 殘差結構

1.4 RPA 技術

RPA(Robotic Process Automation)即流程自動化機器人技術,代替機械式、高重復、低價值、大批量的日常操作的目的[4]。在本文的任務中由于需要通過網址獲取首頁圖像,通過引入RPA 工具,模擬人類瀏覽網頁的動作獲取圖像相對而言是一種省時省力的方法。

2 系統架構及處理流程

本文實現的系統總體分文三個步驟。第一步通過待檢測的網站網址獲取首頁圖像并利用OpenCV 獲得指定區域的圖像[5],同時通過大數據技術獲取對應的網站日流量數據,再將這些數據轉化為SVM 特征。第二步輸入圖像及相應的SVM 特征,模型利用這些特征對網站是否為詐騙網站進行識別。第三步通過Pandas 庫將判別結果以Excel 的形式輸出。總體流程,見圖2。

圖2 總體流程

3 數據準備

深度學習模型成功的一大因素是高性能計算的進步,另一大因素就是海量的數據。因此,充足的數據準備是模型獲得良好的性能的必要前提。

3.1 數據集構成

本文利用已知的5 000 多個已涉詐網站作為正樣本,獲取到其對應的網站首頁圖像及日訪問人次、日訪問用戶縣市分布等流量數據(通過紹興移動大數據資產獲取),同時選取3 000 多個白名單中的網站作為負樣本。訓練集與測試集按照8:2 的比例進行切分。其中詐騙網站圖像被切割為五個區域,即左上角、右上角、左下角、右下角、中間。這樣可以使模型關注特定區域的特征而又不損失信息。每一個樣本以〈首頁五個區域圖像,SVM 特征,樣本標簽〉 的形式存在。

3.2 ResNet 輸入圖像處理

在將圖像數據輸入模型前,需要對其尺寸進行處理,以適應模型需要的尺寸。在本研究使用的ResNet模型中要求的輸入圖像尺寸為224×224×3,即輸入的圖像水平分辨率、垂直分辨率為224 個像素,輸入的通道數為R、G、B 這3 個通道。這一步可以通過Pytorch 框架自帶的torchvision 庫來實現,借助transforms.Resize()函數可以在不改變圖像內容的情況下,改變其分辨率。過程圖,見圖3。

圖3 圖像尺寸變換過程

3.3 SVM 特征處理

專家知識通過某運營商大數據技術獲取。本文利用Hive 數據倉庫,通過編寫HQL 獲得原始數據。由于在Hive 平臺存儲的數據量很大,查詢較慢,所以高性能的HQL 以及高效地執行是整個系統運行效率的關鍵。本文通過設置hive.exec.parallel=true 及設置hive.exec.parallel.thread.number=16 來提高HQL 執行的并行能力,通過設置開啟jvm 重用來提升HQL 在短時任務場景下的速度。同時考慮到本文的輸入參數只有字符串形式的網址,數據量極小,在這種情況下,為查詢觸發執行任務的時間消耗可能會比實際job 的執行時間要多的多。本文通過設置hive.exec.mode.local.auto=true 來開啟本地模式,避免集群運算。詳細數據獲取流程,見圖4。

圖4 網址流量結果獲取流程

在SVM 模型中有表示特征重要性的參數coef_。該參數在二分類任務里為1×n 的向量。在經過訓練之后,將訓練集和測試集總共8 000 多個樣本的專家知識部分的特征與特征重要性參數coef_進行點乘操作,從而將原始空間的數據映射到特征空間,以提高特征的可用性。經過點乘操作后的數據尺寸形狀不變。變換過程,見圖5。

圖5 SVM 特征

4 模型實現及結果分析

4.1 卷積神經網絡搭建以及訓練

由于圖像內容較為簡單,同時需要做的分類任務也較為簡單,即為二分類任務。因此,在選取圖像特征抽取網絡時,本文選擇較為淺的resnet18 模型。resnet18 模型最后經過全局下采樣層后,輸出的特征向量為512 維。選取resnet18 的輸入層到全局池化層為圖像特征抽取模塊,其中包含一個最大值池化層、一個全局平均池化層和20 個卷積層。由于輸入的圖像數據共有5 張,因此需要設計五條通路來分別提取器特征。最終將5 條通路的特征進行加和操作,與SVM 特征進行拼接操作,然后經過一層全連接層將特征維度轉換為2 維,對應需要進行分類的“是”與“否”。最終接一層SoftMax 層平滑特征,取較大的值作為判別結果。模型結構,見圖6。

圖6 模型結構圖

其中,exrta(*)表示圖像特征抽取函數,concat(*)表示特征拼接函數,L 表示損失函數。

在模型訓練時,需要設定訓練的輪數、每次訓練的樣本大、學習率以及優化器。本研究中將樣本大小設定為64,學習輪數設定為128 輪,即在128 輪的訓練中,每次將64 個樣本輸入網絡進行訓練。初始學習率設定為0.001,優化器選擇AdamOptimizer 進行參數的一階梯度優化更新。Ada 算法是一種有效的隨機優化方法,它只需要一階的梯度,并且只需要很小的內存。該方法通過第一,第二梯度的估計,計算不同參數的自適應學習速率。

4.2 實驗分析

在圖像特征結合的時候,其實有比較多的選擇,例如可以將各組特征按照最大值、最小值、拼接、加和、點乘等方式。首先可以從理論上排除點乘的方式,這種方式由于0 值的存在,最終的特征會變得及其稀疏,無法用于模型學習,而其他四種方式則需要以具體實驗結果為依據進行判斷。圖7 中結合方式的模型測試機準確率結果,從結果可以看出,加和方式相較于其他三種方式,結果最優,達到了78%的準確率。這是由于加和的方式既照顧到了SVM 特征的表達,也照顧到了圖像特征之間的充分表達。直接拼接的方式由于拼接后圖像特征明顯多于SVM 特征,使得后者對于分類的貢獻被掩蓋了。而最值方式在極端情況下會有可能只利用到一個區域的特征。因此本文最終選擇使用加和的方式來結合各個區域之間的特征。

圖7 模型準確率

5 總結及展望

本文研究了基于深度學習的詐騙網站識別技術,提出可以基于網站首頁的圖像特征加介于專家知識的SVM 特征進行識別,模型最終達到了令人滿意的性能。通過對詐騙網站的識別研究,及時發現并阻斷對詐騙網站的訪問行為,降低電信網絡詐騙案發率。

但是本文也存在著以下不足:(1) 引入RPA 工具,制約系統并行處理能力;(2) 特征結合方式粗暴,即以直接拼接的方式處理不同特征,限制特征表達能力。

在后續的研究開發中,針對第一點不足,可以考慮引入云計算技術,云化RPA,充分利用云計算提供的SaaS 能力,解決硬件資源瓶頸,提高系統的并行處理能力;針對第二點不足,可以考慮借助多模態識別技術,實現特征的跨模態學習,提高特征表達能力。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国内丰满少妇猛烈精品播| 欧美亚洲第一页| 亚洲成综合人影院在院播放| 国产精品人人做人人爽人人添| 在线无码av一区二区三区| 亚洲综合色婷婷中文字幕| 色综合国产| 中文一级毛片| 欧美日韩国产在线观看一区二区三区| 欧美不卡二区| 免费Aⅴ片在线观看蜜芽Tⅴ | 日韩福利在线观看| 国产永久在线视频| 国产精品一区二区在线播放| 九九热免费在线视频| 免费一级无码在线网站| 色网站在线视频| 69免费在线视频| 日韩视频福利| 啪啪免费视频一区二区| 99er精品视频| 免费观看国产小粉嫩喷水| 91网站国产| 亚洲最大综合网| 欧美午夜在线播放| 免费看久久精品99| 天堂va亚洲va欧美va国产| 在线视频亚洲欧美| 国产小视频在线高清播放| 成人午夜视频在线| 在线99视频| 亚洲美女视频一区| 中文字幕日韩丝袜一区| 亚洲欧美日韩动漫| 99精品欧美一区| 青草免费在线观看| 国产精品视频猛进猛出| 综合色在线| 国产福利小视频高清在线观看| 亚洲最新在线| 99热这里都是国产精品| 中文字幕在线视频免费| 久久不卡精品| 国产拍在线| 精品小视频在线观看| 国产jizz| 亚洲性视频网站| 亚洲无码高清一区| 国产精品嫩草影院视频| 免费不卡在线观看av| 大香伊人久久| 怡红院美国分院一区二区| 亚洲 欧美 日韩综合一区| 黄片一区二区三区| 国产一区二区三区免费观看 | 亚洲天堂久久| 人妻丰满熟妇av五码区| 亚洲天堂免费| 国产高清在线丝袜精品一区| 婷婷开心中文字幕| 国产免费观看av大片的网站| 日本欧美午夜| 国产精品综合久久久| 日本黄色a视频| 久操中文在线| 国产精品真实对白精彩久久 | 亚洲精品无码久久久久苍井空| 国产精品微拍| 一级一毛片a级毛片| 亚洲无码高清一区二区| 全免费a级毛片免费看不卡| 国产人人射| 国产亚洲成AⅤ人片在线观看| 欧美高清三区| 亚洲天堂网站在线| 亚洲精品图区| 国产精品浪潮Av| 一本大道无码日韩精品影视| 精品一区二区三区无码视频无码| 亚洲福利片无码最新在线播放| 欧美日韩成人在线观看| 四虎成人精品在永久免费|