999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

貸款類詐騙網(wǎng)站識別方法研究*

2021-06-28 11:13:12李高翔葉宇中黃福鴻卓采標(biāo)潘國良陳金林陳德興吳雁琛
廣東通信技術(shù) 2021年6期
關(guān)鍵詞:特征

[李高翔 葉宇中 黃福鴻 卓采標(biāo) 潘國良 陳金林 陳德興 吳雁琛]

1 引言

在信息網(wǎng)絡(luò)快速發(fā)展的背景下,電信網(wǎng)絡(luò)詐騙已成為當(dāng)前發(fā)展最快、嚴(yán)重影響人民群眾安全感的刑事犯罪。根據(jù)文獻(xiàn)[1]的數(shù)據(jù),2020 年以來,公安機(jī)關(guān)累計破獲電信網(wǎng)絡(luò)詐騙案件達(dá)25.6萬,累計封堵詐騙網(wǎng)站網(wǎng)址31.6萬個,由此可見目前電信網(wǎng)絡(luò)詐騙傳播的廣泛性。當(dāng)前電信網(wǎng)絡(luò)詐騙手法多樣,主要包括兼職詐騙、殺豬盤詐騙、貸款詐騙等。其中貸款詐騙主要是指犯罪團(tuán)伙通過模仿國內(nèi)知名借貸平臺,如京東金融、微粒貸、百度有錢花等的官網(wǎng)頁面搭建仿冒站點(diǎn),以免息或低息為噱頭誘導(dǎo)用戶貸款并繳納一定金額激活賬號實施詐騙。由于仿冒站點(diǎn)的頁面和正規(guī)平臺的官網(wǎng)非常相似,所以普通民眾極易受騙。與此同時,詐騙團(tuán)伙通過使用多種網(wǎng)站模板和小眾域名,可在短時間內(nèi)迅速搭建一批仿冒站點(diǎn),給公安機(jī)關(guān)、運(yùn)營商等部門的打擊防范工作帶來了極大挑戰(zhàn)。

本文旨在設(shè)計一種針對貸款類詐騙網(wǎng)站的識別方法,為此本文先通過對國內(nèi)知名借貸平臺站點(diǎn)官網(wǎng)及相關(guān)URL進(jìn)行收集整理形成白名單,然后基于對公安部門積累樣本的分析結(jié)果,設(shè)計了域名、網(wǎng)頁內(nèi)容、網(wǎng)頁HTML 標(biāo)簽三類特征應(yīng)用于分類算法,最后通過實驗驗證本文提出算法的有效性。本文的主要研究成果如下。

①對國內(nèi)知名借貸平臺及其域名等信息進(jìn)行了梳理。

② 提出了一種結(jié)合基于規(guī)則和基于機(jī)器學(xué)習(xí)的貸款類詐騙網(wǎng)站識別框架。

③進(jìn)行了多種算法的對比實驗,驗證結(jié)果表明本文所提方法可有效識別貸款類詐騙網(wǎng)站。

本文的其余章節(jié)組織如下。

第2 章 綜述電信網(wǎng)絡(luò)詐騙及網(wǎng)站識別的研究現(xiàn)狀。

第3 章 介紹貸款類詐騙網(wǎng)站識別框架。

第4 章 實驗驗證算法模型。

第5 章 總結(jié)與展望。

2 研究現(xiàn)狀

現(xiàn)有的網(wǎng)站識別方法可以分為基于規(guī)則的識別與基于機(jī)器學(xué)習(xí)的識別。基于規(guī)則的識別主要依靠黑名單和簡單匹配規(guī)則對網(wǎng)站URL 或?qū)崟r特征等進(jìn)行模糊匹配。黑名單匹配能夠快速且精準(zhǔn)返回涉詐網(wǎng)站,但是需要對黑名單庫進(jìn)行定期的維護(hù)。實時特征是指IP 地址、網(wǎng)頁端口號、存活時間、PageRank 排名等可以很好地指示一個網(wǎng)址的有害性,但是需要在識別中通過URL 在網(wǎng)絡(luò)中實時搜尋的特征。基于規(guī)則的識別精度高、速度快,但可能產(chǎn)生一定應(yīng)用成本,因此多為一些防護(hù)軟件供應(yīng)商等如360、騰訊等所使用。

基于機(jī)器學(xué)習(xí)的方法對未發(fā)現(xiàn)的有害網(wǎng)址泛化性更強(qiáng),性能更好,在近年來受到了研究者的關(guān)注。基于機(jī)器學(xué)習(xí)的方法需要預(yù)先收集一些樣本并進(jìn)行標(biāo)注,再利用參數(shù)模型對標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練,以獲得泛化性能。現(xiàn)有的網(wǎng)站識別文獻(xiàn)多采用通用分類模型如SVM、DNN 等來進(jìn)行訓(xùn)練。如魏勝娜等利用CART 樹對URL 特征進(jìn)行學(xué)習(xí),并修改代價函數(shù)為最小均方誤差,成功降低了釣魚網(wǎng)站的誤報率[2]。杜錦波、付順順等利用集成算法思想,將多個fasttext弱分類器組合為一個強(qiáng)分類器,并利用該分類器對網(wǎng)站文本內(nèi)容進(jìn)行了分類[3,4]。毛世奇將網(wǎng)站URL 進(jìn)行獨(dú)熱編碼,并利用嵌入層對不同字符進(jìn)行轉(zhuǎn)換,最后輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練和預(yù)測[5]。左雯、張士坤等在利用字符嵌入的基礎(chǔ)上,對不同的深度模型結(jié)構(gòu)進(jìn)行了實驗,最后確定了卷積神經(jīng)網(wǎng)絡(luò)、門控循環(huán)單元和softmax 的組合作為最終結(jié)構(gòu),并取得了良好的效果[6,7]。

3 貸款類詐騙網(wǎng)站識別框架

本文提出的識別框架結(jié)合了基于規(guī)則的識別與基于機(jī)器學(xué)習(xí)的識別兩種方法,先通過基于規(guī)則的白名單規(guī)則進(jìn)行過濾,然后再使用機(jī)器學(xué)習(xí)方法進(jìn)行識別貸款詐騙網(wǎng)站。算法流程圖如圖1 所示。

圖1 算法流程圖

3.1 白名單匹配過濾

作者統(tǒng)計了公安部門積累樣本中貸款詐騙網(wǎng)站主要仿冒平臺名稱及相關(guān)信息,具體內(nèi)容如表1 所示。

表1 詐騙網(wǎng)站主要仿冒平臺相關(guān)信息

對運(yùn)營商等擁有大量數(shù)據(jù)的機(jī)構(gòu)而言,可先對所有要判定的網(wǎng)站數(shù)據(jù)進(jìn)行白名單過濾,因為正規(guī)平臺的訪問日志較多,經(jīng)過白名單過濾后可有效減小后續(xù)需處理的數(shù)據(jù)規(guī)模,節(jié)省大量計算資源。

3.2 域名特征分析

作者對大量貸款詐騙網(wǎng)站的URL 進(jìn)行分析,發(fā)現(xiàn)主要有如下特點(diǎn)。

(1)多使用HTTP 協(xié)議傳輸

因為正規(guī)借貸平臺站點(diǎn)涉及了大量資金及用戶敏感信息,需考慮網(wǎng)絡(luò)傳輸安全問題,多使用HTTPS 協(xié)議,如表1 中URL 全部是HTTPS。而詐騙網(wǎng)站主要目的是誘導(dǎo)欺騙,并不考慮數(shù)據(jù)安全問題,所以選擇HTTP 協(xié)議,建站效率更高,成本更低。

(2)多使用小眾域名

正規(guī)借貸平臺站點(diǎn)通常會使用其主體公司域名為其背書,或使用較短的拼音、諧音域名方便推廣傳播。如微粒貸w.webank.com 是微眾銀行的子域名,人人貸www.renrendai.com 則使用了拼音。而詐騙團(tuán)伙通常選擇小眾域名(如kfbzh.bcsbhm.bar,afdfe.545idifjf.zkakdf.txhb.mhmh9.cn 等)建站,這些域名價格便宜、數(shù)量較多,可快速進(jìn)行批量替換更新,躲避監(jiān)管部門追蹤打擊。

(3)存在使用非默認(rèn)端口情況

考慮到服務(wù)器運(yùn)營商可能會對站點(diǎn)進(jìn)行安全掃描檢測,而普通掃描檢測工具主要覆蓋常見協(xié)議及端口,如HTTP 協(xié)議的80 端口,F(xiàn)TP 協(xié)議的21 端口等。部分詐騙團(tuán)伙為了降低被檢測識別的風(fēng)險,會啟用非默認(rèn)端口,即訪問詐騙網(wǎng)站需指定固定端口,如81,使用默認(rèn)端口80則無法訪問。

(4)多使用境外單一IP

目前國內(nèi)一直保持對電信網(wǎng)絡(luò)詐騙的嚴(yán)打高壓態(tài)勢,所以詐騙團(tuán)伙建站通常考慮使用境外IP,且通常將多個域名綁定在同一IP 上,方便其部署管理,并進(jìn)一步縮減成本。而正規(guī)借貸平臺站點(diǎn)多使用國內(nèi)IP,且考慮到不同地區(qū)、省份的網(wǎng)絡(luò)情況,可能會將同一域名解析到多個IP 地址,提升用戶訪問體驗。

基于上述分析,可以對任意給定的URL 進(jìn)行分析,構(gòu)造如表2 的URL 相關(guān)特征。

高河瞪圓了雙眼,用力搖著頭:“不、不是,不是這樣,他說謊。我知道,他一定會把自己做的事都推在我的頭上……”

表2 域名相關(guān)特征

3.3 網(wǎng)頁內(nèi)容特征分析

大部分網(wǎng)頁的結(jié)構(gòu)如圖2 所示,部分詐騙團(tuán)伙為了提高網(wǎng)頁排名,會在標(biāo)題(title),關(guān)鍵詞(keywords)和描述(description)字段部分對網(wǎng)頁內(nèi)容進(jìn)行重點(diǎn)描述,因此需要對網(wǎng)頁不同部分的內(nèi)容分別進(jìn)行分析。

圖2 常見網(wǎng)站結(jié)構(gòu)URL 相關(guān)特征

(1)網(wǎng)頁頭部字段部分關(guān)鍵詞特征

本文定義網(wǎng)頁的標(biāo)題(title),關(guān)鍵詞(keywords)和描述(description)字段為網(wǎng)頁的頭部字段,根據(jù)作者對大量涉詐樣本的分析,詐騙團(tuán)伙習(xí)慣在頭部字段使用諸如“微粒貸”、“京東金融”、“極速放款”等詞語進(jìn)行描述。作者對收集到的正常樣本和貸款詐騙網(wǎng)站樣本進(jìn)行處理,提取其標(biāo)題、關(guān)鍵詞和描述部分的內(nèi)容,然后對其進(jìn)行分詞處理,并分別計算每個詞語的TF-IDF,取權(quán)重最高的N個詞作為該部分的關(guān)鍵。N可根據(jù)實際情況進(jìn)行設(shè)定。

(2)網(wǎng)頁主體內(nèi)容關(guān)鍵詞特征

網(wǎng)頁主體(主要包括標(biāo)簽字段的內(nèi)容)的關(guān)鍵詞提取思路和頭部字段基本一致,先將網(wǎng)頁主體中的各類HTML 標(biāo)簽清洗,提取其主要內(nèi)容,然后進(jìn)行分詞,計算TF-IDF 權(quán)重并排序。因為網(wǎng)頁主體內(nèi)容較長,且樣本有限,較多詞的權(quán)重差別并不大,因此本文在該部分引入專家領(lǐng)域知識,對高權(quán)重的詞進(jìn)行人工二次篩選,最終確定K個詞作為該部分的關(guān)鍵詞。同樣K可根據(jù)實際情況進(jìn)行設(shè)定。

基于上述分析,可對任意給定的URL 網(wǎng)頁內(nèi)容分析,對不同區(qū)域的內(nèi)容分別進(jìn)行對應(yīng)關(guān)鍵詞匹配,將詞頻作為其特征值。

3.4 網(wǎng)頁HTML 標(biāo)簽特征分析

部分貸款詐騙網(wǎng)站呈現(xiàn)出高對抗的特點(diǎn),如圖3 所示,該類網(wǎng)站基本沒有網(wǎng)頁內(nèi)容,因此3.3 節(jié)提出的關(guān)鍵詞特征對該類樣本無效。此外,許多詐騙網(wǎng)站多采用相似的網(wǎng)站模板快速建站,因此可考慮對網(wǎng)頁源碼中的HTML 標(biāo)簽進(jìn)行特征提取。

圖3 網(wǎng)頁主體無內(nèi)容的頁面舉例

具體操作方式為對任意給定的URL 網(wǎng)頁內(nèi)容,抽取其網(wǎng)頁內(nèi)容中的所有HTML 標(biāo)簽。統(tǒng)計分析每一種標(biāo)簽(如div,href 等)在該網(wǎng)頁的出現(xiàn)次數(shù),作為其特征值。同時抽取部分典型標(biāo)簽的值作為關(guān)鍵詞特征,統(tǒng)計其在網(wǎng)頁出現(xiàn)次數(shù)作為特征值。

3.5 算法分類

4 實驗驗證

本章節(jié)通過基于真實數(shù)據(jù)的實驗評估本文提出特征的有效性,并對比分析多種算法的實驗結(jié)果。

4.1 數(shù)據(jù)集描述

本文使用的數(shù)據(jù)集主要有兩個來源,一個是公安部門收集到的大量貸款詐騙網(wǎng)站樣本,另一個則是通過爬蟲抓取互聯(lián)網(wǎng)上包含3.3 節(jié)關(guān)鍵詞的網(wǎng)頁并進(jìn)行人工標(biāo)注。訓(xùn)練集一共有2 134 個樣本,其中貸款詐騙網(wǎng)站有875 個,正常網(wǎng)站有1 259 個,測試集一共有1 423 個樣本,其中貸款詐騙網(wǎng)站有608 個,正常網(wǎng)站有815 個。訓(xùn)練集和測試集均已通過白名單過濾。

4.2 識別評價指標(biāo)

本文采用如表3 所示的混淆矩陣來評價模型的準(zhǔn)確度。

表3 混淆矩陣

評價模型準(zhǔn)確度的主要指標(biāo)包括查準(zhǔn)率、查全率和F1 得分,其定義如下:直觀上,查準(zhǔn)率表示模型預(yù)測貸款詐騙網(wǎng)站正確的精度,查全率表示模型成功預(yù)測出的實際貸款詐騙網(wǎng)站占比,F(xiàn)1 得分綜合考慮查準(zhǔn)率和查全率,提供了一種平衡型的評價打分。

4.3 識別模型評價

本文使用了4 種分類算法(包括樸素貝葉斯、邏輯回歸、K 最近鄰和隨機(jī)森林)對本文提出的特征進(jìn)行實驗驗證,算法結(jié)果如表4 所示。

表4 不同算法的對比結(jié)果

從表4 觀察可知隨機(jī)森林算法的查全率、查準(zhǔn)率和F1 值上均取得了最好效果,其中F1 值為0.95,表明了本文所提算法可有效對貸款詐騙網(wǎng)站和正常網(wǎng)站進(jìn)行較好的區(qū)分。

5 總結(jié)與展望

本文針對貸款類詐騙網(wǎng)站的識別問題設(shè)計了一種算法框架,該框架通過結(jié)合白名單過濾,域名、網(wǎng)頁內(nèi)容、網(wǎng)頁HTML 標(biāo)簽三類特征以及機(jī)器學(xué)習(xí)分類算法可對貸款類詐騙網(wǎng)站進(jìn)行有效識別。作者通過基于真實數(shù)據(jù)的實驗驗證了本文提出算法框架的有效性。后續(xù)將考慮如何將貸款類詐騙的其它環(huán)節(jié)與詐騙網(wǎng)站識別進(jìn)行結(jié)合,形成更完整的解決方案。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個P’維非線性不可約特征標(biāo)的非可解群
月震特征及與地震的對比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠的四個特征
詈語的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 精品免费在线视频| 国产精品免费p区| 国产真实乱子伦视频播放| 呦女精品网站| 中国丰满人妻无码束缚啪啪| 欧美黑人欧美精品刺激| a毛片基地免费大全| 日韩在线欧美在线| 久无码久无码av无码| jizz国产视频| 呦系列视频一区二区三区| 免费中文字幕在在线不卡| 在线播放国产一区| 久久综合丝袜长腿丝袜| 国产视频一区二区在线观看| 国产成人综合在线观看| 欧美爱爱网| 无码有码中文字幕| 99ri精品视频在线观看播放| 露脸一二三区国语对白| 中文字幕资源站| 久久久久88色偷偷| 2022国产91精品久久久久久| 亚洲免费毛片| 国产色婷婷| 99热这里只有精品在线播放| 熟妇丰满人妻| 成人精品午夜福利在线播放| 丰满人妻久久中文字幕| 国产精品一区二区不卡的视频| 欧美 国产 人人视频| 日韩在线视频网站| 中国国产高清免费AV片| 日本影院一区| 国产精品粉嫩| 国产99在线观看| 国产国模一区二区三区四区| 国产精品成人久久| 网久久综合| 91人妻日韩人妻无码专区精品| 日韩黄色在线| 夜夜操天天摸| 欧美一级高清视频在线播放| a级毛片在线免费观看| 九九热免费在线视频| 亚洲精品在线观看91| 亚洲日韩高清在线亚洲专区| 国产在线观看91精品亚瑟| 久综合日韩| 在线观看免费黄色网址| 亚洲成人黄色在线| 毛片在线播放网址| 国产成人免费| 婷婷综合亚洲| 国产精品黑色丝袜的老师| 亚洲一区二区黄色| 91精品视频播放| 欧美日韩在线观看一区二区三区| 国产福利影院在线观看| 亚洲大学生视频在线播放| 免费在线色| 国产91丝袜在线观看| 久久综合伊人77777| 亚洲人网站| 丰满人妻久久中文字幕| 国产一区成人| 91热爆在线| 色噜噜综合网| 成人蜜桃网| 丰满人妻久久中文字幕| 无码人中文字幕| 亚洲精品国产精品乱码不卞| 日韩东京热无码人妻| 高潮爽到爆的喷水女主播视频 | 亚洲无线视频| 国产第一页亚洲| 欧美日韩免费在线视频| 日本人又色又爽的视频| 国产成人久久777777| 国产免费怡红院视频| 无码中字出轨中文人妻中文中| jizz在线观看|