999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交叉驗證網格尋優隨機森林的黑產用戶識別方法

2019-11-05 07:45:15章文俊韓曉龍
科技視界 2019年28期

章文俊 韓曉龍

【摘 要】隨著移動互聯網的普及,黑色產業成為了一種新的違法途徑。黑色產業的猖獗不僅損害了社會利益,同時也影響了正常用戶的體驗。本文提出了一種基于交叉驗證網格尋優隨機森林算法的區分黑色產業用戶的方法。本文收集的黑產用戶數據為某論壇的惡意刷違法消息的用戶數據。利用隨機森林機器學習數據特征,通過交叉驗證以及網格搜索技術完成模型參數尋優,得到訓練好的模型。并且比較了其他常見的幾種分類算法在識別黑產用戶的準確率。線上和線下實驗表明,基于隨機森林算法的模型在預測區分黑色產業用戶上相比較于其他幾種算法準確率更高,表現更為穩定。為打擊黑色產業積累了寶貴的經驗。

【關鍵詞】隨機森林;黑色產業;交叉驗證;網格搜索

中圖分類號: TP393.06 文獻標識碼: A 文章編號: 2095-2457(2019)28-0001-003

DOI:10.19694/j.cnki.issn2095-2457.2019.28.001

【Abstract】With the popularization of mobile Internet, the black industry has become a new illegal way. The prevalence of the black industry not only harmed the social interest, but also affected the experience of the normal users. This paper presents a method for distinguishing black industry users based on cross-validation grid-optimized random forest algorithm. The data collected in this paper is the user data of the maliciously brushed illegal messages of a certain forum. And using the random forest machine to study the data features, the model parameters are optimized through cross-verification and grid search technology, and the trained model is obtained. And the accuracy of the other common classification algorithms in identifying the black-producing user is compared. The online and offline experiments show that the model based on the stochastic forest algorithm is more accurate and more stable in the prediction of the black industrial users compared with other algorithms. Valuable experience has been accumulated in the fight against the black industry.

【Key words】Random forest; Black industry; Cross validation; Grid search

0 前言

移動化聯網的發展讓生活變得十分便利,但是同時也衍生出了一個黑色產業。黑色產業是利用不正當的違法手段在移動互聯網上獲取利益。黑色產業不僅對社會利益造成了極大地損失,對于正常用戶的使用也產生了極大的困擾。對于黑色產業的研究不僅能減少利益的損失,也能通過打擊黑色產業來保護正常用戶的使用。

本文從黑色產業刷違法信息獲取非法利益入手。通過收集某論壇的黑產用戶數據。采用科學的數據處理工具對收集的數據進行清洗,保證數據的純凈。然后根據數據特征進行構建模型,采用了網格搜索尋找最佳參數。并且比較了幾種常見的分類方法。根據實際的預測結果,以及線上模型表現,訓練好的模型有著非常優秀的表現,能很好區分黑色產業用戶和正常用戶。對打擊黑產有著較好的效果。

1 相關工作

1.1 隨機森林算法

隨機森林算法提出于1995年,由Leo Breiman和Adele Cutler共同提出。隨機森林的提出是基于決策樹。決策樹一般為簡單的分類操作,而隨機森林是多棵決策樹的集合。隨機森林的輸出取決于隨機森林中的每一個決策樹的類別。隨機森林有著諸多優點,在機器學習中也是非常重要的一種算法。由于隨機森林在處理大量數據以及平衡誤差上的卓越性能,在實際應用中也被廣泛使用。

隨著隨機森林算法在各個領域有著優良表現,該算法也被應用的領域也越來越多。陳標金[1]等通過篩選了技術指標和經濟指標來作為特征數據來進行預測國債指數的預測變量。利用隨機森林算法構建模型,通過模型進行預測。林栢全[2]等提出了一種基于隨機森林與矩陣分解的推薦算法。相比較于傳統的推薦算法,該算法在推薦性能上有更好的準確率和性能。Chong[3]等利用隨機森林算法建立了熱馴化和非熱馴化模型。在預測室外高溫的熱風險有很高的準確率。這對室外工作者的健康有很大的保證。Jo[4]等通過K-means聚類算法添加類似數據。然后通過隨機森林訓練聚類得到的數據,根據模型的輸出來識別用戶的活動。最后個性化推薦優選的GUI。

1.2 機器學習

機器學習在深度學習尚未崛起時為深度學習奠定了基礎。并且目前機器學習在各行各業也被廣泛成功使用。機器學習是一門復雜的交叉學科,不僅涉及了高等數學等基礎學科,還涉及算法等學科。機器學習的核心內容是讓計算機模擬人類的學習行為,來獲得新的知識和技能。機器學習的應用遍布人工智能的各個領域,極大地減少了人工的重復勞動。

機器學習一般分為有監督學習和無監督學習,兩種不同的學習方式一般也會應用于不同的情景。蔡天鴻[5]等提出一種基于TF-IDF的人格分析方法。利用VSM、PCA、Wavelet技術提取出文本特征,利用KNN分類算法獲得人格分類的候選項。Feng[6]等提出一種評估建筑環境績效的定量方法。主要使用了參數化的設計技術以及機器學習算法來評估早期決策階段的建筑環境績效。Ariharan[7]等提出了一種機器學習框架,來管理傳感器部署時相關的網絡延遲和丟包。這種機器學習框架能結合學習模塊的結果,進行集體決策。Czernechi[8]等提出將機器學習與遙感數據以及環境變量相結合的概念。并且通過建立模型來進行預測大型的冰雹事件。

1.3 網格搜索算法

網格搜索是機器學習中非常重要的一個概念。網格搜索是通過遍歷給定的參數組合來優化所需要訓練的模型。通常為了防止模型過擬合或者欠擬合,會使用網格搜索算法尋找模型最佳參數。網格搜索也叫窮舉搜索,即遍歷整個訓練數據集。

網格搜索算法在實際應用的過程中配合分類算法進行使用,主要是用于分類算法的參數尋優。張文雅[9]在預測汽車銷量時,運用了交叉驗證的網格搜索算法。主要是運用于優化SVM算法的懲罰系數以及核函數的參數。構建了汽車銷售的預測模型。Wang[10]等提出了一種從腦電圖傳感器收集的非靜止腦電圖數據的綜合方法。綜合方法其中包括了網格搜索優化器,主要用于自動查找訓練分類器的最佳參數。

2 理論基礎

2.1 黑產用戶行為分析

本文的研究主要針對是黑產用戶在論壇惡意刷違法內容行為。黑產用戶主要利用腳本文件進行無限制刷帖。為了針對黑產用戶的惡意刷內容,需要對黑產用戶的刷內容行為進行分析,然后構建預測模型。

通過對黑產用戶行為進行分析可以發現,黑產用戶會通過腳本文件直接訪問發表內容的接口。并且在短時間內發送內容數量上會比正常用戶多出很多。同時黑產用戶在短時間內也會在回復內容數量上遠遠超過正常用戶。同時基于黑產用戶是通過作弊工具進行惡意刷內容。所以黑產用戶等級不會很高。基于以上黑產用戶等行為特征,可以對將黑產用戶和正常用戶進行很好地區分。

2.2 數據預處理

在機器學習中,數據是否足夠以及數據的完整將直接決定模型的準確率,所以在數據處理的過程中對于數據的完整性的保留以及處理的靈活性都有著較高的要求。最為常見的也是使用最廣泛的數據處理辦法是通過MS的excel軟件進行數據的處理。

因為本研究中設采集的數據集較為龐大且數據內容較為復雜。采用了python語言客休數據管理工具,numpy和pandas數據處理庫。其中pandas通過讀取數據將數據轉換為DataFrame格式方便進行后續操作。在數據的預處理中,主要是對數據集中的缺失值進行填充,以及時間數據轉換為時間戳。這樣才能保證后續的模型訓練能順利進行。

2.3 分類方法設計

本文基于對黑色產業用戶惡意刷內容的行為特征入手。利用隨機森林算法進行訓練模型,并通過網格搜索算法進行參數優化。得到最優的預測模型。具體的分類方法設計如圖1所示。

首先為了得到數據,需要對黑產用戶行為進行分析。主要尋找可以非常準確區分黑產用戶和正常用戶的行為特征。找到合適的黑產用戶特征,收集黑產用戶一周的特征數據。在收集完黑產用戶數據之后為了能順利進行機器學習,需要將數據進行清洗,即數據的預處理。

然后是用隨機森林分類器(RondomForest)進行訓練模型,現在默認參數下進行數據的訓練。為了更快地找到模型的最佳參數。本文才用了網格搜索(Grid search)算法,保證模型在訓練過程中不會因為參數設置而導致過擬合或者欠擬合。

通過訓練好的預測模型對最新的黑產用戶數據進行預測,并且比較準確率。通過觀察誤判和漏判用戶特征進行調整模型。最后將訓練好的預測模型上線進行預測,為后續的處理提供判斷依據。

2.4 模型評估

本文研究內容是通過機器學習訓練模型來進行預測,為了保證模型的準確率。需要在模型進行預測的過程中,對模型完成評估。在評估過程中主要可以參考一下幾個數據的準確率。其中隨機森林算法所特有的袋外得分率(oob_score)。該參數表示為,在訓練集中每次訓練的過程會自動將訓練集的1/3的數據集劃分成測試集。這樣在訓練模型的同時也能進行測試。袋外得分率的返回值也是模型的準確率判斷條件之一。

訓練好的模型在預測最新的黑產用戶數據時,因為已知黑產用戶標簽,可以通過隨機森林的分類器的predict函數得出預測標簽,將兩者標簽進行對比,同樣也能統計得到模型的準確率。

模型的優劣不僅取決于模型預測的準確率,因為準確率可以通過參數進行調整。所以在判斷完模型準確率的基礎上,還需要對模型的泛化能力進行評估。通常為了評估模型的泛化能力會采用AUC函數。AUC分數越高,代表模型的泛化程度越強。AUC計算公式如下:

3 實驗結果與分析

本文以黑產用戶特征為數據特征,對某論壇的黑產用戶惡意刷內容行為數據進行收集。共收集一周數據作為模型的訓練參數。經過數據預處理之后,最后得到的數據有13萬條。在訓練模型過程中將整個數據集分成4:1的訓練集和測試集。用于評估模型的準確率。

3.1 數據預處理

本文主要是利用python程序語言進行數據處理。為了保證訓練數據的完整性以及數據的可讀性。在數據處理過程中主要涉及pandas和numpy兩個科學數據處理包。通過將數據集轉換成DataFrame特殊的格式,對缺失值進行填充。對于機器學習無法識別的數據類型進行轉換,保證訓練數據集的純凈。

3.2 預測模型訓練與參數尋優

通過數據的預處理得到純凈的黑產用戶數據之后。利用隨機森林算法訓練模型。初始的模型訓練采用默認參數,得到在默認參數下的模型準確率。為了體現模型對數據集的依賴性,對不同的數據集大小下模型的準確率進行對比。訓練結果如表1所示。

從表1的預測結果來看,數據集的大小對模型的預測有著很大的影響。表1中的AUC得分是數據集切分出來的,所以在計算泛化能力時得分很高。實際在預測過程中需要先考慮模型的準確度,在看中模型的泛化程度。從預測結果來看,短時間內的特征數據,并不能進行很好的預測。七天的數據集比單獨一天的數據集提高了將近40%的準確率。所以為了保持模型預測的準確率,至少保證一周以上的數據集大小。

確定完數據集的大小對模型產生的影響,接著需要進行參數調優,保證在準確率和泛化能力都很好的前提下產生過擬合或者欠擬合。本文中才用了網格搜索算法,雖然耗時較長,但為了保證模型預測的準確率還是采用網格搜索。

對于隨機森林算法,其分類器主要需要調整的參數為以下五個參數:決策樹個數(n_estimators),決策樹的最大深度(max_depth),內部劃分節點需要的最小樣本樹(min_samples_split),葉子節點最少的樣本數(min_samples_leaf),以及單棵決策樹使用特征的最大數量(max_features)。因為本文中數據特征數量較少,并且選取的特征數量都具有較高的關聯性和區分度,所以會將所有的特征加入訓練。即需要調整的參數為四個參數。

圖2為調整參數后模型準確率和AUC分數的對比,這里調優用到的數據集為七天數據集。從圖2可以很清楚的看到在默認參數下,模型準確率和泛化程度都比較高。經過參數的調整,模型預測的準確率由初始的97.35%提高到了99.25%。并且模型的AUC得分也從95.67%提高到了99.57%。在網格搜索算法計算得到最佳參數,并且四次調整參數之后,模型預測的準確率以及泛化能力都到了預期的程度。

3.3 模型上線預測

訓練好的預測模型,在線下經過幾天的驗證和校準。能保證良好的準確率,在確認無誤的情況下接入線上進行攔截。通過幾天的攔截數據觀察和統計,模型有著預期的表現。具體的上線攔截準確率如圖3所示。

從圖3可以看出模型在上線攔擊用戶準確率達到了當初預期的效果。基本能保證在準確率在98%以上。通過模型能過濾掉絕大多數的黑產用戶,保證正常用戶的使用體驗。同時線上的攔截數據(下轉第7頁)(上接第3頁)也能非常直觀的表明模型的有效性和實用性。模型的準確判斷不僅極大地減少了人工判斷的時間,同時也能不斷地根據黑產用戶的行為來提升模型和完善模型。

4 結論

本文從對黑色產業用戶利用作弊手段傳播違法消息,并且惡意刷內容的行為入手。通過分析黑產用戶行為特征,針對特征進行收集數據。利用python的開源工具完成數據清洗。利用機器學習中的隨機森林算法的分類器構建預測模型。并且通過網格搜索算法完成對模型的參數尋優過程。最后通過線下的驗證完成對模型的評估,通過觀察線上攔截情況對模型進行調整。從線上數據來看模型不僅有著良好的表現,同時也為后續打擊黑產用戶提供了寶貴經驗。下一步研究會基于深度神經網絡來增加模型的學習能力,適應更多的場景。

【參考文獻】

[1]陳標金,王鋒.宏觀經濟指標、技術指標與國債期貨價格預測——基于隨機森林機器學習的實證檢驗[J/OL].統計與信息論壇:1-7[2019-05-31].

[2]林栢全,肖菁.基于矩陣分解與隨機森林的多準則推薦算法[J/OL].華南師范大學學報(自然科學版),2019(02)[2019-05-31].

[3]Daokun Chong,Neng Zhu,Wei Luo,Xiaodi Pan. Human thermal risk prediction in indoor hyperthermal environments based on random forest[J].Sustainable Cities and Society,2019,49.

[4]Sang-Muk Jo,Sung-Bae Cho. A personalized context-aware soft keyboard adapted by random forest trained with additional data of same cluster[J]. Neurocomputing,2019,353.

[5]蔡天鴻,鄧金,史國陽,朱晉,懷麗波.基于TF-IDF方法的文本人物群體人格分析方法[J].計算機應用與軟件,2019,36(05):35-38.

[6]Kailun Feng,Weizhuo Lu,Yaowu Wang. Assessing environmental performance in early building design stage: an integrated parametric design and machine learning method[J]. Sustainable Cities and Society,2019.

[7]V Ariharan,Subha P. Eswaran,Srinivasarao Vempati,Naveed Anjum. Machine Learning Quorum Decider (MLQD) for Large Scale IoT Deployments[J]. Procedia Computer Science,2019,151.

[8]Bartosz Czernecki,Mateusz Taszarek,Micha?覥 Marosz,Marek Pó?覥rolniczak,Leszek Kolendowicz,Andrzej Wyszogrodzki,Jan Szturc. Application of machine learning to large hail prediction - The importance of radar reflectivity, lightning occurrence and convective parameters derived from ERA5[J]. Atmospheric Research,2019,227.

[9]張文雅,范雨強,韓華,張斌,崔曉鈺.基于交叉驗證網格尋優支持向量機的產品銷售預測[J].計算機系統應用,2019,28(05):1-9.

[10]Wang Xiashuang,Gong Guanghong,Li Ni. Automated Recognition of Epileptic EEG States Using a Combination of Symlet Wavelet Processing, Gradient Boosting Machine, and Grid Search Optimizer[J]. Sensors (Basel, Switzerland),2019,19(2).

主站蜘蛛池模板: 国产精品永久免费嫩草研究院| 亚洲人精品亚洲人成在线| 国模极品一区二区三区| 91精品啪在线观看国产60岁 | 激情亚洲天堂| 中文字幕第4页| 国产91在线免费视频| 国产人成乱码视频免费观看| 久久综合伊人 六十路| 日本www在线视频| 红杏AV在线无码| 国产原创第一页在线观看| 国产熟女一级毛片| 国产午夜不卡| 亚洲91在线精品| 3D动漫精品啪啪一区二区下载| 亚洲精品视频免费| 高清欧美性猛交XXXX黑人猛交| 免费无遮挡AV| 99精品国产自在现线观看| 一级高清毛片免费a级高清毛片| 国产美女在线免费观看| 亚洲欧美日本国产专区一区| 亚洲成网777777国产精品| 日韩天堂在线观看| 国产微拍一区二区三区四区| 欧美精品二区| 中国美女**毛片录像在线| 国产喷水视频| 国产一级毛片yw| 国产极品粉嫩小泬免费看| 好吊色妇女免费视频免费| 91色老久久精品偷偷蜜臀| 欧美成人区| 99偷拍视频精品一区二区| 久久婷婷综合色一区二区| 国产网站黄| 国产成人精品免费视频大全五级| 中文字幕调教一区二区视频| 午夜不卡视频| 国产精品99一区不卡| 国产视频一二三区| 久久精品视频亚洲| 免费又黄又爽又猛大片午夜| 99热这里只有精品免费| 91探花国产综合在线精品| 99热这里只有免费国产精品| 久久精品无码一区二区日韩免费| 日韩一区二区三免费高清| 欧美综合在线观看| 91亚洲精选| 另类综合视频| 日本欧美在线观看| 国产成人精品第一区二区| 国产农村妇女精品一二区| 刘亦菲一区二区在线观看| 91黄视频在线观看| 波多野结衣二区| 国产亚洲精品精品精品| 国产一区二区三区日韩精品 | 色哟哟色院91精品网站| 露脸国产精品自产在线播| 亚洲成人精品| 国产精品私拍99pans大尺度 | 伊人色综合久久天天| 青青青视频91在线 | av手机版在线播放| 亚洲欧洲一区二区三区| 2020极品精品国产| 免费在线一区| 国产黄色视频综合| 久久综合伊人 六十路| 亚洲一区二区三区香蕉| swag国产精品| 黄色网在线| 日韩午夜片| 亚洲毛片网站| 精品欧美日韩国产日漫一区不卡| 亚洲第一天堂无码专区| 国产91全国探花系列在线播放 | 亚洲最大综合网| 国产三级韩国三级理|