999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

構建基于密度峰值聚類算法的反作弊系統

2022-06-07 07:42:00寇麗杰
數字通信世界 2022年5期

葉 楠,寇麗杰

(福州理工學院,福建 福州 350506)

0 引言

隨著互聯網技術的發展普及,日益增加的廣告投放需求與流量需求,不停推動著廣告平臺自身對流量擴增的需求,在存量時代的零和博弈現狀下,數以百萬計的應用激烈爭奪有限的流量市場,自然而然會引來大量的黑產,去謀取其中的一些利益[1]。廣告黑產的定義,即通過制造大量虛假的曝光和點擊下載的傳播,來達到更多的曝光、更多的點擊、更多的下載、更多的轉化。黑產演進已經從技術實現簡單的協議刷量、群控刷量發展到了技術復雜度越高的真人眾包刷量[2]。

本文分析了主要的流量反作弊的痛點和技術難點,構建基于對抗性訓練的廣告流量反作弊學習框架,結合對密度峰值聚類算法的多重改良,提出了一種解決行為序列分類問題的Transformer self attention模型,旨在將多模態結合提升模型效果,通過流量反作弊中的對抗性訓練設計實現黑產演變攻擊的對抗方案[3]。

1 流量反作弊的對抗性學習框架

洞察出正常流量與惡意流量的區別,關鍵點就在于惡意流量是很難完全偽造出正常流量的,它會在某些行為或者說數據的特征上呈現出與正常流量的一些區別[4]。利用這個思路,本文創新性地提出了一個流量反作弊的對抗性學習框架,如圖1所示[5]。整個學習框架分為四層,第一層為數據安全層,即數據的管理層,相當于把所有的數據收集起來,然后做一系列的清洗之后作為第二層畫像層的輸入,在畫像層構建出關于設備和環境等不同Item的一些畫像。最后通過把這些構建出來的畫像提供到對抗學習模型上面,給需要的一些模型進行學習,最終發布到應用層面上,提供強有力的反作弊服務能力[6]。

圖1 流量反作弊對抗性學習框架

2 改進密度峰值聚類算法模型

2.1 密度峰值聚類算法

密度峰值聚類算法是一種很簡要易用的聚類算法,能夠識別各種不同形狀的類簇,該算法有兩步很重要的步驟,一個是密度的計算,另一個是最小距離的計算,密度的計算就主要是指計算每一個點,與其所有其他點的最小距離之和[7]。當得到每一個點的最小距離和密度后,可以由局部密碼和距離( , )構造出對確定聚類中心具有決定性作用的決策圖,這個決策圖橫坐標是每一個點的密度,然后縱坐標是點的一個最小的距離[8]。局部密度 和距離 的計算公式如下。

從公式中可以看到,密度越大、距離越遠的點,越有可能被定義成一個聚類的中心,因為該算法的假設是類簇的中心由一些局部密度比較低的點圍繞,并且這些點距離其他有高局部密度的點的距離都比較大。從另一個層面來說,聚類中心與聚類中心之間會有一定的距離,同時也可以發現那些密度很小,但是距離很遠的點,很有可能就是所要找到的一些離群點。

2.2 算法改良優化思路

經過深入分析并結合具體應用,采用該密度峰值聚類算法會有以下問題:時間復雜度高、強高斯假設和無法準確檢測離群點[9]。

(1)時間復雜度高。算法中三個計算步驟時間復雜度為 ,當數據規模較大時,算法基本不能輸出結果。

(2)強高斯假設。密度的計算是基于球體半徑作為閾值來計算的,所以依然以高斯假設為前提。無法理想地聚集任意形狀的簇,密度的計算以高斯假設為前提,所以簇依然與高斯分布相關。

(3)無法準確檢測出離群點。根據密度與距離判斷離群點缺乏魯棒性,離群點之間也會相互影響,無法根據離群點的最小距離判斷其離群的程度。

如何解決時間復雜度問題?通過合并多個重復計算、進行數據點距離計算、密度函數等優化,可以將多個計算步驟時間復雜度由 下降至 ,如表1所示,達到百萬級數據集輕松計算,時間縮小100倍。

表1 解決時間復雜度的算法優化

如何理想地聚集任意形狀的簇?通過去掉高斯假設,如果密度的計算是基于k個最近鄰居點,則其分布可以是任意形狀。如何使離群點檢測更具魯棒性?在關于離群點檢測這個方法上增加一個新的指標LOF(Local Outlier Factor),如式(3)所示,主要用于衡量每個點的密度與它最近鄰居點的密度之比的平均。

在LOF計算指標公式中,j為k個最近鄰居點;和 分別為i點和j點的密度。

通過如上改善,本文所提出的改良DPeak后的算法IM-DPeak(Improve DPeak)解決了幾個重要的問題:第一個是把時間復雜度,從 下降至 ;第二個是引入了k最近鄰居的計算,成功去掉了一個高斯假設;第三個是通過計算k最近鄰居點的密度之比的平均作為衡量新指標,可以使得離群點的檢測更具魯棒性。從實際的場景和數據也可以發現,如果根據最小的距離無法檢測出一些很準確的離群點,而通過新的指標,卻能發現一些相應的離群點,并且我們把這些離群點剔除之后,使本文的分類算法在設計上得到了一定的提高。

3 黑產演變攻擊的對抗方案

方案參考了Few Shot Learning的思想,主要采用Prototypical Network with Attention網絡,這張網絡的核心思想在于讓網絡去學習一個轉義的空間,然后讓輸入映射到一個圓形的空間里面,使得不同種類的流量會在圓形空間里面分布在不同的角落,而網絡的目標是讓它們形成各自的簇,然后在預測時,只要把流預測的樣本輸入網絡,讓它映射回圓形空間里面去看,判斷它會更接近于哪一個種類的流量。

通過如上Transformer網絡已經可以很好地抽取到一些行為的特征,圖2為進行多模態結合的流程模型,結合之前一些App的畫像Embedding、設備的畫像以及IP地址的畫像,把這些不同模態的特征融合在一起,作為多模態模型的一個輸入,能夠為分類器的模型帶來很大的提升效果。

圖2 多模態結合提升模型效果

4 實驗分析

4.1 背景和實驗環境描述

為了評估本文優化構建的IM-DPeak算法的聚類效果和離群點檢測準確性,對接擁有線上百萬級用戶的第三方新媒體IP視頻云平臺中的程序化廣告系統進行實驗,該平臺注冊用戶在200萬以上,在線并發率超過10%,終端涵蓋了機頂盒端、手機端、PC端等門戶,提供了以視頻、圖片為主的廣告推送服務。實驗結果以規則校驗下異常流量的過濾能力、聚類中心判定的識別準確度作為參考,同時要求IM-DPeak算法能夠聚集任意形狀的類簇,具備標準數據集的同等聚類效果。發起單次完整的廣告流程中包括了請求、下發、曝光和點擊四個基本要素。

4.2 實時和離線反作弊系統策略

實時反作弊系統策略主要依賴直接反饋特征,在快速、高效的基礎上,根據獨立廣告流量進行實時分析。其策略主要包括參數合規性檢查、廣告流量地址防盜鏈校驗、點擊事件真實性決策等。離線廣告反作弊系統主要依賴于統計分析和關聯分析,根據用戶基數和日志量級需要損耗一定的計算性能。規則策略分為以下幾類。

(1)基于點擊的策略。①進行頁面上下游分析、頁面行為深度分析、頁面加載耗時分析,了解用戶在點擊事件上的跳轉行為是否符合規律和合法路徑;②進行用戶畫像、標簽組關聯大量分組廣告的用戶請求分析,判決點擊事件真實性;③繪制點擊次數跟隨時間變化的控制圖,描述上下限變化穩定度,發現點擊事件轉化情況。

(2)基于曝光的策略。①一定時間內累計達到廣告曝光次數時,比對設備、IP地址、用戶ID、時間間隔等參數;②單維度曝光量突降時應檢查慢速比、卡頓比的影響;③當A/B Test數據驅動決策時對曝光率變化情況的融合進行分析。

如上策略結合請求和下發情況,可以更進一步產生基于組合的策略,通過對廣告全流程的節點監控,如多維度的歷史數據挖掘和系統質量趨勢,進行持續跟蹤、發現異常、及時報警。

4.3 合成和真實數據集上的聚類對比

實驗環境包含x86服務器1臺,配置為Windows 10 64位操作系統,Intel XEON金牌6130 2.1 GHz,64 GB內存,軟件為PyCharm Python 3.8 64bit版本。

表2為基于廣告大數據系統軟硬探針和終端SDK采集統計的實例,提供實驗所用的4個真實數據集,其中各數據集按照不同獎勵形式定義了規則分類,按照整體熱度分布提取了一定量級的實例數進行集合分析。

表2 實驗中采用的真實數據集

為了分析新媒體IP視頻云平臺抽樣用戶的行為規律和檢測是否存在刷量離群樣本,IM-DPeak算法在4個真實數據集上的聚類結果如圖3所示。從圖3(a)決策圖中可以看出,通過IM-DPeak算法進行不同數據集的聚類后,通過混合不同采樣數據集同樣可以正確找出聚類中心,根據反作弊系統規則,在這些數據集上的類中僅存在按設定分類的明顯密度峰值,同時用三角形標出距離較大、密度較小的離群點。在圖3(b)中,IM-DPeak算法在4個真實數據集上可以準確劃分聚類結果,且存在部分離群點(使用黑色點標注)及部分需要借助反作弊系統輔助二次審計的疑似離群點(使用放大同色點標注),實驗真實數據集的聚類情況說明本文所設計的IM-DPeak算法在不同形狀數據集上的處理效果較優,可與不同群體類別的廣告用戶行為數據進行混合分析。

圖3 IM-DPeak算法在4個真實數據集上的聚類效果

5 結束語

密度峰值聚類算法具備很好的分類及離群檢測機制,本文將密度峰值聚類算法進行改良后,創新性地應用于面向黑產技術演進發展的流量反作弊系統,提出了一種基于DPeak算法的對抗性學習框架,通過復雜度降級提高算力、構建模型解決少量樣本的行為序列分類問題等步驟,形成了完善流程的反作弊系統。同時建立多維度的畫像輸入機制,讓不同模態特征進行融合,持續提升新分類器模型效果。■

主站蜘蛛池模板: 三上悠亚一区二区| 日韩毛片基地| 亚洲制服中文字幕一区二区| 国产亚洲成AⅤ人片在线观看| 国产91丝袜| 久久精品这里只有国产中文精品 | 亚洲成人在线网| 国产精品手机在线观看你懂的| 午夜欧美在线| 日韩毛片免费视频| 国产精品无码AV中文| 国模沟沟一区二区三区| 午夜小视频在线| 99久久精品国产自免费| 97se亚洲综合在线天天| 亚洲国产精品日韩欧美一区| 午夜福利亚洲精品| 欧美激情视频一区二区三区免费| 99免费在线观看视频| 最新国语自产精品视频在| 亚洲三级成人| 中文字幕无码中文字幕有码在线| 六月婷婷综合| 最新国语自产精品视频在| 国产喷水视频| 经典三级久久| 亚洲床戏一区| 精品国产Ⅴ无码大片在线观看81| 高清免费毛片| 制服丝袜国产精品| 午夜福利免费视频| 国产丝袜91| 亚洲欧洲日韩久久狠狠爱| 99久久精品国产综合婷婷| 精品国产污污免费网站| 99re免费视频| 日本午夜精品一本在线观看| 婷婷六月色| 91精品福利自产拍在线观看| 亚洲欧洲日韩综合色天使| 国产网站免费| 最新精品国偷自产在线| 精品無碼一區在線觀看 | 无码精品福利一区二区三区| 在线观看免费黄色网址| 国产拍揄自揄精品视频网站| 亚洲综合婷婷激情| 999国产精品永久免费视频精品久久| 伊人久综合| 在线一级毛片| 国产丝袜精品| 鲁鲁鲁爽爽爽在线视频观看| 日本久久免费| 中文字幕亚洲乱码熟女1区2区| 一本大道香蕉久中文在线播放| 亚洲国产精品日韩欧美一区| 亚洲精品成人福利在线电影| 综合亚洲色图| 欧美成人看片一区二区三区| 亚洲一区二区三区麻豆| 亚洲无码A视频在线| 最新国语自产精品视频在| 国产欧美日韩va另类在线播放| 成人蜜桃网| 少妇精品网站| 国产又黄又硬又粗| 国产精品漂亮美女在线观看| 久久情精品国产品免费| 手机永久AV在线播放| 国产亚洲精久久久久久无码AV| 全部无卡免费的毛片在线看| 性做久久久久久久免费看| 四虎在线高清无码| 欧美www在线观看| 亚洲男人的天堂久久香蕉 | 国产二级毛片| 午夜不卡视频| 91精品国产91久无码网站| 国产噜噜在线视频观看| 欧美影院久久| 国产精品夜夜嗨视频免费视频| 99热这里只有免费国产精品|