魯志毅 王新猛
南京森林警察學院,江蘇 南京 210023
最高人民檢察院于2021年7月25日發布的數據顯示,2021年上半年,全國賭博類犯罪案件涉及46575人,較2019年同期上升27.7%(2020年受疫情影響不作比較),上升趨勢明顯。隨著信息網絡技術的不斷進步,賭博類犯罪正朝著網絡化、線上化的方向大步邁進,網絡賭博正逐步取代傳統的實體賭場形式開展。為了逃避公安司法機關的查處和打擊,犯罪分子通常在境外架設賭博網站服務器,廣泛使用信息網絡技術將各個環節分割,形成全鏈條的集團犯罪。通過研究網絡賭博案件發現,不少網絡賭博伴隨著網絡詐騙、套路貸、傳銷、敲詐勒索、非法拘禁甚至是偷越國(邊)境等其他違法犯罪,嚴重危害了公民的人身和財產安全。對于網絡賭博進行案件分析,總結有以下特點[1]。
隨著全國公安機關持續開展打擊網絡賭博專項行動,以高壓態勢整治網絡賭博風氣,加之網絡通信、互聯網支付、刷臉支付等支付手段便捷化等因素,國內無法發展下去的犯罪團伙看上了境外開設網絡賭博的優勢,利用網絡博彩、真人麻將、彩票游戲、電子游戲等形式在境外搭建網絡賭博平臺,將客服推廣、技術運維、資金流水等部門一并轉移到境外繼續開展網絡賭博產業。根據公安部2020年1月發布的數據顯示,周邊國家已成為跨國網絡賭博活動的主要策源地,通過對涉賭網站、APP的大數據分析,98%以上的賭博平臺系租用境外主機運營,呈現出“組織化、國際化、產業化”的特征。
網絡賭博在招賭方面出現了新的形式,一是誘騙散客玩家充值,這類人群有一個典型案例就是“殺豬盤”,犯罪嫌疑人一般在交友或者婚戀平臺把自己偽裝成學歷高、顏值高、性格好的用戶,通過微信等網絡聊天工具一步步和被害人建立感情,然后利用話術或者誘惑引導受害人到網絡賭博平臺充值賭博,最后再操控平臺結算勝負或者賠率達到目的。二是狩獵有實力的企業家,犯罪團伙在國內通過哄騙誘惑邀約拉攏有實力的企業家參加某國際項目,實際上是網絡賭博,從中下套采取高杠桿的賭博方式,導致企業家一步步陷入其中,短時間獲取巨額利潤,而后卻往往陷入巨大虧損。這兩種形式最一開始的表現都不是賭博,但最后都引導受害者陷入網絡賭博中無法自拔,欠下巨額賭債。
經研判發現,絕大部分的網絡賭博平臺已經不是單純基于撲克牌設下陷阱,針對目前社會面的流量情況,開設諸如秒開彩票、世界杯競猜、電子競技競猜、捕魚游戲、大富翁桌游等游戲,這類非棋牌類的彩票和網絡游戲的背后都加入了精心設計的算法和人為可操控的緊急后臺,以此來控制每次的游戲回合勝負、賠率等參數,利用賭徒心理抓住人性的弱點獲取大量的充值。
網絡賭博團伙的資金處理是一個團隊運轉的關鍵所在,目前已知的賭資處理有以下幾類,一是設置與賭博完全不沾邊的空殼公司,通過各種方法規避監管和調查,實現賭資的快速流轉;二是采用虛假開設的銀行卡或者境外支付機構賬戶匯聚賭資,將巨額資金通過地下錢莊轉移到境外;三是與境外團伙合作,利用運營商充值話費的形式進行賭資充值,搭建話費充值和賭博充值相連接的平臺,實現賭資的另類轉移;四是賭博集團利用租借的二維碼進行資金轉出轉入,實現資金鏈的跳轉俗稱“跑分”模式;五是利用虛擬幣去中心化和匿名性的特點,通過虛擬幣支付交易的方式進行資金轉移;六是利用微信紅包進行賭博,微信紅包金額的隨機性為網絡賭博提供了技術支持,微信群的一天一換讓網絡賭博的行為更加隱蔽。
基于網絡賭博新特點,本研究準備從網絡賭博最常見的引流形式入手,分析網絡賭博引流方式,通過研究其特征屬性提出有針對性的檢測技術。
本研究利用人工智能、網絡爬蟲等技術進行數據采集,經過分析發現大部分的網絡賭博都以賭博網站的形式進行網絡賭博活動的開展,因此本研究針對賭博網站開展收集分析工作[2]。截至2021年9月,將采集的網站進行集成后得到賭博網站2151個。再對采集的網站進行數據清洗,去除無法打開和頁面丟失的情況,最終得到1537個賭博網站。部分賭博網站數據如圖1所示。以便通過研究分析網絡賭博網站特征,對網絡賭博網站檢測提供思路。
對已清洗好的賭博網站數據樣本進行數據分析,通過多次訪問、隔天訪問、更改代理訪問等方式對數據樣本進行測試,測試結果發現大部分的賭博網站的訪問并不困難,大多并不需要代理支持,目的是為了國內玩家能夠更加便捷地訪問。當過段時間對同一個網站進行訪問發現,網站會自動跳轉到一個通知頁面,通知玩家該網站域名的更改,原網站也失去了作用[3]。對賭博網站內具體內容分析發現,網站內具體內容的存放并不是直接放置,而是以圖片的形式表現,目的是為了更好地隱藏網站內容和性質。基于數據分析,總結出以下賭博網站特征。
1.網絡賭博平臺引流方式多樣
在進行數據采集的過程中,對網絡賭博平臺的引流方式進行歸納總結,發現當前活躍在社會面上的賭博平臺引流形式主要有:一是通過社交工具發布朋友圈、帖子引流;二是通過投放大量廣告到情色網站、招聘網站、軟件APP等引流;三是通過短信、郵箱大量群發賭博平臺的信息引流。
2.網絡賭博平臺大多不用代理
目前網絡賭博受眾面廣,為了保證玩家數量,招賭門檻較低,大多網絡賭博平臺都可以在國內直接訪問,并不需要境外的網絡作支持[4]。其中也有需要境外網絡支持的網絡賭博平臺,對于這些網絡賭博平臺,則要求玩家對于登錄境外網絡要有一定的了解,門檻稍微高一些。
3.網絡賭博平臺域名隨時變化
有一個穩定的平臺才能有穩定的玩家源,為了加強網絡賭博平臺的安全性,平臺的登錄一般都需要多次頁面跳轉,域名也會隨時更改,更改后會發送新域名到用戶平臺賬戶的聯系方式上。雖然網絡賭博平臺域名經常發生變化,但是平臺內容不會發生變化,這也給予了賭博網站能夠被檢測到的方法。
4.網絡賭博平臺內容結構相似
為了平臺的安全性,賭博網站一般不會直接在網站源代碼上凸顯出關鍵的博彩字眼,平時在瀏覽器上所看見的漢字大部分都是用圖片展示出來的,點擊時也是通過圖片鏈接直接跳轉。因此賭博網站中圖片的內容顯得尤為關鍵,能否識別圖片中的漢字是構建賭博網站檢測詞集的關鍵。
對于上述網絡賭博網站特征屬性分析可知,網絡賭博網站檢測可以從網站內容作為突破口,鑒于網絡賭博網站內容都以圖片的形式隱藏起來,本研究通過文本圖片識別,構建網絡賭博網站關鍵詞集,實現對賭博網站的自動化檢測。檢測流程圖如圖2所示。

圖2 檢測流程圖
1.分析網站代碼
對賭博網站的運行分析,賭博網站利用延遲加載的方式,讓網站在登錄以后的5到10秒進入加載過程,此時對網站進行返回,得到的是毫不相關的內容,但是一旦網站加載完之后便是真正的賭博網站。為此本研究給檢測代碼加入html標簽檢測等候,當檢測到指定標簽后再進行爬取。
對賭博網站的html代碼進行分析,發現賭博網站為了網站的安全性,對于關鍵性敏感內容都是以圖片的形式來展示,并且對網站進行請求訪問返回的數據也會因為網站的安全保護出現數據缺失的情況。為此本研究使用Python中Selenium庫,利用瀏覽器模擬真人訪問網站的效果,實現繞開賭博網站對爬蟲工具的安全保護,此時就可以使用XPath語法定位賭博網站中的圖片數據進行下載保存了。
2.識別圖片數據
為了更準確的對賭博網站中的敏感關鍵詞進行識別,本研究調用了百度智能云的圖片識別API[5]。API又名應用程序編程接口,可以為應用程序與開發人員提供訪問一組例程的能力,利用圖片識別API接口達到調用該圖片識別技術的目的。在圖片識別前對每個網站保存好的圖片進行分批次識別,確保每個賭博網站的關鍵詞個性化,以此構建更加全面、更加有針對性的賭博網站關鍵詞集。
3.構建關鍵詞集
對每個網站識別的關鍵詞進行數據清洗,去除無效數字、識別錯誤數據,匯總數據后進行詞頻統計,得到詞頻數前十的詞語分別是:棋X、牛X、返X、新葡X、威尼X、MX、游X、幸X、資X、捕X。關鍵詞集、詞云如圖3所示。

圖3 關鍵詞集、詞云示意圖
4.關鍵詞集碰撞
隨著詞集一次次的反饋更新,賭博網站關鍵詞集將更加完善,根據詞集中關鍵詞頻數進行排序,頻數越大說明該關鍵詞越重要,越重要的關鍵詞對應的基礎賦值越高。賭博網站的檢測可以通過識別其圖片中的文字,與詞集中的關鍵詞進行碰撞,根據碰撞結果計算網站中關鍵詞基礎賦值總和作為判斷是否為賭博網站的依據。
本文基于從各個渠道收集到的賭博網站數據,對網絡賭博特點、網絡賭博網站代碼、網絡賭博網站檢測等方面展開研究,通過分析賭博網站的代碼以及運行方式,利用PYTHON語言進行賭博網站的內容識別,構建賭博網站關鍵詞集,旨為大批量賭博網站檢測提供思路方法,實現自動化網絡賭博網站的檢測,進一步遏制網絡賭博現象的發生。隨著公安機關在網絡賭博專項行動中捷報頻傳,賭博網站檢測機制不斷完善,網絡賭博危害宣傳工作不斷深入,相信在不久的將來,網絡賭博的現象終會被扼殺在搖籃里。