余志瑋 何月順



摘? 要: 暗網中存在大量毒品、軍火、貨幣等非法交易網站,對網絡環境造成嚴重危害,為了對暗網進行探測和監控,提出一種基于Scrapy分布式的暗網探測爬蟲方法。將暗網使用的socks5協議轉化為爬蟲支持的http協議,再利用Python的Scrapy爬蟲框架對暗網站點進行探測和爬取。使用該方法已發現數以萬計的暗網站點信息,包括網站標題、源代碼、網站類型等。將暗網代理環境和Python爬蟲相結合,能夠讓程序對暗網的站點進行探測和爬取,對暗網環境進行很好的探測和監控。
關鍵詞: 暗網; 代理環境; Scrapy爬蟲框架; 站點
中圖分類號:TP393.0? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2020)04-21-05
Building dark web probe crawler with Scrapy-redis
Yu Zhiwei, He Yueshun
(School of Information Engineering, East China University of Technology, Nanchang, Jiangxi 330013, China)
Abstract: There are a large number of illegal trading websites such as drugs, arms, and currencies in the dark web, which cause serious harm to the Internet environment. In order to detect and monitor the dark web, this paper proposes a dark web detection crawling method using distributed Scrapy. The socks5 protocol used by the dark web is converted into the http protocol supported by the crawler, and then the dark website points are detected and crawled by using the Scrapy crawler framework of Python. This method finds tens of thousands of dark website point information, including website title, source code, website type, and so on. The combination of the dark web proxy environment and the Python crawler allows the program to detect and crawl the dark website, and to detect and monitor the dark web environment.
Key words: dark web; proxy environment; Scrapy crawler framework; website
0 引言
針對互聯網信息泄露問題,人們開始研究并使用匿名網絡通信技術,而暗網就是隨之發展起來的匿名技術之一。不同于絕大部分明網,暗網的站點都不能被尋常訪問,也沒有被baidu、google等搜索引擎收錄,要想使用暗網匿名技術,就需要使用特定的軟件,跳過幾個中間節點,來達到匿名和防止監測的效果。由于暗網良好的匿名性,被不法分子利用從事地下黑暗交易,如人口販賣,毒品,情色,軍火等[1],大大危害了社會安全。
暗網匿名技術最早是在上世紀90年代被提出,由于其良好的匿名保護效果,不斷被研究機構和互聯網公司研究和完善,而數字貨幣-比特幣的出現,對暗網上的交易提供了更隱藏的服務機制。現如今,暗網各個站點絕大部分都支持使用比特幣來進行各種買賣/交易,買賣雙方只知道對方的暗網id,對其他信息一點都不了解。隨著近些年互聯網和自媒體的發展,暗網逐漸出現在大眾人們的視野中,影視劇中對使用暗網販賣人口等犯罪行為就有過大量的揭露。許多人出于好奇在網絡中尋找進入暗網的方法。所以如何對暗網信息進行探測和爬取監控就顯得非常重要。
1 暗網研究現狀
發展至今,暗網中隱藏服務的站點和資源在數量和質量上已經高于明網,對暗網的探測及研究已經意義重大。但是由于暗網本身的特性:多中間節點跳躍的隱蔽性;頻繁更換站點導致的探測不穩定性;沒有被百度、谷歌等搜索引擎收錄致站點難發現性等問題,導致暗網在橫向的數量和縱向的深度都難以探測。國內外許多專家和機構都對暗網做過相關研究。
暗網的相關研究主要分為兩個方面:一個是基于暗網匿名通信技術本身,通過不斷優化匿名通信技術,提升暗網的匿名性、效率性和穩定性等,使得暗網能夠有更好的發展;另一個研究方向則是基于暗網的技術原理,尋找暗網空間資源探測的方法和技術[2]。
就暗網空間資源探測的研究方面,上海交通大學的楊溢[3]等人設計出了Tor域名地址采集系統,優化了暗網的訪問效率,從明網和暗網采集站點域名;郭晗[4]等人針對Freenet的暗網資源探測進行了研究,freenet是一種分布式的匿名信息存儲和檢索系統,發展時間比tor洋蔥路由還早;湯艷君[5]等人通過分析暗網通訊的技術原理,利用selenium對暗網進行爬取,探測后的暗網信息能夠幫助公安部門監控和分析暗網中的有害內容,加大網絡監控力度。
[2] Nunes E,Diab A,Gunn A,et al.Darknet and DeepnetMining for Proactive Cybersecurity Thread Intelligence[C].IEEE Conference on Intelligence and Security Informatics,2017:7-12
[3] 楊溢,郭晗,王軼駿,薛質.基于Tor的暗網空間資源探測[J].通信技術,2017.50(10):2304-2309
[4] 郭晗,王軼駿,薛質.基于Freenet的暗網空間資源探測[J].通信技術,2017.50(9):2017-2023
[5] 湯艷君,安俊霖.基于Tor的暗網數據爬蟲設計與實現[J].信息安全研究,2019.5(9):798-804
[6] 李亞.暗網數據源分類算法的研究和實現[D].成都理工大學,2013.
[7] Biryukov A,Pustogarov I,Weinmann R P.Trawling for TorHidden Servics:Detection,Measurement,Deanonymization[C].Security and Privacy,2013:80-94
[8] Guitton C.A review of the available content on Tor hiddenservices:The case against further development[J].Computers in Human Behavior,2013.29(6):2805-2815
[9] 趙志云,張旭,羅錚.“暗網”應用情況及監管方法研究[J].知識管理論壇,2016.2.
[10] 林海倫,熊錦華,王博等.基于領域知識抽樣的深網資源采集方法[J].中文信息學報,2016.2:175-181
[11] Li K, Liu P, Tan Q, et al. Out-of-band discovery andevaluation for tor hidden services[J]. SAC,2016:2057-2062