◆馬云鶯
(福州大學至誠學院 福建 350001)
基于主機行為分析的CC攻擊識別技術
◆馬云鶯
(福州大學至誠學院 福建 350001)
CC挑戰黑洞(ChallengeCollapsar)是一種通過代理或僵尸主機發起的面向web服務器的DDoS分布式拒絕攻擊。攻擊者使用相對少量的并發請求,實現耗盡服務器資源的目的。本文通過分析互聯網用戶對web服務器的瀏覽行為和CC攻擊者的攻擊行為在服務器訪問行為上的差異,建立URL Hash命中表并且計算URL的離散度,快速區分攻擊流量和正常用戶流量。實驗結果表明該方法快速有效地辨別攻擊主機。
CC攻擊;DDoS攻擊;URL
DDoS分布式拒絕攻擊一直是互聯網上的重要攻擊方式。隨著網絡防御技術的發展,在網絡層,通過進行的各種洪泛攻擊(如TCP SYN Flood、UDP Flood)都能夠被防火墻較輕易地進行過濾。而基于應用層的DDoS攻擊手段則更加隱蔽,其行為更像一個正常用戶,過濾難度大,因此也逐漸成為黑客攻擊的主要手段。CC攻擊是針對web服務器進行的最常見的應用DDoS攻擊方式。
CC攻擊是針對網站頁面進行的攻擊。當用戶訪問靜態頁面的時候,速度通常很快,因為靜態網頁訪問不占用系統較多資源。但是如果用戶瀏覽一些規模較大的論壇,或者進行關鍵字搜索時,就會發現打開頁面的速度明顯偏慢。當高峰期時,訪問的用戶較多,這種延遲更為明顯。原因就在于,這類動態網頁通常需要查詢數據庫,當數據庫的數據較多時,查詢則需要占用系統大量的資源。
CC攻擊就是利用了這個特點,通過控制一定數量的代理和僵尸主機,不停地訪問那些需要大量查詢操作的頁面(例如asp/php/jsp/cgi)。該攻擊使用最少量的代價,使服務器的資源被耗盡,無法響應正常的用戶請求。相比其他DDoS攻擊,這種攻擊不需要較大流量,攻擊門檻低。
由于防火墻能夠檢測主機的并發 TCP連接數量,超過一定數量和頻率就會被認定為攻擊。因此CC攻擊者通過將攻擊流量分散到代理和僵尸主機上,使攻擊不至于被防火墻檢測到。而從防火墻的角度上觀察,CC攻擊者使用的是真實的IP地址,能夠完整地進行 TCP連接,并且發出合法的網頁查詢,而且其并發連接數量并不十分突出。其行為與真實用戶的行為十分類似,因而識別難度較大。
目前一般防御CC攻擊的方法有限制代理訪問、優化服務器設計[1]、分析并發連接[2]等等。但是這些監控手段都過于粗糙,容易導致誤判。而且即使發現攻擊,也很難將攻擊流從正常用戶中精確地剝離出去。
當用戶訪問某個網頁時,瀏覽器和web服務器首先通過三次握手建立TCP連接;瀏覽器使用POST或者GET方法向服務器請求獲取頁面,服務器根據該請求中帶有的URL請求執行相應的操作,并且將頁面呈現內容返回給用戶瀏覽器。
CC攻擊過程與此類似。攻擊軟件和web服務器建立TCP連接,使用GET或者POST方法向服務器發起請求。服務器解析這個請求的URL,并且執行操作(這里的操作通常是查詢數據庫等非常消耗資源的動作),并且將頁面返回給攻擊程序。攻擊軟件不會同時只發起一次查詢,通常一次會發起大量的并發連接,同時進行并發查詢。
從以上的分析可知,如果我們僅僅從連接的角度去分析主機行為,很難區分攻擊行為和普通用戶訪問行為。因此,我們可以從用戶網站的瀏覽行為和攻擊行為進行一個對比,從而找出其中的差異。
2.1 正常用戶的訪問行為
用戶訪問一個網站,必定有一個合理的行為模式。例如需要從網站上獲取知識,執行業務。因此一般有一個"打開頁面--瀏覽(停留)--執行新頁面請求"的過程。一個用戶打開一個網頁,通常會等待網頁傳送完畢,而不會在短時間內反復大量請求同一個網頁。
如果將觀察時間稍微拉長,就會發現一個用戶訪問同一個網站,幾乎不太可能至終只訪問一個網頁,而是請求不同的URL,既包括靜態頁面也包括動態頁面。
另外一個很容易被忽視的重要特點是,由于當前網站內容的多樣化,打開一個網頁時,絕大部分情況下會產生不止一個URL連接。
下面以用戶打開新浪網新聞頁面為例:
一次打開操作news.sina.com.cn 觸發了客戶端啟動總共542個URL請求,分散在29臺不同的服務器上。部分URL信息如下:
news.sina.com.cn/
news.sina.com.cn/js/792/2012-08-09/41/headnews.js
news.sina.com.cn/css/87/20140926/comment.3.css
news.sina.com.cn/css/87/content2014/common.min.css
news.sina.com.cn/css/87/content2014/style_news.css
i.sso.sina.com.cn/css/outlogin/v1/outlogin_skin_finance.css
i.sso.sina.com.cn/js/ssologin.js
......
2.2 CC攻擊者的行為
而CC攻擊,為了達到最大的攻擊效果,攻擊者不會浪費寶貴的資源,去訪問無關緊要的、并不耗費服務器資源的頁面,而是將所有的連接集中在耗費服務器資源的查詢上。
使用CC攻擊軟件,捕獲到的URL訪問請求則是這樣的:
針對服務器 58.63.236.248,請求 URL 只有一個:www.sina.com.cn/mid/search.shtml
2.3 行為對比
因此,根據大量采樣和分析,我們可以了解到一般用戶和CC攻擊者在訪問網站時分別具有如下特征:

表1 正常用戶和CC攻擊者的行為特征對比
從上文分析,我們可以通過分析用戶在一段時間內,是集中還是分散訪問網站的頁面,即可了解其行為是否合理。本文采用如下分析方法:
(1)提取用戶訪問服務器的URL,計算其Hash值。通過對Hash值取模的方式,將其映射到0~7的數字范圍內。
(2)統計這些0~7范圍內數字的命中率。
(3)根據以上命中率,通過標準差計算URL的離散度。
三是內容監管與評價領域技術創新。隨著內容生產企業數量增長,內容監管和績效評價成為管理部門面臨的課題。重報大數據研究院聯合技術公司,構建重慶媒體大數據平臺,對內容生產、流向和應用等進行可視化呈現,目前基本框架和數據交換模式已經研制完成,可望在2018年投入應用,實現全域數字內容導向、成效可視化。
如用戶一次訪問服務器,瀏覽器發出了如下7個URL請求,得到了Hash值,并且映射到0~7的值域上(將Hash mod 8得到),如下表所示:

表2 URL到0~7的值域映射舉例
統計URL轉Hash值后映射0~7值域的命中統計,如下:

圖1 正常用戶URL Hash命中統計
采用標準差公式計算以上序列的標準差:
得到上述數據的標準差:S=0.83
對比捕獲的CC攻擊者針對服務器(58.63.236.248)1分鐘內數據:
URL:www.sina.com.cn/mid/search.shtml
統計0~7值域的命中率,如下:

圖2 CC攻擊者URL Hash命中統計
計算其標準差:S=33.0,是上一組對比數據(正常用戶)大約40倍。
在本文中采用URL Hash值命中數標準差來表達該用戶訪問URL的離散度。
在此例中,攻擊者每分鐘發出100個URL請求,每秒不超過2個,顯然此攻擊者的攻擊速度并不快。但是從以上數據可以看出,攻擊者的URL離散度要遠高于正常用戶訪問的值。
4.1 數據源
通過網站防火墻出口流量進行鏡像,將流量旁路到服務器進行分析采集得到數據。
4.2 實驗環境
實驗環境為win7操作系統、2G內存、測試程序。
4.3 實驗方法
跟蹤所有往來報文建立主機表。跟蹤所有主機的完整會話,以1分鐘為單位,觀察所有主機對服務器的訪問。在每一個主機對象中記錄1分鐘內所有訪問的URL以及其離散度。同時與CC攻擊者數據進行對比。
4.4 實驗結果
以下是針對1分鐘內,200組正常用戶訪問網站的URL離散度對比。從下圖可以看出,離散度不超過4,絕大部分集中在0~1的區間內。而使用攻擊軟件,發出每秒100個連接,則離散度達到33,形成明顯差異。

圖3 200組正常用戶1分鐘范圍URL離散度
因此,通過此實驗結果可以看出,通過計算1分鐘URL離散度,可以快速且明顯地區分出哪些主機對網站實施了CC攻擊。
本文分析了CC攻擊和一般用戶訪問網站的行為差異,通過對短時間用戶訪問網站 URL的離散度進行計算,能夠識別 CC攻擊者。實驗結果表明,該算法能夠非常明顯地將正常用戶和攻擊者區分開來,具有良好的識別效果。
[1]陳仲華, 張連營, 王孝明.CC攻擊檢測方法研究[J].電信科學, 2009.
[2]Shuo L I, Zhang Q. Protection System of CC Attack based on Honeypot[J].Information Security & Communications Privacy, 2015.
[3]池水明, 周蘇杭.DDoS攻擊防御技術研究[J].信息網絡安全, 2012.
[4]Chuntao X, Xuehui D, Lifeng C, et al. An Algorithm of Detecting and Defending CC Attack in Real Time[C]// International Conference on Industrial Control and Electronics Engineering. IEEE, 2012.
[5]ZHANG Xuan. Research of DDoS attack detect and defend technology on Application-Lay, Beijing: Beijing University of Posts and Telecommunications, 2009.