999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web日志的Webshell檢測方法研究

2016-11-18 07:55:49石劉洋方
信息安全研究 2016年1期
關鍵詞:頁面特征文本

石劉洋方 勇

(四川大學電子信息學院 成都 610064)(470862999@qq.com)

?

基于Web日志的Webshell檢測方法研究

石劉洋方 勇

(四川大學電子信息學院 成都 610064)(470862999@qq.com)

提出了一種基于Web日志的輕量級的Webshell檢測方法,通過對服務器日志文本文件進行分析,從文本特征、統計特征和頁面關聯特征3個角度檢測Webshell,并通過實驗對方法的可行性進行了驗證.文本特征方面主要是對文件訪問路徑和提交的參數進行特征匹配,實驗證明正常網頁文件和Webshell文件在文件訪問路徑特征和提交的參數特征上有明顯區別.在統計特征方面,首先是對比網頁文件的訪問頻率,實驗證明通過統計網頁文件訪問頻率,結合網頁文件目錄深度、起始時間段和單位時間獨立訪客數,可準確識別異常文件.頁面關聯特征是通過計算網頁文件的出入度找出孤立文件,實驗表明,Webshell通常為孤立文件,和正常網頁文件區分明顯.

網站后門;Webshell;Web日志;Web安全;入侵檢測

奇虎360公司安全播報平臺2015年初發布的《2014年中國網站安全報告》*2014年中國網站安全報告(http://bobao.360.cn/news/detail/1118.html, 2015.1.13 )顯示,在 199.6 萬個檢測網站中,存在后門(Webshell)的網站占比高達 41.2%,中國網站安全形勢嚴峻.Webshell大多由網頁腳本語言編寫,具有動態交互的特性[1],常被入侵者用作對網站服務器操作的后門程序,網站被植入Webshell說明網站已被入侵[2].傳統的Webshell檢測手段通常采取在服務器部署WAF等防護設備或者運行后門查殺工具[3],對網站流量和本地文件進行檢查代價較大,且對網站的訪問性能有影響.而Web日志記錄了網站被訪問的情況,在Web安全的應用中,Web日志常被用來進行攻擊事件的回溯和取證[4].針對上述情況,本文提出了一種基于Web日志的輕量級的Webshell檢測方法,通過對服務器日志文本文件進行分析,從文本特征、統計特征和頁面關聯特征3個角度檢測Webshell.

1 Web日志與Webshell的關聯

Web日志是 Web 服務器(如IIS,Apache)記錄用戶訪問行為產生的文件,標準的 Web 日志是純文本格式,每行一條記錄,對應客戶端瀏覽器對服務器資源的一次訪問,典型的日志包括來源地址、訪問日期、訪問時間、訪問 URL 等豐富的信息[5],對日志數據進行分析不僅可以檢測到可疑的攻擊行為,還可以提取特定時間段特定 IP 對應用的訪問行為.

Web日志的格式雖略有不同,但記錄的內容基本一致.這里以IIS服務器下W3C格式的日志為例,如圖1所示:

圖1 日志示例

本文實驗數據來自一臺曾被入侵的IIS服務器脫敏后的日志文件(W3C格式),本文比較關注的幾個字段說明如下[5].

date:發出請求日期.

time:發出請求時間.

s-ip:服務器IP地址.

cs-method:請求中使用的HTTP方法.

cs-uri-stem:URI資源,統一資源標識符(URI),即訪問的頁面文件.

cs-uri-query:URI查詢,即訪問網址的附帶參數.

s-port:為服務配置的服務器端口號.

cs-username:用戶名,訪問服務器的已經過驗證用戶的名稱.

c-ip:客戶端IP地址.

cs(User-Agent):用戶代理,客戶端瀏覽器、操作系統等情況.

sc-status:協議狀態,記錄HTTP狀態代碼,如200表示成功,403表示沒有權限,404表示找不到該頁面.

通過Web日志我們可以知道,在某一個時刻某個訪客訪問了服務器的某個文件[6].經過分析可以從文本模式特征、訪問頻率特征、是否為孤立頁面等角度檢測Webshell.

2 檢測方法設計

本文對基于Web日志的Webshell檢測方法的設計思路如下:在對日志文件進行預處理后,分別對日志記錄進行文本特征匹配、統計特征計算與文件關聯性分析,最后對檢測結果匯總,列出疑似的Webshell文件.

檢測流程如圖2所示.

圖2 檢測流程示意圖

2.1 日志預處理

基于檢測Webshell的目的,需要對原始的Web日志記錄進行提取、分解、過濾、刪除和合并,再轉化成適合進行程序處理的格式.

日志預處理的步驟如下.

1) 數據清理

首先,需要刪除訪問失敗的記錄,比如sc-status字段值為404,刪除不相關的日志字段,包括空字段以及sc-substatus和sc-win32-status等.

其次,由于Webshell通常為腳本頁面,因此可刪除靜態的網站文件訪問記錄,如后綴為html,jpg,ico,css,js的文件[7].

但需注意,當網站存在文件包含漏洞或服務器解析漏洞時,需要注意異常文件名或URL,如“bg.asp:.jpg”和“databackup1.aspimgespage_1.html”,此類文件名或URL也能具備Webshell功能,因此需對此類特征記錄進行保留.

2) 訪客識別

訪客識別的目的是從每條日志記錄里把訪客和被訪問頁面關聯起來[7],通常情況下可以通過cs-username,c-ip和cs(User-Agent)標識一個訪客,網站未設置登錄功能時,可以采用IP和User-Agent來標識一個訪客.初步分析,可以認為不同的IP地址代表不同的訪客,當同一IP下可能存在多個訪客,可以結合User-Agent進行判斷,User-Agent通常會因為操作系統版本和瀏覽器版本而有所變化.如果IP地址和User-Agent都一樣,也可以通過分析頁面訪問的規律來分析是否存在多個訪客.在訪客識別中可以排除爬蟲程序,如cs(User-Agent)字段為“Baiduspider”,可以認為是百度爬蟲.

3) 會話識別

會話(session)識別的目的是為了分析訪客在瀏覽站點期間的一系列活動[7],比如訪客首先訪問了什么頁面,其次訪問了什么頁面,在某個頁面提交了哪些參數、停留時間等.通過分析用戶的訪問序列,可以判斷頁面之間的關聯性[8].

2.2 文本特征匹配

文本特征匹配的思路是,通過本地搭建服務器環境,對多種Webshell頁面進行訪問測試和記錄,提取日志信息,建立文本特征庫.

在所有文本信息中,主要提取Webshell在Web日志訪問中的URI資源(對應字段cs-uri-stem)特征和URI查詢(對應字段cs-uri-query)特征[9].特征示例如表1所示:

表1 模式匹配特征示例

為了提高匹配覆蓋率,通常將一類靜態特征歸納成正則表達式的方式進行匹配,例如正則表達式“[0-9]{1,5}。asp”表示匹配文件名為1~5位阿拉伯數字的后綴為asp的文件[10].

除了基本的特征庫的檢測,為提高對未知Webshell的檢測能力,可采用支持向量機(support vector machine, SVM)機器學習算法[11],通過對正常網站文件的訪問特征集和Webshell文件訪問特征集進行訓練,來提高從Web日志中檢測Webshell的能力[12].

對于Web日志中特征字段的分類學習,本質上是一種文本分類,文本分類是一個有指導的學習過程,它根據一個已經被標注的訓練文本集合,找到文本屬性(特征)和文本類別之前的關系模型(分類器),然后利用這種關系模型對新的文本進行類判定[13].

對于本文所要解決的問題,SVM算法可描述為將輸入空間中的樣本通過一種非線性函數關系映射到一個高維度特征空間中,使樣本在該高維特征空間中線性可分,并找到樣本在該維特征空間中的最優線性分類超平面[14].如式(1)[14]:

(1)

其中,k(χ,χi)表示核函數.

在SVM的多種核函數中,本文采用性能較優的徑向基核函數作為SVM核函數,如式(2)[14]:

(2)

因此,基于SVM算法的分類器見式(3)[14]:

(3)

其中,σ表示核函數密度,ai表示拉格朗日乘子.

2.3 基于統計特征的異常文件檢測

在統計特征中,主要考慮網頁文件的訪問頻率,訪問頻率指的是一個網頁文件在單位時間內的訪問次數,通常正常的網站頁面由于向訪客提供服務因此受眾較廣,所以訪問頻率相對較高.而Webshell是由攻擊者植入,通常只有攻擊者清楚訪問路徑,訪問頻率相對較低[15].

網站開始運營時就會存在一定數量的正常頁面,而Webshell通常在一段時間后才會出現,因此統計和計算頁面訪問頻率時,針對某一頁面,要采用該頁面首次被訪問到最后一次被訪問的時間段作為統計區間,然后計算單位時間內的訪問次數,得到訪問頻率.需要說明的是,單憑訪問頻率特征只能找出異常文件,無法確定一定是Webshell,一些正常頁面的訪問頻率也會較低,比如后臺管理頁面或者網站建設初期技術人員留下的測試頁面.

這里用f(A) 表示計算后的網站頁面A的訪問頻率,Tfirst(A)表示網站頁面A首次被訪問的時間,Tend(A) 表示網站頁面A最后一次被訪問的時間,COUNTFE(A)表示網站頁面A在時間Tfirst(A)到Tend(A)期間的被訪問次數.

因此,網站頁面A的訪問頻率計算如式(4):

(4)

時間單位可根據需要選擇小時、天、星期、月等.

2.4 基于文件出入度的文件關聯性檢測

文件關聯性主要是指網頁文件之間是否有交互,即是否通過超鏈接關聯起來引導用戶訪問.而孤立文件通常是指沒有與其他頁面存在交互的頁面,一個網頁文件的入度衡量的是訪客是否從其他頁面跳轉到該頁面,同理,一個網頁文件的出度衡量的是訪客是否會從該頁面跳轉到其他頁面.正常網站頁面會互相鏈接,因此會有一定的出入度,而Webshell通常與其他網站頁面沒有超鏈接,通常出入度為0[16].

需要注意的是,什么是孤立,與其他頁面的交互度為多少算孤立,其都是相對的.而且,有的Webshell也會有一定的出入度,比如當Webshell采用超鏈接列出網站目錄中的文件時就會產生與其他頁面的交互.當需要多個腳本協同作用的Webshell 也會產生交互.同樣,單憑文件出入度特征只能找出異常文件,無法確定一定是Webshell,一些正常頁面的出入度也會較低,比如特意隱藏的獨立后臺管理頁面或者網站建設初期技術人員留下的獨立測試頁面.

網頁文件相互鏈接示意圖如圖3所示:

圖3 網頁文件鏈接示意

如圖3所示,本文對上述網頁文件出入度的統計如下,

index.asp:出度為2,入度為1;

Article_Show.asp:出度為1,入度為1;

Photo_View.asp:出度為0,入度為1;

test.asp:出度為0,入度為0 ,為孤立文件.

3 檢測方法可行性驗證

本節通過對比正常網頁文件與Webshell在文本特征、統計特征和文件關聯性特征上的區別,對第2節提出的檢測方法進行可行性驗證.本文實驗數據來自一臺曾被入侵的IIS服務器脫敏后的日志文件與Web目錄文件.

首先采用第三方的基于本地文件特征的Webshell查殺工具“D盾Webshell查殺工具”,對測試的Web目錄文件進行檢測,檢測結果如圖4所示.

圖4 D盾查殺結果示例截圖

在“D盾Webshell查殺工具”檢測結果的基礎上,結合人工判斷,最終選取10個確定的Webshell文件作為Webshell文件組.然后根據對網站目錄的分析,基于涵蓋不同目錄深度和頁面功能的考慮,人工選取10個正常網頁文件作為正常文件組.正常文件組和Webshell文件組選取情況如表2所示:

表2 實驗文件組的選取

3.1 文本特征對比

分別統計正常文件組和Webshell文件組的URI資源(對應字段cs-uri-stem)特征和URI查詢(對應字段cs-uri-query)特征,看是否有較為明顯的區別.如表3所示:

由實驗數據可知,正常網頁文件在URI資源特征和URI查詢特征上,通常采取有意義的文件名和參數,文件路徑和提交方式通常遵循編碼規范;而Webshell文件的URI資源特征和URI查詢特征呈現簡短、隨意、雜亂的特征,且常常出現畸形字符串.因此可判斷Webshell文件和正常網頁文件在日志中的訪問特征有較為明顯的區別,采用模式匹配和機器學習的方式進行分類檢測思路可行,且便于實施.

3.2 統計特征計算和對比

本文分別統計正常文件組和Webshell文件組的訪問頻率,看是否有較為明顯的區別.如表4所示:

表4 訪問頻率計算

通過對實驗數據進行分析可得出如下結論.

1) 在目錄深度一致、起始時間段較長的情況下(以大于30 d為判斷依據),正常網頁文件的訪問頻率明顯高于Webshell文件.

3) 單從Webshell文件的訪問頻率來看,有的數據呈現訪問頻率較高的特征,仔細分析日志發現,該類Webshell往往是被攻擊者當作一次性后門使用,而且訪客單一,且有時攻擊者會對自己上傳的Webshell文件進行自動化地利用和掃描,導致較短時間內出現大量訪問行為,呈現高頻訪問特征,如bg.asp;.jpg.經過分析和思考,為了準確判斷此類Webshell,需要再結合文件的起始時間段和單位時間的獨立訪客數進行綜合判斷,當某個網頁文件的呈現起始時間段較短、單位時間獨立訪客數較少的特征時,可首先判定為異常文件,再結合訪問頻率進行分析.這樣便能有效解決誤報問題.

通過測試數據可以看出,在基于Web日志進行Webshell檢測的過程中,單憑網頁文件訪問頻率特征,誤報率較高.需要結合網頁文件目錄深度、起始時間段和單位時間獨立訪客數等特征進行綜合判斷.

綜上所述,基于文件訪問頻率,結合網頁文件目錄深度、起始時間段和單位時間獨立訪客數等特征的Webshell檢測方法可行.

3.3 頁面關聯性分析對比

本文分別統計正常文件組和Webshell文件組文件是否能從Web日志中發現多次出現的訪問序列,訪問序列反映當前頁面與網站其他頁面的關聯性,若無,則判斷為孤立文件.如表5所示:

表5 孤立文件判斷

需要說明的是,從Web日志中發現出現過Shell.asp->9.asp,lpt4.000.asp->999.asp,9.asp.asp->.998.asp的訪問序列,但均只出現過一次,經分析,均為攻擊者先上傳了一個Webshell然后再利用該Webshell上傳后續后門文件形成的訪問序列

實驗數據顯示,正常網頁文件通常存在互相關聯,而Webshell文件通常不存在文件之間的關聯,關聯性區分明顯.

通過對Web日志進行分析發現,Web日志中保留了曾經存在過但是之后被刪除的Webshell的訪問記錄,使得通過Web日志檢測Webshell文件更加全面,彌補了本地Webshell文件檢測無法追溯歷史攻擊的不足.

綜上所述,通過從Web日志中分析頁面關聯性來檢測Webshell文件的方法可行.

4 結 語

本文首先闡述了Web日志和Webshell的關聯,然后提出了一種基于Web日志檢測Webshell的輕量級檢測方法,對日志記錄的字段數據進行信息提取與分析處理,從文本特征、統計特征和頁面關聯特征3個角度對正常網頁文件和Webshell文件進行區分和判斷,在初期方法設計的基礎上,通過多次實驗分析,驗證了本文設計的基于Web日志的Webshell檢測方法的可行性和有效性.

[1]Hou Y T, Chang Y, Chen T, et al. Malicious Web content detection by machine learning[J]. Expert Systems with Applications, 2010, 37(1): 55-60

[2]丁輝. 網站被黑中毒WebShell木馬的解決方案[J]. 計算機與網絡, 2014, 40(3): 68-68

[3]杜海章, 方勇. PHP webshell實時動態檢測[J]. 網絡安全技術與應用, 2014, 12(12): 120-121

[4]李萬新. Web日志數據挖掘在服務器安全方面的應用[J]. 邏輯學研究, 2007, 27(5): 116-118

[5]范春榮, 張戰勇, 肖新華. 充分利用Web日志分析檢測黑客入侵[J]. 石家莊鐵路職業技術學院學報, 2009, 1(1): 84-88

[6]齊建軍. 竊密型 WebShell 檢測方法[J]. 計算機與網絡, 2015, 41(13): 38-39

[7]彭薇. 網站Web日志數據預處理模型的建立[J]. 企業科技與發展: 下半月, 2010 (9): 28-31

[8]胡宏智, 王華. Web日志挖掘技術的應用研究[J]. 網絡安全技術與應用, 2011 (5): 77-78

[9]段娟. 基于Web應用安全日志審計系統的研究與設計[D]. 北京: 北京郵電大學, 2015

[10]Xu Mingkun, Chen Xi, Hu Yan. Design of software to search ASP Web shell[J]. Procedia Engineering, 2012, 29: 123-127

[11]劉曉亮, 丁世飛, 朱紅,等. SVM用于文本分類的適用性[J]. 計算機工程與科學, 2010, 32(6): 106-108

[12]孟正, 梅瑞, 張濤,等. Linux下基于SVM分類器的WebShell檢測方法研究[J]. 信息網絡安全, 2014 (5): 5-9

[13]熊志斌, 劉冬. 樸素貝葉斯在文本分類中的應用[J]. 軟件導刊, 2013, 20(2): 49-51

[14]張曉明, 付強. SVM算法在Web服務蜜罐日志分析中的應用[J]. 沈陽大學學報: 自然科學版, 2013, 25(1): 35-38

[15]劉志宏, 孫長國. 基于Web訪問日志的異常行為檢測[J]. 計算機與網絡, 2015, 41(13): 62-64

[16]陳寶國, 鄭麗英. 基于Web日志文件的孤立點檢測算法[J]. 計算機與數字工程, 2010, 38(5): 35-37

石劉洋碩士研究生,主要研究方向為Web安全.

470862999@qq.com

方 勇

博士,教授,主要研究方向為信息安全、網絡信息對抗.

yfang@scu.edu.cn

附錄A 原始實驗數據.

Webshell Detection Method Research Based on Web Log

Shi Liuyang and Fang Yong

(CollegeofElectronicInformation,SichuanUniversity,Chengdu610064)

In this paper, a new method of Webshell detection based on Web log is proposed, which is based on the analysis of the server log text file, and the Webshell is detected from three angles: text feature, statistical feature and correlation feature. In the text feature, it is mainly to match the file access path and the parameters that are submitted. The experimental results show that the normal Web documents and Webshell files have obvious differences in the characteristics of the file access path and the parameters. In the statistical characteristics, the first is the comparison of the frequency of access to the file, and the experiment proved that the frequency of the Web page file access, combined with the depth of the Web page file directory, the starting time and the number of individual visitors, can accurately identify abnormal file. Page correlation is found by calculating the access of Web documents, the experiment shows that the Webshell is usually a solitary file, and the normal Web documents are clearly distinguished.

Website backdoor; Webshell; Web log; Web security; intrusion detection

表A1 訪問頻率計算比

續表A1

表A2 孤立文件判斷

2015-12-25

TP393

猜你喜歡
頁面特征文本
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产高清精品在线91| 91麻豆精品国产高清在线| 九色91在线视频| 久久这里只有精品国产99| 九九热在线视频| 在线国产你懂的| 98超碰在线观看| 在线视频亚洲色图| 亚洲视频影院| 国产精品女人呻吟在线观看| 欧美日韩中文字幕在线| 四虎国产精品永久一区| 青青青视频91在线 | 一区二区自拍| 免费看a级毛片| 思思热在线视频精品| 久久香蕉国产线看精品| 久久99热66这里只有精品一| 国产成人精品一区二区三区| 免费人成黄页在线观看国产| 一本色道久久88| 国产成人资源| 波多野结衣久久精品| 国产97公开成人免费视频| 伊人欧美在线| 日本黄色不卡视频| 日本午夜精品一本在线观看 | 久久久久青草线综合超碰| 国产欧美在线| 99在线观看免费视频| 伊人AV天堂| 亚洲欧洲日产国码无码av喷潮| 国产精品无码制服丝袜| 亚洲AⅤ波多系列中文字幕| 人妻丰满熟妇啪啪| 中文字幕在线一区二区在线| 日本高清有码人妻| 国产91视频观看| 国产专区综合另类日韩一区| 中日韩欧亚无码视频| 干中文字幕| 午夜a视频| 99精品欧美一区| 亚洲h视频在线| 91午夜福利在线观看| 五月天久久综合| 国产精品亚洲日韩AⅤ在线观看| 91精品专区国产盗摄| 国产免费人成视频网| 国产 在线视频无码| 精品国产91爱| 在线毛片免费| 日韩欧美中文字幕在线精品| 日韩毛片免费视频| 久久精品丝袜| 欧美亚洲日韩中文| 日韩福利在线视频| 久久精品嫩草研究院| 国产成人一区免费观看| 日韩色图区| 一级看片免费视频| 中文毛片无遮挡播放免费| 国产黄色爱视频| 国产一级α片| 婷婷六月在线| 国产一区在线视频观看| 亚洲人成网站色7777| 国产成a人片在线播放| 91免费国产在线观看尤物| 久久女人网| 国产欧美日韩在线在线不卡视频| 四虎永久免费地址在线网站| 免费xxxxx在线观看网站| 久久久久久久蜜桃| 欧美日韩另类在线| 亚洲Av综合日韩精品久久久| 伊人久久精品无码麻豆精品| 人妻丰满熟妇AV无码区| 中国精品久久| 国产人免费人成免费视频| 亚洲成人精品在线| 国产一区二区三区免费|