◆尚智婕 李雨泰 董希杰
?
網(wǎng)絡流量元數(shù)據(jù)下的安全大數(shù)據(jù)探索
◆尚智婕 李雨泰 董希杰
(國家電網(wǎng)公司信息通信分公司 北京 100761)
大數(shù)據(jù)是當前社會發(fā)展的高新技術,它在網(wǎng)絡安全領域的應用價值也在不斷凸顯。本文將從網(wǎng)絡信息安全保護的角度出發(fā),科學分析網(wǎng)絡流量元數(shù)據(jù)背景下網(wǎng)絡流量分流平臺的構(gòu)建過程與元數(shù)據(jù)的處理過程。同時重點探討安全大數(shù)據(jù)分析平臺中大數(shù)據(jù)挖掘與關聯(lián)的技術應用。
大數(shù)據(jù);元數(shù)據(jù);網(wǎng)絡流量分流平臺;大數(shù)據(jù);安全;挖掘技術
2013年,美國“棱鏡事件”轟動世界,美國政府的多個秘密情報監(jiān)視項目全面曝光了英美各國通過大量網(wǎng)絡通信元數(shù)據(jù)實施用戶跟蹤與情報搜集的隱藏內(nèi)幕。雖然美國政府聲稱這一行為主要是為了國家網(wǎng)絡安全及反恐現(xiàn)實的需要,但它也讓全世界公眾深刻了解到在大數(shù)據(jù)技術背景下網(wǎng)絡流量元數(shù)據(jù)的密保脆弱性。從此以后,各個國家都開始進一步強化自身的國家信息安全防護體系。
1.1網(wǎng)絡流量分流平臺的建設過程
大數(shù)據(jù)是當前社會發(fā)展的前衛(wèi)技術,但是令人困惑的卻是大數(shù)據(jù)的主要來源,過小的大數(shù)據(jù)集合無法反應真實的網(wǎng)絡信息分析狀況,也無法通過信息數(shù)據(jù)驗證來獲取良好的反饋結(jié)果。以我國上海某高校為例,它的網(wǎng)絡信息平臺每天都要為數(shù)萬名師生提供專業(yè)IT服務內(nèi)容,學校中擁有信息安全需求的用戶單位也不計其數(shù),在這種背景下,基于網(wǎng)絡交換路由設備的Miroor、PBR、Multicast技術應用就成為關鍵。為此,應該為高校構(gòu)建基于高性能的網(wǎng)絡流量分流平臺,滿足校園中校園網(wǎng)的大規(guī)模高流量分析需求,主要來講,就是基于分布式部署策略來展開技術操作,從原有的10G規(guī)模線性擴容到100G以上流量,實現(xiàn)網(wǎng)絡流量的有效匯聚與分流過程,即對海量元數(shù)據(jù)的大數(shù)據(jù)體系形成,為校園內(nèi)部提供穩(wěn)定的網(wǎng)絡流量支撐,保持校園網(wǎng)技術穩(wěn)定發(fā)揮。
從專業(yè)角度來講,網(wǎng)絡流量分流平臺相對靈活,能夠?qū)崿F(xiàn)交換機端口級別的一對多、多對一、多對多網(wǎng)絡流量復制過程,滿足不同應用業(yè)務系統(tǒng)操作過程,例如對病毒入侵檢測系統(tǒng)、緩存加速系統(tǒng)、應用層安全審計系統(tǒng)等等的網(wǎng)絡流量源頭監(jiān)控。在網(wǎng)絡流量復制過程中,也基于ACL(Access Control List)訪問控制列表來實施五元組級別與簡單協(xié)議的流量過濾過程,最終降低網(wǎng)絡流量分流平臺的業(yè)務系統(tǒng)負載。如此一來,校園內(nèi)就可以實現(xiàn)多條10G高負載鏈路流量與多條1G低負載鏈路流量的有效轉(zhuǎn)換,實現(xiàn)了多路負載均衡,對提高網(wǎng)絡流量分流平臺的數(shù)據(jù)整體處理能力具有極大促進作用。另外,像交換機堆疊技術也能夠?qū)崿F(xiàn)上述技術操作,且同時迅速擴展斷口數(shù)量,為校園網(wǎng)中現(xiàn)有的10G鏈路與未來的100G鏈路提供更強信息處理能力[1]。
1.2元數(shù)據(jù)的處理技術分析
傳統(tǒng)主干網(wǎng)絡的安全監(jiān)測系統(tǒng)主要圍繞主干節(jié)點路由器來提供諸如NetFlow輸出信息,監(jiān)測系統(tǒng)會針對數(shù)據(jù)實施全時段分析與關聯(lián)歷史信息挖掘,并將網(wǎng)絡流量體系中所存在的異常連接篩選出來,根據(jù)數(shù)據(jù)信息統(tǒng)計結(jié)果來迅速發(fā)現(xiàn)存在于元數(shù)據(jù)中的安全問題,例如以DDoS類型為主的Flood攻擊等等。所以在元數(shù)據(jù)的存儲采集前應該特別針對特定斷口進行大范圍網(wǎng)絡掃描,并配合開放式遞歸DNS和NTP來查詢網(wǎng)絡流量分流平臺中可能存在的流量放大攻擊不良事件,配合flow信息來源進行及時預警。不過從技術嚴謹?shù)慕嵌葋碇v,僅僅依靠抽樣獲取flow信息的做法對網(wǎng)絡流量分流平臺的安全監(jiān)測還并不到位也不夠完整,需要進行進一步優(yōu)化調(diào)整。
為了滿足未來100G網(wǎng)絡流量目標,應該試試分布式網(wǎng)絡架構(gòu),構(gòu)建開源庫及開源軟件來實現(xiàn)高速網(wǎng)絡流量的元數(shù)據(jù)提取過程,并從中抽取預各類元數(shù)據(jù)來存儲到本地文件中。這里以HTTP類型元數(shù)據(jù)文件為例,如果從安全分析角度考量,應該為現(xiàn)實用戶構(gòu)建以下網(wǎng)絡流量元數(shù)據(jù)模型,例如POST類型,它的格式應該為:
時間|域名URL(去除域名)|發(fā)送類型|發(fā)送字節(jié)|Referer|用戶IP|用戶斷口|服務器IP|服務器斷口|User-Agent。
以校園網(wǎng)為例,它的具體計算模型示例應該如下:
時間|welcome.sjtu.edu.cn|/jdyx/member/login.php? action=checkandlogin|
由于校園網(wǎng)擁有數(shù)千個Web應用信息系統(tǒng),所以它應該采用基于不同院系、不同分支校區(qū)、不同實驗室和教室樓來實現(xiàn)分布式架構(gòu),為每一臺服務器都安裝Agent以記錄收集網(wǎng)站中的訪問信息日志。如此,可以考慮為校園網(wǎng)便捷出口單獨設立Web信息系統(tǒng)網(wǎng)絡流量分流功能,圍繞應用層展開流量分析,并還原主機上所有Web訪問日志,以達到統(tǒng)一校內(nèi)網(wǎng)站HTTP訪問日志形式元數(shù)據(jù)的目的。同時,它也能避免某些校園網(wǎng)系統(tǒng)數(shù)據(jù)被入侵后導致數(shù)據(jù)日志被誤刪除或直接丟失。而對于某些少數(shù)HTTPS類型加密網(wǎng)絡流量,如果他們擁有網(wǎng)絡流量分流認證證書,就可以通過網(wǎng)絡流量途徑來還原相應通訊內(nèi)容,或者通過主機日志系統(tǒng)來滿足安全審計分析需要,采集和存儲元數(shù)據(jù)。
當前高校校園網(wǎng)網(wǎng)絡流量元數(shù)據(jù)較多,如果以全部網(wǎng)絡流信息作為元數(shù)據(jù),它就應該包括五元組中的所有數(shù)據(jù),如此計算每天整個學校的網(wǎng)絡流量記錄都要超過5億條,每月流量可以達到百億量級,所以說這對校園元數(shù)據(jù)采集、存儲以及安全挖掘都會帶來較大壓力,以下給出基于網(wǎng)絡流量的基礎元數(shù)據(jù)格式,如表1[2]。
表1網(wǎng)絡流量的基本元數(shù)據(jù)格式范例表

為了迎合大數(shù)據(jù)技術時代的海量信息存儲與處理,應該考慮為校園、企業(yè)等建立基于網(wǎng)絡流量元數(shù)據(jù)背景下的安全大數(shù)據(jù)平臺,展開對大數(shù)據(jù)的挖掘與關聯(lián)技術分析,實現(xiàn)在前期主動調(diào)整網(wǎng)絡流量,選擇性清除許多對大數(shù)據(jù)安全分析毫無意義的冗余數(shù)據(jù)。
據(jù)目前來看,對某些組織結(jié)構(gòu)的區(qū)域性突發(fā)性重大安全漏洞,可以采用大數(shù)據(jù)分析來給出安全預警及安全評估范圍,像校園網(wǎng)也基于Java框架構(gòu)建了多個應用信息系統(tǒng),并為校園網(wǎng)中所涉及的數(shù)千個網(wǎng)站構(gòu)建Struts2開發(fā)框架,并基于HIVE查詢技術與HTTP訪問技術來對元數(shù)據(jù)中所存在的URL特殊字段(如.do、.action)配合Shell腳本分析。在這里,安全大數(shù)據(jù)平臺還運用到了Python腳本配合所對應的系統(tǒng)漏洞POC展開網(wǎng)站快速掃描,判定反饋結(jié)果中有多少會受到系統(tǒng)及外界影響,根據(jù)結(jié)果作出合理調(diào)整。當前擁有高持續(xù)性威脅的APT攻擊并不僅僅局限于HTTP協(xié)議,它還能通過SSL加密與其它隱藏隧道來展開通訊技術流程,從各個角度來威脅企業(yè)及高效資源數(shù)據(jù)庫,而就校園網(wǎng)方面來說,他們在針對這種不對稱的APT攻擊還能力有限,無法基于IP流與部分關鍵應用層協(xié)議進行針對性分析,對元數(shù)據(jù)的分析與存儲技術發(fā)揮也變得有限,但它能夠在外界病毒攻擊早期階段就發(fā)現(xiàn)它們,通過協(xié)調(diào)資源來降低系統(tǒng)損失,追蹤并還原攻擊歷史過程,對APT攻擊形成限制,非常有效[3]。
在大數(shù)據(jù)時代,互聯(lián)網(wǎng)被外部環(huán)境安全事件及安全風險威脅在所難免,所以無論是企業(yè)還是校園等公共組織場合都要做好基于網(wǎng)絡流量元數(shù)據(jù)背景下的安全大數(shù)據(jù)防護探索,合理冷靜地應對大數(shù)據(jù)安全攻防過程,通過對元數(shù)據(jù)的快速評估找出網(wǎng)絡安全中所存在的薄弱點,巧妙應用大數(shù)據(jù)平臺,提高自動化智能異常計算能力,完善平臺威脅的可視化呈現(xiàn)技術,最終實現(xiàn)對不同類型數(shù)據(jù)的有效挖掘與關聯(lián)性分析過程。
[1]姜開達,李霄,孫強等.基于網(wǎng)絡流量元數(shù)據(jù)的安全大數(shù)據(jù)分析[J].信息網(wǎng)絡安全,2014.
[2]張丁.試析基于網(wǎng)絡流量元數(shù)據(jù)的安全大數(shù)據(jù)分析[J].數(shù)字通信世界,2016.
[3]蒲以國.基于網(wǎng)絡數(shù)據(jù)分析的失泄密檢測[D].中國科學院大學,2013.