◎奇安信科技集團股份有限公司 黃巍
近日,一項全球調研顯示,超過70%的安全運營團隊認為,他們的工作及家庭生活受到了告警過載帶來的嚴重影響。受訪者表示正在被大量的告警淹沒,并承認他們沒有信心能夠確定告警優先級并及時做出響應。據統計,受訪者僅進行誤報處理就占據了工作時間的四分之一以上,這揭示了當前安全工具難以解決眾多安全系統生成的告警的現實情況。此外,在面對巨大告警過載壓力時,部分受訪者承認曾選擇關閉告警(43%)、離開計算機(43%)、寄希望于團隊其他成員介入(50%)、甚至選擇忽略(40%)。研究顯示,受訪者表示由于告警過載引發的疲勞和焦慮,還侵犯了他們的家庭生活,甚至在情感上對其造成了巨大損失:70%的受訪者表示,他們在工作之外的時間也感受到巨大壓力,以至于他們難以在生活中放松,并且對朋友和家人表現出煩躁情緒。
波耐蒙研究所(Ponemon Institute)于2020 年和2021年分別發布了兩份題為《SOC 經濟學:出效果到底要花多少錢》的系列調研報告。本次調研報告最終有效樣本數為682份,調研對象主要為大型企業安全運營中心(SOC)的管理者。報告顯示,在受訪者心目中,最重要的SOC 活動排序第一的為“降低誤報”(88%),而安全廠商更看重和強調的“告警監測”(79%)“威脅檢測”(73%)能力,僅僅排在第五位和第八位。這樣的調研結果與我們的固有認知存在較大差異,然而這卻代表了眾多安全運營團隊的真實訴求。

原因一:安全設備和產品眾多,造成海量數據輸入并引發數據重復
隨著國內大型企業和機構安全建設的逐漸成熟,所采購和投入使用的安全設備和產品也越來越多,因此,安全運營中心(SOC)需要監管的海量數據和資產信息正在爆炸式的增長。調研報告顯示,SOC 監管最多的安全產品依次是防火墻、IPS/IDS、認證系統、威脅情報、郵件安全、云安全、EDR、漏掃、中間件、終端安全等產品。除了十種典型安全產品,SOC 還需要監管諸如數據庫審計、上網行為管理、堡壘機、4A 認證、VPN 認證、零信任認證等眾多審計類產品的海量數據和告警等。

但在數據量增長的同時,也會引發嚴重的數據重復現象。由于單個安全產品能力越來越趨向于多樣化、多功能,這勢必造成部分安全產品的能力重合,例如NGFW、UTM、IPS、流量探針等網絡安全設備可能對同一份網絡流量檢測出常見的網絡攻擊事件,其內容大同小異,而這樣的重復部署會對SOC 分析師和運營人員的工作量造成數倍的增長。這是造成告警過載的首要原因,且當前呈現出日益加劇的趨勢。
原因二:安全運營工具未能對海量告警進行有效降噪、去重、歸類合并
作為安全運營的重要工具,安全運營平臺類產品正迅速得到普及,此類產品產生的初衷是幫助安全團隊管理爆炸式增長的數據和各類信息,以實現一站式的告警監測和多源的日志管理。然而,事實上多數平臺并未有效地解決因數據量過大和數據重復引發的告警過載問題。究其原因,主要在于平臺難以對各安全產品上報的告警數據進行有效的質量評估、過濾、去重和歸類合并,即平臺未能自動地對明顯無效、質量差、價值低的數據進行篩選過濾,也未能有效地對重復或反復發生的告警進行自動化地去重和歸類合并,從而造成了工作的低效。
原因三:人是SOC 運營成功的關鍵,但人才的發現和培養過程困難
Ponemon 發表的調研結果表示,人(分析師)是SOC成功的關鍵,也是SOC 成本支出的主要部分。SOC 需要的人才數量多,且分析師的雇傭成本也相對較高,在招人、育人、留人方面也很困難。調查顯示,招聘到一名分析師平均耗時3.5 個月,培訓時間約為3.8 個月,但分析師在一個企業的供職時間平均只有27.2 月(2 年左右),即人員的流動性也很高。如下圖:

從分析師的角度來講,他們工作的痛苦也在不斷加劇。70%受訪者承認,由于告警過載、信息過載、7x24x365 全年無休等問題,使他們感到精疲力竭,這直接促使了人員的流失和招聘困難,進而導致更多的告警無人分析和及時響應,又加重了SOC 的失效。這是一個惡性循環的過程,因此如何平衡告警過載帶來的壓力,緩解運營人員的工作負擔,已成為SOC 亟需解決的問題。
本文通過實踐案例來分享解決告警過載問題的經驗:國內某大型新能源企業下設多家分公司、多個數據中心及海外辦公區,且安全基礎建設相對成熟,擁有的終端/服務器超過5 萬臺,擁有的網絡安全設備和審計類產品有數百種,其安全運營中心(SOC)每天僅收到的網絡威脅告警就數以十萬計,安全團隊承認,他們最多處理全部告警的十分之一,其壓力也可想而知。
首先,安全團隊應理性評估各類安全產品的能力覆蓋范圍和數據重合度,安全產品并非采購的越多越好,如不合理規劃和分配各安全產品的職能,難免會造成不必要的浪費,避免安全能力的重合。對于明顯重復的數據,例如捕獲相同流量的FW、IPS、流量探針,要對數據質量進行評估,并選擇過濾,以保留數據最全、質量最好、檢出率最高的設備告警作為告警首要呈現來源和主要分析對象,而其他日志僅用于存儲和輔助分析,不作為首要對象去分析。
該企業擁有眾多對外提供服務的網站應用,這些應用暴露在互聯網難免遭到無數探查和嘗試攻擊行為,但DMZ區已部署WAF,絕大多數的探查和攻擊行為都可以被阻攔,且WAF 已上報相關的告警事件,但攻擊特征卻在流量中被防火墻、IDS、流量探針等重重把關的安全設備檢測到并重復地報出告警。原則是此類重復告警應被主動過濾,而不作為首要對象進行呈現,更不應該重復呈現。為此,企業制定了數據過濾策略:通過告警中的“響應碼”“上下行字節數”“攻擊結果”“是否阻斷”等關鍵字段進行過濾,以過濾無效告警,僅做入庫存儲用于必要時的溯源分析,而不再呈現給分析師,這成功將告警總量從10 萬級別降至1 萬以內,減少了90%的無效告警。
因負載均衡、代理服務器、多級DNS 服務器等設備將網絡請求進行轉發,轉發前后的流量同時被捕捉,流量中的攻擊事件被網絡安全設備(IPS、流量探針、WAF)進行重復檢測,從而造成告警數量的翻倍。例如常見的惡意域名請求事件,下級DNS 服務器對上級DNS 服務器的域名請求同樣產生告警,且無法定位真實請求源,這是典型的既重復又無效的告警。為解決此問題,企業將告警關聯請求源IP 屬于客戶的下級DNS 服務器的告警進行過濾,這可以減少約50%惡意域名請求的告警數量。此外,通過分析還發現,由于該企業的NGINX 代理服務器轉發前后的流量都會被捕獲,因此轉發后的請求流量存在告警重復且無法定位攻擊源的問題,這將難以在第一時間對來自互聯網的攻擊者進行定位和封禁。基于此,企業也進行了過濾,凡是攻擊源來自于NGINX 服務器代理地址的告警,都不作為首要關注目標,而只關注請求轉發前的攻擊事件。
此類告警優化策略應建立在對企業資產信息充分了解之上,需要掌握企業的部分關鍵資產信息,尤其是對于容易引起告警重復、誤報的資產信息要有清楚的認知,并應通過運營工具將這些信息與告警進行自動關聯過濾,例如客戶定期漏掃、云監測、資產探查等服務都會周期性的引發告警。若分析師不清楚這些資產信息,勢必存在誤導和困擾,造成過大工作負擔。
通過上述的降噪和過濾策略,已經可以將告警數量顯著下降至每日數千條,這可以減少約94%無效、重復告警,但對于人員有限的SOC 分析師來說,這個數據還是很大,仍存在很多擔憂,如因無法一一查看這些告警而被迫忽視真正高危的安全事件。通過繼續分析告警類型可以發現,很多告警雖不重復,但卻是反復發生,例如常見的弱口令事件、信息泄漏事件、敏感目錄訪問事件、未授權訪問事件等,都并非攻擊性質的事件,而是屬于脆弱性事件或稱之為管理疏忽事件。這類事件因涉及太多主機、用戶和服務,因此會引發海量告警,而僅按照IP、用戶名、主機名去歸并也無法完全解決問題。此類事件應進行合理的歸納總結,而不是面面俱到的一一展示,以避免造成告警的堆積,淹沒其他更具分析價值的真實攻擊事件。通過積極調整檢測規則的“歸并策略”,可將此類告警在規定時間窗口內產生的所有告警合并為一個事件,并做好事件分類,使這類脆弱性事件不與其他網絡攻擊事件混為一談。客戶只需周期性的查看該事件并督促該事件中涉及的所有用戶和主機責任人進行整改即可。此外,還需對不同類型事件進行分類和定級,例如威脅情報事件的可信程度極高應該首先被關注,內網攻擊事件優先于外部攻擊事件,重點資產的安全事件優先于用戶終端的安全事件等。通過這些合理的分類和定級可以幫助分析師確立優先級,定向地去查看,以提高工作效率。
至此,通過主動降噪、告警去重、歸納合并等策略可以將告警數量從每天十萬條降至每天約800 條,平均每1 億條日志僅呈現給分析師24 條高度歸納總結后的事件,作為SOC 分析師調查分析的入口。
安全運營平臺作為大型企業一站式告警監測與多源日志的管理平臺,在優化工作中扮演了重要角色。優秀的運營工具通過加工的日志存儲和過濾的告警呈現,更加智能有效地幫助安全團隊解決非核心業務,讓安全分析師將更多精力和時間專注于告警分析和事件響應這種核心業務上,不被告警過載問題所困擾。

時間線每天日志量每天告警量每1億條日志告警量2021/05/01 18.9億條102129 5291 2021/05/16 22.2億條9787 440 2021/06/01 26.7億條6101 228 2021/06/18 29.3億條921 31 2021/06/30 35.9億條870 24