編者按: 他山之石,可以攻玉。威脅情報服務和工具可以從AI 尤其是機器學習等高級技術中獲得很大提升。如何利用AI 改善攻擊檢測的過程從而提升安全性呢?
對于利用威脅情報的企業而言,下一步的發展是以機器學習技術的形式增加人工智能(AI)的威脅情報功能,用以提高攻擊檢測能力。
機器學習是可以使計算機分析數據并學習其意義的一種人工智能形式。將機器學習結合威脅情報使用的根本原因是,在攻擊發生之前,使計算機能夠以比人更快的速度檢測并阻止攻擊。此外,由于威脅情報的體量如此巨大,傳統的檢測技術不可避免地會產生很多虛假的情報。機器學習可以分析威脅情報并將其濃縮為更細小的要點,因而可以減少一些虛假情報的數量。
這聽起來似乎很令人激動,但還存在問題。期望AI極大地提升安全性也不現實,而且在沒有準備和后續支持的情況下部署機器學習可能使事情更糟。
企業可以采取哪些步驟才能更好地利用具有機器學習功能的AI 情報工具,從而提高攻擊的檢測能力呢?
利用機器學習的AI 威脅情報產品是通過接收、分析輸入并產生輸出而工作的。對于攻擊檢測來說,機器學習的輸入包括威脅情報,而其輸出可能是指示攻擊正在發生的警告,或者是阻止攻擊的自動操作。如果威脅情報有錯誤,機器學習將把錯誤信息交給攻擊檢測工具,所以工具化的機器學習算法可能產生錯誤的結果。
很多企業都訂閱了多個威脅源,其中包括機器可讀取的攻擊跡象的數據源,如發動攻擊的計算機的IP 地址和惡意軟件使用的文件名等。其他的威脅情報源是服務,它一般提供可由人讀取的描述最新威脅的文本信息。機器學習可以利用情報源,但無法使用服務。
企業應當將最高質量的威脅情報源用于機器學習。不妨從如下方面考慮如何選擇威脅情報源。
首先,情報源多久更新一次?威脅的變化非常快,所以情報源應當持續更新。其次,情報源的數據準確性如何?例如,一個被報告稱正在發動攻擊的IP 地址是否確實?第三,情報源的全面性如何?是否覆蓋了全世界范圍的威脅?是否包括了企業的檢測工具所需威脅的信息類型?
直接評估威脅情報的質量是很難的,但是根據因使用威脅情報而導致的虛假情報的數量進行間接評估卻是可行的。在直接由檢測工具使用而無需機器學習時,高質量的威脅情報應當帶來最少量的虛假信息。
如果將威脅情報用于機器學習執行諸如自動阻止攻擊等操作,虛假或錯誤情報可能是一個現實問題。錯誤可以破壞正常的活動,并有可能對運營產生負面影響。
從根本上說,威脅情報僅僅是評估風險的一部分而已。另一個部分是理解環境或場景,如角色、每臺電腦的重要性和運營特性等。將環境信息提供給機器學習有助于從威脅情報中獲得更多價值。假如威脅情報表明一個特定的外部IP 地址是惡意的,那么檢測從一個內部的數據庫服務器向外傳輸到這個地址的網絡通信,與檢測一個每天將文件發送給訂閱者的服務器向這個同一IP地址發出的網絡通信相比,將產生不同的操作。
使用機器學習的最困難部分是提供真實的學習。機器學習需要知道哪些是好的,哪些是不好的,并且在犯錯誤時也能夠從中學習。這就要求熟練技術人員的持續關注。向機器傳授學習技術的一種常見方法是將其置于一個僅有監視的模式中,其中的機器可以識別惡意的東西但并不阻止任何操作。人類檢查機器學習工具的警告,并加以驗證,使其知道哪些是錯誤的。沒有來自人的反饋,機器學習就不能改正錯誤和提升自身。
傳統理念是要避免依靠使用機器學習來檢測攻擊的AI 威脅情報,主要是擔心虛假情報問題。在有些環境中這是對的,但在其他環境中就是錯的。較老的檢測技術更有可能遺漏最新的攻擊,因為它無法跟上這些攻擊技術的新模式。機器學習有助于安全團隊發現最新的攻擊,但是可能存在較高的誤報率。遺漏攻擊與調查可能的虛擬情報所需要的資源相比,將是一個更大的問題,那么更多地依靠利用機器學習的自動化對于保護這些資產來說可能更有意義。

很多企業可能會發現最好是將無需機器學習的威脅情報用于某些目的,而將機器學習所生成的結果用于其他目的。例如,威脅獵手可能將機器學習用于獲得一些操作上的建議,用于人們無法在海量的威脅情報數據集中調查并得到有重要價值的信息情況。
當然,不可忽視的是,威脅情報服務報告可以為威脅獵手提供一些關于最新威脅的珍貴信息。這些信息往往包括一些不能輕易地實現自動化從而使機器學習可以處理的東西。