(赤峰學院附屬醫院,內蒙古 赤峰 024000)
云計算、大數據、人工智能等技術的快速發展,促進了人們進入到“互聯網+”時代,政務辦公、金融銀行、科研衛生、工業制造、旅游住宿等許多領域均引入了互聯網,開發了關聯的分布式管理系統,因此互聯網給人們帶來了許多的便利,但是也面臨著嚴重的安全攻擊,許多非法分子利用勒索病毒、網銀木馬或網游木馬等,盜取網絡用戶的信息進行大肆破壞,嚴重威脅網絡用戶的隱私信息安全。本文為了提高網絡安全防御水平,提出了一個基于K-means算法的網絡安全智能防御模型,提高網絡安全防御水平。
目前,互聯網保存的數據非常多,比如金融賬戶信息或科研機密信息,很多不法分子為了牟利,通常利用網絡攻擊的手段,開發勒索病毒、盜號木馬、網銀木馬、蠕蟲木馬等,非法竊取互聯網信息,給網絡用戶帶來嚴重的經濟損失,侵犯網絡用戶的合法權益,直接影響“互聯網+”普及力度[1]。比如,2018年爆發的勒索病毒侵入了很多的互聯網服務器,導致互聯網無法正常使用,入侵者要求網絡用戶支付昂貴的勒索贖金才能解開密鑰,但是很多用戶支付贖金之后也沒有正常恢復數據,帶來的損失不可估量。盜號木馬可以根據網絡用戶登錄的賬號密碼記錄,非法獲取互聯網信息系統登錄的權限,從而破壞互聯網信息系統的數據,給互聯網用戶帶來嚴重的金錢損失[2]。
目前,網絡安全研究學者和企業經過實踐,提出了很多的安全防御技術,比如防火墻、殺毒軟件、訪問控制列表、加密技術和入侵檢測工具。比如入侵檢測一種基本的網絡訪問控制保護工具,該工具能夠部署于網絡關口,查看通過關口的訪問信息是否存在病毒或木馬。深度包過濾是在入侵檢測的基礎上進行升級的版本,入侵檢測只檢測網絡數據包的包頭,不檢測包的數據部分,因此許多病毒利用這個缺陷,將病毒潛藏在包內。深度包過濾不僅可以檢查包頭,還可以檢查包內數據部分,分析包內的數據是否存在木馬或病毒。但是,傳統網絡安全防御工具需要病毒或木馬爆發之后才可以啟動防御,因此屬于被動防御模式,因此無法提高網絡安全防御的實時性、預測性。本文提出引入人工智能技術——K-means算法,提高網絡安全防御的主動性。
本文基于K-means算法構建一個網絡安全智能防御模型,利用人工智能算法挖掘病毒或木馬的特征基因片段,提高網絡安全防御水平,K-means算法的執行流程如下:首先,網絡安全防御系統采集數據流,這些數據流發送給K-means算法,算法對其數據流進行分片,構建一個個的網絡數據基因片段;第二,K-means算法將劃分好的網絡數據片段初始化為K個組,每一個組采用合理的度量方法獲取K個聚類中心,在這個度量方法計算過程中,可以引入啟發式規則,提高初始化聚類中心的準確度。第三,將所有的數據打亂,重新計算數據到K個聚類中心的距離,然后按照最近原則將相同數據劃分為K個聚類中,同時根據劃分好的數據對象進行重新計算,獲取K個新的聚類中心;第四,重復上述第三個步驟,直到所有的聚類中心不再發生變化。K-means算法訓練學習完畢之后,用戶可以將訓好的模型嵌入到系統中,這樣系統就可以根據新來的數據,將其劃分到最近的簇中,有病毒的數據劃分到有數據的簇,無病毒的數據劃分為到無病毒簇。
本文為了能夠獲取提出的K-means算法準確度,構建了一個網絡安全防御效果實驗模型,該模型同時引入支持向量機算法,以便能夠進行對比分析每一種算法的準確度。具體的,實驗模擬六個模擬終端,每一個終端都發送包含有病毒基因特征的數據,這些數據包含的病毒基因包括勒索病毒、網銀木馬、弼馬溫病毒、灰鴿子、網游木馬、蠕蟲病毒、下載類木馬等,每一個模擬發送的數據包設置如下:模擬終端1發送的數據包為100萬個,包含的木馬或病毒基因特征為2萬個;模擬終端2發送的數據包為200萬個,包含的木馬或病毒基因特征為6萬個;模擬終端3發送的數據包為400萬個,包含的木馬或病毒基因特征為10萬個;模擬終端4發送的數據包為600萬個,包含的木馬或病毒基因特征為16萬個;模擬終端5發送的數據包為800萬個,包含的木馬或病毒基因特征為20萬個;模擬終端6發送的數據包為1000萬個,包含的木馬或病毒基因特征為30萬個。本文將模擬終端數據輸入到安全防御系統中之后,發現三種實驗算法的準確度如表1所示。

表1 網絡安全實驗結果
網絡安全實驗結果表明K-means算法網絡安全防御準確度可以達到99.91%,即使在數據量非常大的情況下,準確度也可以達到93.69%,高于BP神經網絡算法和遺傳算法的準確度。同時,基于人工智能的網絡安全防御系統具有自主學習機制,能夠學習到新型的病毒或木馬基因片段,將其保存到網絡安全識別模型中,從而可以持續地改進人工智能的識別準確度。