何迪
摘要??? 本文主要針對(duì)Hadoop的大數(shù)據(jù)網(wǎng)絡(luò)安全實(shí)體識(shí)別方法展開(kāi)研究,希望能夠?yàn)橄嚓P(guān)工作者提供理論幫助。
【關(guān)鍵詞】Hadoop 大數(shù)據(jù) 網(wǎng)絡(luò)安全 實(shí)體識(shí)別
現(xiàn)階段,網(wǎng)絡(luò)在人們的生活中扮演著無(wú)法替代的重要角色。而隨著網(wǎng)絡(luò)用戶的增加以及數(shù)據(jù)信息的擴(kuò)展,人們對(duì)于網(wǎng)絡(luò)安全的要求也越來(lái)越高。在網(wǎng)絡(luò)信息安全處理工作中,傳統(tǒng)的信息處理方式以及網(wǎng)絡(luò)安全實(shí)體識(shí)別方法已經(jīng)無(wú)法滿足當(dāng)前海量數(shù)據(jù)處理的實(shí)際需求。因此在對(duì)網(wǎng)絡(luò)安全實(shí)體識(shí)別工作的研究中,許多學(xué)者發(fā)現(xiàn)應(yīng)用Hadoop能夠有效的保障網(wǎng)絡(luò)安全實(shí)體識(shí)別工作的質(zhì)量。當(dāng)前,Hadoop在諸多行業(yè)中都有應(yīng)用,其中:通過(guò)Hadoop能夠支持雅虎廣告系統(tǒng)功能以及搜索功能;Hadoop在Facebook中的應(yīng)用能夠提供數(shù)據(jù)處理與分析功能......種種實(shí)例表明,Hadoop能夠?qū)A啃畔⑦M(jìn)行處理。而且Hadoop能夠應(yīng)用與網(wǎng)絡(luò)實(shí)體安全的識(shí)別工作中,提升網(wǎng)絡(luò)數(shù)據(jù)信息的處理能力,保障網(wǎng)絡(luò)運(yùn)行安全。
1 Hadoop概念闡述
1.1 Hadoop關(guān)鍵技術(shù)
HDFS以及MapReduce開(kāi)源實(shí)現(xiàn)是Hadoop體系結(jié)構(gòu)的核心部分。其中,HDFS具有高伸縮性、高容錯(cuò)性的應(yīng)用優(yōu)勢(shì),并能夠適用于一些低廉、普通的硬件工作中,形成分布式系統(tǒng),便于對(duì)數(shù)據(jù)信息進(jìn)行管理。借助MapReduce能夠?yàn)橛脩籼峁╅_(kāi)發(fā)并行應(yīng)用程序。MapReduce可以實(shí)現(xiàn)集群并行任務(wù)處理以及分布式計(jì)算。借助HDFS和MapReduce,能夠?qū)?shù)據(jù)信息進(jìn)行監(jiān)管,支持基本的數(shù)據(jù)存儲(chǔ)以及操作等功能。在對(duì)HDFS展開(kāi)研究并以此為基礎(chǔ),MapReduce,實(shí)現(xiàn)了任務(wù)跟蹤功能、分發(fā)功能以及執(zhí)行功能。此外,MapReduce還能夠?qū)ψ罱K處理結(jié)果進(jìn)行收集,從而實(shí)現(xiàn)Hadoop的主要任務(wù)。
1.2 Hadoop網(wǎng)絡(luò)安全實(shí)體識(shí)別分析
數(shù)據(jù)采集系統(tǒng)對(duì)網(wǎng)絡(luò)安全設(shè)備的數(shù)據(jù)信息進(jìn)行采集,并生成數(shù)據(jù)文件。將這些數(shù)據(jù)文件利用指令將其存儲(chǔ)在HDFS中。通過(guò)HDFS能夠?qū)⒍鄠€(gè)硬件資源節(jié)點(diǎn)進(jìn)行分布式存儲(chǔ)。利用MapReduce對(duì)數(shù)據(jù)信息進(jìn)行分析處理,并將最終分析結(jié)果進(jìn)行展示。MapReduce輸入可支持多種格式,并將之HDFS中。借助用戶設(shè)定的InputDataFormat,利用Hadoop將不同數(shù)據(jù)文件進(jìn)行分割,并將分割完成后的(key1,value1)集合作為map函數(shù)進(jìn)行處理,并在分組完成后將數(shù)據(jù)傳遞給reduce函數(shù),通過(guò)reduce函數(shù)得到最終的輸出結(jié)果。將輸出結(jié)果載入文件中,并將結(jié)果進(jìn)行文件格式配置。
2基于Hadoop網(wǎng)絡(luò)安全實(shí)體識(shí)別方法的實(shí)現(xiàn)
2.1 共享機(jī)制的輸入
由于條件函數(shù)依賴約束的構(gòu)成是tableau,因此,在執(zhí)行檢查條件函數(shù)依賴關(guān)系的約束過(guò)程中應(yīng)針對(duì)每一個(gè)tableau進(jìn)行檢查。并對(duì)不同的Reduce任務(wù)以及Map任務(wù)進(jìn)行合并,最終實(shí)現(xiàn)對(duì)多個(gè)MapReduce合并成一個(gè)單獨(dú)的任務(wù)進(jìn)行處理。MapReduce任務(wù)的共享機(jī)制適用于多種情況下。本文中假設(shè)MapReduce任務(wù)數(shù)量?jī)蓚€(gè),并將之?dāng)U展到MapReduce任務(wù)組中。Reduce階段屬于多個(gè)原始輸入任務(wù)元組,需將之劃分到原始任務(wù)Reduce函數(shù)中注意,在輸入共享機(jī)制過(guò)程中,若Map任務(wù)與任務(wù)一般無(wú)二,則可以對(duì)其進(jìn)行同時(shí)的輸入共享,將之成為一個(gè)全新的MapReduce任務(wù)進(jìn)行輸入共享,無(wú)需進(jìn)行重復(fù)掃描。
2.2 Map函數(shù)以及Reduce函數(shù)的實(shí)現(xiàn)
Hadoop框架中Map函數(shù)有公共類以及接口類的定義。可采用Mapper公共類方法來(lái)實(shí)現(xiàn)文中Hadoop網(wǎng)絡(luò)安全實(shí)體識(shí)別中map函數(shù)的設(shè)置。針對(duì)Java數(shù)據(jù)類型,Hadoop平臺(tái)采用了不同種類對(duì)其進(jìn)行封裝。這些不同類型的封裝能夠更有利于對(duì)數(shù)字浮點(diǎn)進(jìn)行歸類,便于節(jié)點(diǎn)之間的數(shù)據(jù)傳遞以及轉(zhuǎn)換。其中,VALUEIN代表數(shù)據(jù)本身,能夠?qū)?shù)據(jù)的屬性進(jìn)行分析解讀,并讀取每一個(gè)數(shù)據(jù)中各個(gè)屬性相對(duì)應(yīng)的數(shù)值。利用條件函數(shù)依賴約束的基本原則,對(duì)數(shù)據(jù)屬性中的數(shù)值進(jìn)行比較,將最終比較完成的結(jié)果利用屬性值代替。比較完成后的結(jié)果進(jìn)行組合,形成一個(gè)全新的KEYOUT。
2.3 Combine函數(shù)實(shí)現(xiàn)
由于假設(shè)的網(wǎng)絡(luò)安全實(shí)體識(shí)別系統(tǒng)中將會(huì)重復(fù)出現(xiàn)大量的map函數(shù)中的key值。考慮到這一點(diǎn),在對(duì)其進(jìn)行combine合并函數(shù)處理map函數(shù)后,應(yīng)對(duì)大量的重復(fù)key值進(jìn)行合并處理,否則這些無(wú)用的key值將會(huì)對(duì)系統(tǒng)造成一定影響。reduce函數(shù)的實(shí)現(xiàn)則需借助combine功能。當(dāng)全部的類都處理完成后,此時(shí)將由Hadoop平臺(tái)為系統(tǒng)提供一個(gè)Job類。此時(shí),Job類主要用于對(duì)與之對(duì)應(yīng)的reduce、map以及combine函數(shù)進(jìn)行設(shè)置。除此之外,在Job類中還應(yīng)設(shè)置一些其他的相關(guān)類,從而實(shí)現(xiàn)與其他系統(tǒng)的關(guān)聯(lián),便于對(duì)數(shù)據(jù)文件的路徑進(jìn)行參數(shù)設(shè)置、輸出/入以及存儲(chǔ)。
3 結(jié)論
綜上所述,通過(guò)對(duì)Hadoop展開(kāi)研究,可知Hadoop應(yīng)用于網(wǎng)絡(luò)安全管理平臺(tái)具有極大的可靠性、可用性以及實(shí)用性。而且Hadoop的應(yīng)用能夠減輕數(shù)據(jù)讀取的實(shí)際時(shí)間,可以高效的完成網(wǎng)絡(luò)安全管理平臺(tái)的管理工作效率,而且在實(shí)際應(yīng)用中具有高效性、高擴(kuò)展性、高容錯(cuò)性等應(yīng)用優(yōu)勢(shì)。
參考文獻(xiàn)
[1]張春霞,王新猛,張曉熙.基于Hadoop的森林公安網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全,2018(12):82-86.
[2]李優(yōu).基于Hadoop的分布式網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D].西北大學(xué),2018.
[3]呂濤.基于Hadoop平臺(tái)的并行決策樹算法研究[D].西安科技大學(xué),2018.
[4]金丹丹.Hadoop容錯(cuò)機(jī)制中的推測(cè)執(zhí)行策略優(yōu)化與研究[D].南京信息工程大學(xué),2018.