韓培培
中國(guó)電子科技集團(tuán)公司第五十四研究所,河北石家莊,050000
對(duì)具有價(jià)值的數(shù)據(jù)信息的分析與識(shí)別,都是通過(guò)對(duì)大量、動(dòng)態(tài)且能夠持續(xù)的數(shù)據(jù)運(yùn)用新的系統(tǒng)、工具和模型進(jìn)行充分的挖掘和分析得到的。隨著大數(shù)據(jù)的快速發(fā)展,各行業(yè)各已經(jīng)開始逐漸使用新技術(shù)來(lái)進(jìn)行實(shí)時(shí)數(shù)據(jù)分析[1]。但如何在海量結(jié)構(gòu)化和非機(jī)構(gòu)化的數(shù)據(jù)中,對(duì)信息進(jìn)行時(shí)空動(dòng)態(tài)分析與利用,仍然是無(wú)法避免的問(wèn)題。基于此,本文結(jié)合數(shù)據(jù)信息的時(shí)空特征,利用ABI情報(bào)分析方法,對(duì)目標(biāo)的活動(dòng)規(guī)律展開探討。
大數(shù)據(jù)作為一種從網(wǎng)絡(luò)多層次視角,對(duì)海量數(shù)據(jù)信息的收集與整合技術(shù),自身具備了實(shí)時(shí)性特征。如果從技術(shù)角度來(lái)看,大數(shù)據(jù)技術(shù)和云計(jì)算技術(shù)兩者之間具有一定的聯(lián)系,且云存儲(chǔ)和數(shù)據(jù)庫(kù)、處理技術(shù)等都是實(shí)施數(shù)據(jù)信息收集的重要支撐。而數(shù)據(jù)挖掘作為在知識(shí)發(fā)現(xiàn)中的關(guān)鍵部分,是通過(guò)大量數(shù)據(jù)和算法的搜索,找尋其中存在的規(guī)則、規(guī)律等的一個(gè)過(guò)程。一般可以用于異常檢測(cè)、關(guān)聯(lián)規(guī)則學(xué)習(xí)、聚類分析以及回歸分析和分類、數(shù)據(jù)可視化等。經(jīng)過(guò)長(zhǎng)時(shí)間的發(fā)展,在融合人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)以及模式識(shí)別、神經(jīng)網(wǎng)絡(luò)和高性能計(jì)算、數(shù)據(jù)可視化等多種理論與技術(shù)后的數(shù)據(jù)挖掘,已經(jīng)變成了一門交叉學(xué)科[2]。
情報(bào)也被稱為信息或資訊,簡(jiǎn)單來(lái)說(shuō)就是代表被傳遞的信息或者知識(shí),通過(guò)一定載體,在某個(gè)特定的時(shí)間、狀態(tài)下傳遞給某個(gè)特定的人物。現(xiàn)階段在信息技術(shù)不斷且快速的發(fā)展下,信息載體的數(shù)據(jù)呈現(xiàn)出幾何級(jí)數(shù)的規(guī)律提升,使得其存在模式也發(fā)生了根本性的變化。導(dǎo)致原有的情報(bào)分析、情報(bào)收集以及處理模式已經(jīng)無(wú)法適應(yīng)于當(dāng)前的大數(shù)據(jù)環(huán)境,必須要對(duì)其進(jìn)行改造升級(jí)。
情報(bào)分析的方法是利用統(tǒng)計(jì)學(xué)當(dāng)中的隨機(jī)抽樣理論,來(lái)強(qiáng)調(diào)事物之間存在的因果關(guān)系,并在部分信息的推斷下對(duì)全局事物的發(fā)展進(jìn)行判斷,以此追求其準(zhǔn)確性。因此,在情報(bào)工作當(dāng)中,情報(bào)分析占據(jù)了重要地位。而隨著大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)分析通過(guò)利用盡可能多的數(shù)據(jù)支持,實(shí)現(xiàn)對(duì)事物之間的關(guān)系判斷,只求相關(guān)性,并不強(qiáng)調(diào)準(zhǔn)確性。所以,大數(shù)據(jù)分析從其本質(zhì)上來(lái)看,就是針對(duì)大量結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行處理,以此實(shí)現(xiàn)得到應(yīng)用的目的。而大數(shù)據(jù)分析和情報(bào)分析這兩者即使導(dǎo)向不同,仍然擁有密切的聯(lián)系[3]。
該方法是情報(bào)分析方法中的一種,通過(guò)從地理敘事的方向?yàn)榍腥朦c(diǎn),在空間以及時(shí)間上實(shí)現(xiàn)活動(dòng)連接。使得無(wú)序或雜亂的情報(bào)活動(dòng),變得有規(guī)律、有序可循,以此為目標(biāo)活動(dòng)分析提供新的方向,并且ABI情報(bào)分析方法也是多源情報(bào)的聚集和關(guān)聯(lián)。在時(shí)空數(shù)據(jù)的基礎(chǔ)上,通過(guò)對(duì)目標(biāo)活動(dòng)的發(fā)展規(guī)律進(jìn)行分析,從而預(yù)測(cè)目標(biāo)活動(dòng)。與傳統(tǒng)的目標(biāo)分析方法相比較來(lái)說(shuō),該目標(biāo)方法通過(guò)構(gòu)建目標(biāo)的行為譜,為目標(biāo)的所有特征和規(guī)律研究提供了數(shù)據(jù)上的支持。
而情報(bào)分析從本質(zhì)方面來(lái)說(shuō),就是利用一系列處理規(guī)則,獲取對(duì)方的計(jì)劃或者意圖。不過(guò),在實(shí)際數(shù)據(jù)集生成當(dāng)中比較稀疏,只能夠代表小部分的數(shù)據(jù)。而ABI方法易于對(duì)未知事物的發(fā)現(xiàn),并且可以通過(guò)活動(dòng)或?qū)嶋H的層段來(lái)對(duì)相關(guān)的實(shí)體進(jìn)行搜索,也能夠識(shí)別可能不為網(wǎng)絡(luò)所知的成員,ABI方法的分析框架如圖1所示。

圖1 ABI方法分析框架
時(shí)間和空間為ABI情報(bào)分析方法提供了時(shí)間相關(guān)性和空間相關(guān)性兩個(gè)數(shù)據(jù)過(guò)濾器,從上述框架中就能夠看出時(shí)空關(guān)系貫穿了整個(gè)數(shù)據(jù)情報(bào)的分析過(guò)程,從數(shù)據(jù)收集一直到知識(shí)管理等各個(gè)環(huán)節(jié)均和時(shí)空關(guān)系不斷迭代。
在情報(bào)分析領(lǐng)域當(dāng)中可以將實(shí)體目標(biāo)識(shí)別劃分為多個(gè)步驟,具體情報(bào)分析流程如圖2所示。

圖2 情報(bào)分析流程
(1)數(shù)據(jù)采集。該方面主要來(lái)源于相關(guān)情報(bào)報(bào)文,如時(shí)間或者情報(bào)的內(nèi)容等。
(2)數(shù)據(jù)管理。該部分是情報(bào)挖掘分析的基礎(chǔ),通過(guò)對(duì)目標(biāo)的活動(dòng)規(guī)律、活動(dòng)軌跡、目標(biāo)特征以及平臺(tái)信息等方面的數(shù)據(jù)為基礎(chǔ)進(jìn)行挖掘,并對(duì)其結(jié)果進(jìn)行保存。數(shù)據(jù)管理也是對(duì)各種不同類型數(shù)據(jù)的提取、查詢以及存儲(chǔ)和整理調(diào)用。
(3)數(shù)據(jù)預(yù)處理。預(yù)處理是對(duì)模型進(jìn)行訓(xùn)練之前的重要部分,該部分主要包含了數(shù)據(jù)的清洗、數(shù)據(jù)分詞處理以及數(shù)據(jù)核驗(yàn)等。數(shù)據(jù)清洗進(jìn)一步解決了數(shù)據(jù)中存在的質(zhì)量問(wèn)題,而數(shù)據(jù)分詞處理的質(zhì)量直接對(duì)模型質(zhì)量有著相應(yīng)的影響[5]。
(4)任務(wù)數(shù)據(jù)挖掘。基于大數(shù)據(jù)的數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘兩者進(jìn)行相比較發(fā)現(xiàn),從其概念內(nèi)涵以及實(shí)現(xiàn)目標(biāo)等方面上來(lái)看,兩者之間沒(méi)有存在本質(zhì)上的差別。二者均是為了獲取數(shù)據(jù)當(dāng)中所蘊(yùn)藏的規(guī)律性知識(shí),以此實(shí)現(xiàn)提前對(duì)事物的變化發(fā)展趨勢(shì)進(jìn)行預(yù)知。不過(guò),二者之間不相同的地方則是在對(duì)數(shù)據(jù)挖掘的環(huán)境方面出現(xiàn)了變化,其數(shù)據(jù)量和數(shù)據(jù)類型方面有了一定程度的提升。但通過(guò)對(duì)任務(wù)的分解,二者均可以滿足用戶在負(fù)載下的要求。由此可見(jiàn),傳統(tǒng)數(shù)據(jù)挖掘方法同樣能夠適用于大數(shù)據(jù)。
例如,以對(duì)目標(biāo)運(yùn)動(dòng)發(fā)展趨勢(shì)為例,給出大數(shù)據(jù)下情報(bào)信息分析挖掘的一種合理模型。具體的建模步驟如下:首先,需要對(duì)任務(wù)數(shù)據(jù)進(jìn)行合理的分析,并對(duì)完整任務(wù)數(shù)據(jù)進(jìn)行預(yù)處理;其次,在考慮到分解之后的單體數(shù)據(jù)集的體量依然具備一定規(guī)模,這時(shí)可以利用RBF神經(jīng)網(wǎng)絡(luò)模型或者ABI分析方法,將單體數(shù)據(jù)集中在每一個(gè)數(shù)據(jù)點(diǎn)上(這里選用了RBF神經(jīng)網(wǎng)絡(luò)模型),因此可以將單體數(shù)據(jù)集中在神經(jīng)網(wǎng)絡(luò)模型中,并且和神經(jīng)元組成龐大的訓(xùn)練集體,最后形成映射;接著利用SVM(支持向量機(jī))輔助方法,對(duì)神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化實(shí)現(xiàn)求解,同時(shí)還需要針對(duì)神經(jīng)網(wǎng)絡(luò)中的隱形層進(jìn)行改善,使得其能夠在大數(shù)據(jù)的幫助下促使數(shù)據(jù)處理的穩(wěn)定性得到提高[6]。
(5)數(shù)據(jù)挖掘算法實(shí)現(xiàn)。①特征分類。想要進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)挖掘算法,可以結(jié)合特定的領(lǐng)域進(jìn)行模型建設(shè)分類。接著,利用數(shù)據(jù)挖掘工具和相關(guān)算法對(duì)數(shù)據(jù)源中存在的數(shù)據(jù)進(jìn)行掃描分析與分類。其目的主要是利用分類模型,讓數(shù)據(jù)庫(kù)當(dāng)中的數(shù)據(jù)項(xiàng)直接映射到某一個(gè)特定的類別當(dāng)中。通過(guò)訓(xùn)練和運(yùn)行這些獨(dú)立的模塊,完成模型訓(xùn)練。②關(guān)聯(lián)分析。該方面主要是連接特定的領(lǐng)域,在知識(shí)庫(kù)中建立相對(duì)應(yīng)的關(guān)聯(lián)機(jī)制,并對(duì)數(shù)據(jù)園中的數(shù)據(jù)實(shí)施關(guān)聯(lián)分析。③聚合分析。結(jié)合研究所需,搭配知識(shí)、聚合相應(yīng)的信息源,以此可以實(shí)現(xiàn)高效檢索、導(dǎo)航以及關(guān)聯(lián)等部分功能。同時(shí),可以對(duì)數(shù)據(jù)的聚合進(jìn)行展示,從而為更深層次的數(shù)據(jù)挖掘分析提供有力的支撐。④趨勢(shì)演變。該部分結(jié)合對(duì)特定領(lǐng)域的分析,利用預(yù)測(cè)模型建設(shè)的形式,在數(shù)據(jù)挖掘工具的作用下針對(duì)存在時(shí)空跨度的數(shù)據(jù)進(jìn)行分析,并且對(duì)其趨勢(shì)演變實(shí)施預(yù)測(cè),以此輔助用戶的研究分析。
在針對(duì)情報(bào)分析時(shí),還需要注重單臺(tái)設(shè)備性能不足的問(wèn)題。而Spark分布式并行運(yùn)算框架的出現(xiàn),能夠有效解決單臺(tái)設(shè)備在進(jìn)行大數(shù)據(jù)的海量計(jì)算工作時(shí)性能不足的問(wèn)題。Spark框架是當(dāng)前最為流行的一種大數(shù)據(jù)處理框架,常常用于離線的大數(shù)據(jù)處理。可以通過(guò)對(duì)大數(shù)據(jù)處理部分的改進(jìn),將計(jì)算的結(jié)果和所使用的數(shù)據(jù)存儲(chǔ)到相應(yīng)的內(nèi)存當(dāng)中。這樣既可以降低對(duì)磁盤反復(fù)讀寫的消耗,還可以提高設(shè)備的運(yùn)算性能,比較適合應(yīng)用于迭代任務(wù)運(yùn)算當(dāng)中,以此促使數(shù)據(jù)挖掘算法的效率得到提升[6]。該框架的整體可以劃分為以下4層。
(1)工具層。該層次,Spark為數(shù)據(jù)挖掘提供了多種工具,如應(yīng)用于查詢的Spark SQL和應(yīng)用于流式計(jì)算的Spark Streaming以及最后應(yīng)用于機(jī)器學(xué)習(xí)的MILib和圖處理的GraphX。
(2)計(jì)算層。將用戶的應(yīng)用程序,分解成了內(nèi)部執(zhí)行任務(wù),同時(shí)還為其提供了執(zhí)行容器。
(3)存儲(chǔ)層。該層可以實(shí)現(xiàn)對(duì)分布式文件系統(tǒng)的讀取,還可以通過(guò)Hadoop集群中所存儲(chǔ)的組件數(shù)據(jù)訪問(wèn)本地?cái)?shù)據(jù)。
(4)資源調(diào)度層。在資源調(diào)度層,可以將集群管理器看作YARN,并且可以在自帶的集群管理器下實(shí)現(xiàn)獨(dú)立運(yùn)行。
由此可見(jiàn),在數(shù)據(jù)挖掘方面,基于分布式并行運(yùn)算的挖掘分析方法對(duì)目標(biāo)活動(dòng)的規(guī)律分析具有一定程度的借鑒作用。并且,相對(duì)應(yīng)的算法同樣能夠適用于對(duì)目標(biāo)活動(dòng)規(guī)律的大數(shù)據(jù)挖掘。而針對(duì)目標(biāo)活動(dòng)規(guī)律的挖掘分析是情報(bào)分析中的重點(diǎn)內(nèi)容,因此,經(jīng)過(guò)長(zhǎng)期積累的數(shù)據(jù)表明,對(duì)目標(biāo)活動(dòng)軌跡的分析,在相應(yīng)的活動(dòng)時(shí),均會(huì)存在固定頻繁的活動(dòng)區(qū)域或者軌跡,而這正是對(duì)目標(biāo)進(jìn)行身份識(shí)別或者多目標(biāo)意圖識(shí)別的重要依據(jù)之一。所以在目標(biāo)活動(dòng)的過(guò)程當(dāng)中針對(duì)目標(biāo)活動(dòng)軌跡的提取,雖然會(huì)存在大量的目標(biāo)痕跡,但是痕跡越多則是越能夠充分、真實(shí)地反映出目標(biāo)的活動(dòng)軌跡。但目標(biāo)活動(dòng)軌跡數(shù)據(jù)量過(guò)多時(shí),會(huì)對(duì)數(shù)據(jù)挖掘和情報(bào)分析以及數(shù)據(jù)存儲(chǔ)方面造成巨大的壓力。這時(shí),就需要對(duì)其誤差范圍進(jìn)行縮小,還要利用少量的數(shù)據(jù)表征目標(biāo)運(yùn)動(dòng)軌跡。最后,將結(jié)果利用顯示功能進(jìn)行顯示。例如以電子地圖為背景,將大數(shù)據(jù)挖掘的結(jié)果和目標(biāo)的活動(dòng)軌跡在地圖上進(jìn)行顯示。在日益增長(zhǎng)的數(shù)據(jù)量下,大數(shù)據(jù)的挖掘技術(shù)發(fā)揮其優(yōu)勢(shì),已經(jīng)成了當(dāng)前情報(bào)分析發(fā)展的一大趨勢(shì)[7]。
大數(shù)據(jù)由于自身數(shù)據(jù)的復(fù)雜性、多樣性和廣泛性,在數(shù)據(jù)挖掘技術(shù)和相對(duì)應(yīng)的挖掘工具方面具有豐富的經(jīng)驗(yàn)。由此來(lái)看,可以將大數(shù)據(jù)的挖掘技術(shù)劃分為經(jīng)典數(shù)據(jù)挖掘方法以及智能挖掘方法兩種。
該算法是聚類算法,通過(guò)將n個(gè)對(duì)象結(jié)合其自身的屬性劃分為K個(gè)分割,也就是K<n。該算法與處理混合正態(tài)分布的算法有很大的相似之處。假設(shè)目標(biāo)對(duì)象屬性源自于空間向量,且每個(gè)目標(biāo)能夠使各個(gè)群組之間的平均誤差總和達(dá)到最小,則在大數(shù)據(jù)挖掘技術(shù)應(yīng)用中,K-均值算法可以用于目標(biāo)空間位置的聚類,也可以對(duì)輻射源參數(shù)等類型比較復(fù)雜的數(shù)據(jù)進(jìn)行改進(jìn),然后再對(duì)其參數(shù)進(jìn)行聚類。
簡(jiǎn)單來(lái)說(shuō),該方法就是支持度大于等于最小字支持度的結(jié)合,該挖掘方法是數(shù)據(jù)挖掘任務(wù)的關(guān)聯(lián)規(guī)則、相關(guān)性分析、因果關(guān)系以及序列項(xiàng)集或者周期性挖掘等基礎(chǔ),擁有廣泛的應(yīng)用前景,并且還可以用來(lái)發(fā)現(xiàn)目標(biāo)的空間活動(dòng)規(guī)律。
在人工智能的不斷發(fā)展下,情報(bào)分析的自動(dòng)化已經(jīng)成為必然趨勢(shì)。基于大數(shù)據(jù)的支撐使得情報(bào)分析取得了一定程度的突破,對(duì)于傳統(tǒng)情報(bào)分析的技術(shù)預(yù)測(cè)方面產(chǎn)生了重要的影響。因此,對(duì)智能情報(bào)分析的提升,不僅要提出技術(shù)方面的解決方案,還要結(jié)合實(shí)際需求建立起各種類型的情報(bào)研究任務(wù)的信息模型、分析模型以及問(wèn)題模型等[8]。
綜上所述,基于大數(shù)據(jù)的情報(bào)分析和數(shù)據(jù)挖掘在不同的領(lǐng)域中應(yīng)用,由于數(shù)據(jù)類型、數(shù)據(jù)特征以及需求等方面的不同所產(chǎn)生的差異,可以結(jié)合實(shí)際情況有針對(duì)性地開發(fā)可視化數(shù)據(jù)挖掘系統(tǒng)。而傳統(tǒng)的數(shù)據(jù)挖掘與數(shù)據(jù)分析方法在對(duì)情報(bào)分析上,已經(jīng)無(wú)法充分滿足當(dāng)前的需求。因此,本文針對(duì)該問(wèn)題,研究了基于大數(shù)據(jù)的情報(bào)分析和挖掘技術(shù)分析方法,為更加準(zhǔn)確地對(duì)目標(biāo)進(jìn)行身份識(shí)別、目標(biāo)活動(dòng)規(guī)律的把握以及對(duì)目標(biāo)的關(guān)聯(lián)因素進(jìn)行挖掘奠定了基礎(chǔ)。