■ 楊禎
現代科技的不斷發展和進步也在一定程度上推動了軍事領域各項技術的進步,這在一定程度上加劇了戰爭的破壞性和突發性。而與之相對的,為了阻止突發性戰爭造成的巨大損失,對戰爭的預警和監測就變得非常重要,這使得現代軍事行業對情報獲取工作提出了更高的要求,不僅相比之前需要收集更多更復雜的情報信息,還需要進一步縮短情報獲取時間,使己方能夠在最短時間內獲得信息,做出應對策略。在這種情況下,單純的人工手段已經無法滿足軍事情報的獲取要求,因此,許多高端技術被陸續應用于情報獲取工作中,力求能夠在極短的時間內收集到準確有用的情報反饋給決策者。數據挖掘技術作為信息網絡中的前沿技術,將之運用情報信息獲取中對軍事情報領域的幫助是毋庸置疑的。因此,如何更好的將數據挖掘技術融入情報獲取中是值得思考和討論的問題。
數據挖掘概念的來源可以追溯到上世紀八十年代,數據發現和數據挖掘被第一次提出,而隨著近十年來科技的不斷發展和人工智能技術的日益成熟,數據挖掘技術逐漸被人們熟知并越來越受到重視。數據挖掘是數據庫知識發現技術的核心環節,主要是指從大量的隨機或不完整的雜亂信息和數據中提取出潛在有用或還未被發現明確價值的信息和數據的過程。通過數據挖掘可以發現隱含在數據中概念、規則、規律、模式等有用的知識。宏觀來說,數據挖掘就是指從龐大的數據庫、數據新聞或其他信息集中地的巨量數據中篩選出有用或潛在有用的信息和知識的過程。數據處理技術的發展過程中,數據挖掘必不可少,這是一種數據的高級處理和利用方式。因此,在軍事情報信息獲取中合理運用數據挖掘技術,能夠大幅度提高軍事情報的數量和正確性。
在當今時代下,數據存在的方法和形式都是多種多樣的,除了數據庫、數據集市這種專門用于儲存數據的結構,數據還會以文本、圖片、聲音、符號等各種隨機的形式存在。因此,數據挖掘技術不僅是簡單的從數據流中篩選摘取有效片段,還需要利用相關的工具和手段對其他非結構性的數據進行分析,研究其中是否存在有價值的數據信息,進而進行情報收集和傳遞工作。詳細來說,數據挖掘過程的基本過程主要有以下幾個步驟:
(1)定義問題
首先要在意識形態層面清楚的定義問題,這是數據挖掘的第一步,也是至關重要的一步,只有明確了數據挖掘的目的,才能更好更高效的進行數據挖掘工作。數據的結構多樣且存在著巨大的不確定性,但數據挖掘的目標和要解決的問題應該是有計劃的、可以預見的,特別是在軍事情報收集中,明確目的是數據挖掘成功的關鍵。
(2)數據準備
數據準備是數據挖掘正式開始之前最重要的步驟,這個準備過程包括數據集成、數據選擇和數據預處理三個部分。數據集成是指將多個數據庫或很多零散分布的數據進行集中整合,并在整合過程中篩除掉那些明顯無用或模糊的數據;數據選擇則是指對數據集合進行進一步的辨別和篩選,以便縮小數據挖掘的范圍,提高數據挖掘效率;而預處理主要是對數據進行一定程度的處理,使數據挖掘過程更加容易。
(3)讀入數據并建立模型
在確定好數據范圍之后,就要使用數據挖掘的工具來讀取數據,并且根據讀取到的數據建立一個數據模型,數據模型并沒有統一的結構標準,而是應該根據數據的特征和工具的不同而有所不同。
(4)挖掘操作
在模型建立成功之后,就要開始數據挖掘工作的核心步驟,搜索有用的數據和信息。信息搜索過程并不需要人工操作,而是可以利用數據挖掘工具由系統自動進行,可以提前在系統中設定搜索條件,以便更精確的找出目標數據。數據挖掘過程需要重復進行,并不斷調整挖掘條件以提高精度,避免遺漏關鍵信息,同時提高數據的質量和信息量。
(5)結果表達和解釋
在挖掘了數據之后,還需要對挖掘結果進行分析和解釋,將挖掘到的信息進行分類和聯系,整理出完整的邏輯鏈和信息鏈,這樣才能提交給決策者。
隨著科技的進步,數據挖掘的方法也越來越多,但總體來說根據任務的不同而劃分為兩種類型:描述和預測。描述是指對數據庫中的數據規律進行分析和總結,而預測則是在描述性數據挖掘的基礎上對數據進行更深層的研究和推斷,對數據的未來發展進行預測,從而提高決策的正確性。
(1)概念描述
概念描述主要是對數據的總體特征和規律進行描述和總結,在進行數據整合之后對不同的數據集合體進行整體分析,總結出概括性的規律,并對這些規律或特征進行簡明扼要的描述。使得其他人對該數據集合體有一個整體性的了解。概念描述分為特征性描述和區別性描述,顧名思義,一個是描述數據集合體的特征,另一個則是描述不同數據集合體之間的區別。
(2)關聯分析
數據關聯對于數據挖掘技術而言非常重要,這是挖掘有用數據的重要途徑。因此,關聯分析是最主要的數據挖掘方法之一,其目的主要是找出數據之間的隱藏關系,并且分析數據庫中的一些數據關聯規律,比如數據產生的時間順序或數據之間的因果關系等,這些關聯不僅可以提高數據獲取的準確度,還能幫助數據挖掘人員通過已知的信息推斷未知的信息。
(3)聚類分析
數據聚類是指根據數據的共同特征對數據進行分類聚合,并發現其中的主要規律和數據模式。聚類分析也是一種常見的數據挖掘方式,其主要是從宏觀角度分析數據的分布規律和數據之間的關系。現如今聚類分析已經發展得相對成熟,也形成了多種數據分類模型,比如決策樹模型、近鄰算法、線性回歸模型、神經網絡模型等等。
(4)孤立點挖掘
除了上述所說的數據分類和數據整合等,數據庫或其他數據流中通常都會存在很多無法被分類或沒有明顯特征的離散數據,這些數據往往并不能套進任何一種常見的數據模型中,因此這些數據也被叫做孤立點數據。這些孤立點數據雖然無法被分類,但并不代表其沒有分析價值,相反,很多孤立點數據中都隱藏著很多有用的信息和知識,比如數據中的反常實例等,因此,在數據挖掘時也有必要對孤立點進行挖掘和分析,在特定的情況下孤立點可能會起到至關重要的作用。
數據挖掘作為一種有效的信息收集和分析的技術,在軍事情報收集工作中能發揮出巨大的價值,起到良好的作用。因此,數據挖掘技術在軍事情報信息收集中能夠得到很好的應用。
在當下的軍事情報領域中,數據的主要存在形式是文本。因此,軍事情報的數據和普遍意義上的數據庫中的數據有很大不同,軍事情報領域中的數據通常都比較復雜,且沒有可以通用的數據模型。這主要是因為一個軍事文件中通常既包含可以進行模型分析的結構化數據,比如正常的時間、人名等,又包含大量的無結構數據,比如特殊符號、相反的觀點、暗語等等。軍事情報領域的數據挖掘技術必須要解決復雜數據的數據模型建立問題和數據整合分析的問題,總之,具體的數據挖掘方法必須貼合軍事情報信息的特點。
(1)數據預處理
在軍事情報數據挖掘過程中,要對數據進行必要的預處理。預處理的主要過程是先抽取出數據集合中的元數據,并去除數據中的多余格式標記等;然后篩選并去除文本數據中的廢詞、無用詞等,將文本中的數字進行合并,并且對其中的一些殘缺錯位或潛臺詞的詞句進行還原;第三步是對本文信息進行分詞處理,并在這個過程中標注一些詞語的詞性,以便更好的識別文本中的短語;然后還要對文本中出現次數較多的詞語進行詞頻統計。最后,應該對數據進行清洗,篩除掉一些垃圾數據以及干擾數據,確保信息能夠被流暢的分析解讀。通過這一系列的數據預處理,能夠篩除初始數據中的大部分無用特征詞,簡化數據分析的過程,提高數據挖掘的質量和效率。
(2)文本分類
如上文所說,軍事情報數據非常復雜,通常無法使用數據模型進行分析,因此,為了方便對其進行有效挖掘,需要在數據體中找一個分類函數對軍事文本進行分類。首先,要按照制定好的分類體系確定每個軍事文本的類別,使其能夠更加方便的被查找和閱讀。對于軍事情報而言,一個不同于其他數據的重要分類標準就是文本觀點的正反性,不同的軍事文件對于同一件事可能會有南轅北轍的觀點和意見,因此在數據挖掘過程中要密切關注這一特點,并以此為標準對情報數據進行分類。
(3)文本關聯
軍事情報的信息數據之間往往比其他數據之間存在更多的隱藏關聯,所以在軍事情報信息數據挖掘過程中要主要找出軍事文本之間的關系。在文本關聯方面,一種常見的算法是在不同文本中尋找同一對詞語,這種算法可以順藤摸瓜的找出很多隱藏信息,因為本質上,事物之間的關聯就是事件的同時出現或發生。文本關聯的數據挖掘方式可以將復雜的非結構性軍事信息數據轉換成簡單的結構化數據,比如省略軍事文本中的大量復雜信息,只抓取其中的關鍵詞進行數據搜索,先根據時間篩選出大量符合要求的數據,再將篩選出的數據進行拆分并逐一進行分析。根據對軍事文本的數據分析,將文本用適用的關鍵詞和實踐節點來表示。這樣,在提取軍事情報時,相關人員結合實際情況判斷文本的可信度,并對可能可信的軍事情報數據進行關鍵詞提取,大幅度提高軍事情報數據收集的效率,同時還可以大量、準確的清除干擾數據,提高情報的準確度。
軍事情報數據挖掘過程模型圖
軍事情報數據挖掘過程模型圖
軍事情報數據相比于其他類型的數據來說具有范圍廣、保密性高、內容復雜性高等特點。網絡科學技術的快速發展一再擴張軍事情報的信息收集范圍,而除了公開的情報收集渠道,比如網絡媒體、社交平臺、報紙書本等,還有很多隱秘性渠道,比如間諜、臥底等等,情報信息收集的難度相對較大,需要較為高端的數據挖掘技術。另一方面,軍事情報在任何時候都非常注重保密性,不僅要打探敵人的虛實,防止收集到的信息泄露,還要注意不能讓己方的情報收集程度泄露,也就是不能讓其他人知道己方是否已經掌握了某些信息。基于軍事情報收集的這幾個特點,建立軍事情報領域中獨特的數據挖掘過程模型,如圖所示:
在這個過程模型中,最重要的階段是數據的判斷推理篩選,這個階段需要完成數據挖掘的對象、數據挖掘的目標、預測數據挖掘可能達到的效果等,并且要制定好完整的數據挖掘方案。
數據理解環節主要是對數據的特征進行分析總結,并根據這些特征對軍事情報數據進行分類。利用適當的算法程序對軍事情報數據進行處理,并結合情報數據的具體情況建立合適的數據挖掘模型。在模型建立好之后,還要對模型進行整體評估,確定模型的合理性和準確性,這樣才能更好的分析數據挖掘的結果,保證挖掘工作的有效性。在數據挖掘完成之后,還要對挖掘出的軍事情報進行集合和梳理,最后輸出邏輯鏈完整、信息準確無誤的軍事情報。這就是軍事情報信息收集領域中數據挖掘的完整過程模型,目前這個模型已經相對完善,但在實際操作中,會因為具體情況的不同出現各種各樣的問題,因此在具體的數據挖掘過程中,要根據實際情況及時對挖掘方案進行調整,確保數據挖掘的質量,促進軍事決策的正確合理。
總之,數據挖掘作為一種高端技術,對海量數據的收集、篩選、分析、判斷都具有極大的價值。軍事情報和其他信息之間存在顯著的差異,信息爆炸和全球化趨勢也對軍事情報的收集造成了很多負面影響,而將數據挖掘技術用于軍事情報信息獲取領域中,能夠大大提高軍事情報的準確率和時效性。未來我國情報人員和相關技術人員應該更加緊密的合作,不斷推進數據挖掘技術的進步,促進其在軍事情報領域的不斷發展,進一步增強我國的軟實力。