摘 要:邁入信息時代,大數據建設逐漸成為各領域研究的熱點。大數據建設層次的高低,直接關系到信息產業的發展。新形勢下,加快推大數據建設與發展,能夠助力各行業信息化建設的提高。本文主要從數據獲取、數據清洗、數據集成、數據歸約、數據變換等方面,重點提出作戰數據預處理的方法步驟,為作戰大數據建設發展提供支撐。
關鍵詞:數據預處理;數據清洗;數據歸約
1.數據獲取
在特定領域中,參與單位多元、參與行動多樣、協同關系復雜,數據需求種類繁多。如現場環境數據,主要包括:地形地貌、氣象水文、空氣質量、重力場、電磁環境、交通、建筑物、防御工程設施、網絡環境等[1]。傳感器、采集器以及相關部門提供的數據都需要系統地、有規律地進行整合。
1.1采集要求
(1)完整性:保證采集的數據信息不存在缺失現象,不完整的信息數據可能會使整個實例數據失效。(2)唯一性:每一個實例只能對應一條記錄,不允許出現兩個以上相同的實例。(3)一致性:不同的系統設備或者人員采集相同的實例應當是相同的信息,同一實例在不同系統中應當是相同的表達。(4)精準性:采集的數據信息能夠準確描述現實事件的特征。(5)時效性:數據在所需時間段內及時可用,如果數據過于陳舊,會使該數據分析獲得的結論失去參考價值。同時在作戰數據的采集時,還需要獲得上級領導的批準或者指示。
1.2采集方法
(1)日志采集:日志采集屬于對非結構化數據的采集,分為瀏覽器頁面日志采集和客戶端日志采集。①瀏覽器頁面日志采集:可以通過網絡爬蟲等方法對網頁信息進行獲取,將獲取的信息儲存為本地數據文件。②客戶端日志采集:通常是采用軟件開發工具包(SDK)用于APP等客戶端的數據采集,從事件的角度來采集數據,比如業務操作事件、點擊事件、登錄事件等。(2)數據源數據同步:根據同步的方式可分為直接數據源同步、生成數據文件同步、數據庫日志同步。①直接數據源同步:通過特定的接口,直接讀取目標數據庫的數據。②生成數據文件同步:將數據源系統生成的數據文件,通過文件系統同步到別的數據庫中。這種方式需要對文件進行適當加密和壓縮,可以提高數據效率和保證數據安全。③數據庫日志同步:數據庫日志文件記錄著數據庫所有數據的修改信息,防止意外情況導致數據庫出問題,可以通過數據庫日志進行數據恢復。因此可以通過這個數據庫日志文件來進行增量同步,從而獲得數據。
2.大數據預處理
2.1缺失值處理
(1)刪除法。此方法是最簡單、原始的方法,如果一條數據有缺失,直接將此有缺失的數據實例刪除以解決數據缺失的問題。
(2)插補法。作戰數據通常數據量龐大、屬性繁多,如果因為一個屬性數據的缺失而刪除一整條數據,會造成數據浪費。因此,利用一些方法把缺失的數據補上即可。常見的方法有:①均值插補:數據分為數值類型和非數值類型,當缺失值是數值類型時,將缺失這類屬性的其他所有值求平均,將平均值填入缺失的位置。當缺失值是非數值類型時,將這類屬性其他所有值求眾數,也就是將這類屬性中出現最頻繁的數據填入缺失的位置。②回歸插補:將缺少數據的屬性看作因變量,與其相關聯的其他屬性看作自變量,利用他們之間的關聯建立回歸模型進行預測,將預測的值填入缺失的位置。③極大似然估計:極大似然估計實際上是概率論在統計分析中的應用,通過已有的數據分布情況去推測缺失值。
2.2噪聲過濾
噪聲數據是真實存在的數據,但是存在誤差。隨機誤差產生的噪聲數據看起來是正常的,卻影響變量真值,所以噪聲數據也會影響最終數據分析結果,需要對其進行去噪。去噪的方法通常有回歸法,均值平滑法,離群點分析法及小波去噪法。
(1)回歸法:回歸法是利用一個函數或者回歸模型擬合數據,對數據進行光滑處理,利用回歸得到的數據值代替原來的噪聲值,從而避免了噪聲數據的干擾,但是必須要求大部分數據符合線性回歸的趨勢,才可以用此方法解決噪聲數據。通常可以先將數據可視化后,人為觀察數據的變化趨勢,如果符合線性回歸趨勢,則可用此方法去噪。
(2)均值平滑法:將具有序列特征的變量用臨近的若干數據均值來代替先前的噪聲數據。
(3)離群點分析:通常是運用某種算法,檢測出異常點,然后將其刪除。通常是采用聚類的算法,然后進行聚類分析,多組實例數據聚集為同類稱之為蔟,同一蔟的數據相似程度高,而離群點的數據實例會獨立出來,不屬于任何一個蔟,這個時候就刪除這些離群點,達到去噪的效果。
(4)小波法:小波去噪屬于音頻處理[2],具有較好的時頻特性。主要是用于對圖像或信號去噪。從數學角度分析,小波去噪本質是函數逼近問題,根據衡量標準找出對原信號的最佳逼近,區別原信號與噪聲信號,找到實際信號空間到小波函數空間的最佳映射,便于恢復最佳的原信號[3]。從信號學角度分析,小波去噪是信號濾波問題,雖然小波去噪很大程度上可看作低通濾波,但它優于傳統低通濾波的地方是去噪后還能保留信號特征。小波去噪可看作是特征提取和低通濾波功能的綜合,輸入帶噪信號后,經過特征提取與低通濾波可得到重建信號。
2.3重復值處理
重復的數據是相同信息的數據重復出現,形成重復數據實例,造成數據信息冗余,并且會造成該樣本在整體數據中占比提升,最終可能導致數據分析時出現偏差。通常情況下運用算法進行匹配,找出重復多余的數據進行刪除即可。
2.4數據集成
數據集成的一般方法:①聯邦數據庫:這是早期的一種通用方法,在這個數據庫中,數據源與數據源之間可以共享自己的一部分數據模式,從而形成一個聯邦模式,從數據集成的效果來看可以分為緊密藕合聯邦數據庫和松散藕合聯邦數據庫。緊密藕合集成度比較高,解決了數據集間的異構性,但是構建的全局數據模式擴展性差且算法復雜。松散藕合集成度低,沒有全局模式,但其數據集成的自治性好、動態性能好。②中間件集成:該集成方法同樣使用全局數據模式,其特點是不僅能夠集成結構化的數據信息,還可以集成半結構化或者非結構化數據信息。這種集成系統中包括中間件和包裝器,包裝器是對數據進行包裝(包裝器和一個特定的數據信息進行對應)。中間件就可以通過包裝器進行數據交流。操作者通過全局數據模式向中間件發出數據信息請求,中間件收到請求并處理。
2.5數據歸約
對于海量的數據信息,數據樣本實例太多,維度過高會引起數據超負荷,使得數據挖掘的算法不適用且運算量大,因此執行數據歸約是必要的。數據歸約的基本操作是刪除行列和減少列中值的數量。例如用一列的特征去表示兩列或多列的特征從而刪除列達到減少數據量的效果。數據維度歸約可以對海量的數據進行降維處理,主要是利用主成分分析和小波變換將原始的數據映射到較小的空間,從而降低數據大小但不降低數據特征質量,同時不降低數據分析結果質量。總之,數據歸約的目的就是對數據信息進行細化處理,盡可能壓縮數據,并且不降低數據分析結果的準確度。
結語:本文對特定領域用途大數據技術中數據預處理相關概念進行介紹,對處理的流程進行梳理,并詳細介紹每一個流程的作用和方法。通過數據清洗,可以刪除冗余數據,填補空缺數據,處理偏差數據,再通過數據集成,使得數據格式相同,表達相同,最后經過數據歸約和變換完成數據預處理。作戰所需的數據綜合性強,需要多部門、多領域合作,對作戰數據進行預處理可以更好地為指揮員及時掌握戰場態勢,高效科學決策提供數據支撐。
參考文獻:
[1]趙一凡,卞良,叢昕.數據清洗方法研究綜述[J].軟件導刊,2017,16(12):222-224.
作者簡介:
王曉品,男(1988-),漢族,云南省馬關縣人,畢業于國防科技大學,計算機科學與技術專業碩士研究生,現任武警河南省總隊綜合信息保障中心助理工程師。
(武警河南省總隊,河南 鄭州 450000)