(云南財經大學 云南 昆明 650000)
數據清洗是數據挖掘的第一步,其質量結果直接關系到模型效果和最終結論。流數據清洗的任務是為了解決流數據中的“臟數據”:噪聲數據和重復值[8]、缺失值[9]和異常值[10]。清洗流數據一般采用以下幾種方法:基于規則約束的流數據清洗[1]、基于統計方法的流數據清洗[2]和基于統計的數據清洗方法[3]。
現如今在流數據清洗方面還是存在一定的不足:沒有考慮到清洗后的數據保存問題,清洗后的流數據體積任然較大且保存代價較高;清洗完的數據沒有附著語義信息,在用戶的角度來看依舊是復雜的。在這樣的情況下,對流數據清洗進行研究是必要的,在壓縮數據體積的同時保證數據的質量、清洗完的數據附帶了語義信息能提高數據挖掘算法的效率,這是有意義也是有價值的。國內外針對數據清洗的相關文獻并不是很多,針對流數據清洗的文獻更是少之又少。普遍都是一份數據對應一種清洗方法,沒有適用于某一類或者某幾類數據的清洗方法。本研究提出的方法,是將軌跡研究中提取停點和移動的方法用于流數據的清洗上,幫助修復異常值、補充缺失值和剔除冗余值,從而達到數據清洗的目的;清洗完的數據具備了語義信息,初步的行為動態分析不需要依賴數據挖掘算法。該方法可適用于多種數據,可以為日后的相關研究提供一些參考。
在實際應用中壓縮數據的體積有利于降低數據保存的成本,并且在此基礎上盡可能的保證信息的完整,有利于實現多次訪問、挖掘數據,從而提煉出更多的有用價值。更好的進行缺失值估計、異常值修復在一些對數據完整性要求很高的應用中是極其重要的[7],為此進行流數據清洗方法的研究也是必要的。數據清洗是數據挖掘的第一步,為更好的幫助用戶運用這些數據,以一種更直觀的形式展現的數據會有助于用戶的理解。擬提出的方法在上述應用層面會有一個良好的效果,為后續數據挖掘奠定基礎。
軌跡數據和地理數據在空間上是重疊的,為準確的分析軌跡數據,使其更直觀明了,通常會從地理信息中抽取出相對應的語義信息進行附著。Brakatsoulas S等人指出軌跡數據的分析包括空間,非空間和軌跡數據的整合。其中整合與具體的應用場景是相結合的,需提前指定與軌跡分析相關的空間特征類型(例如,旅館,旅游地點)[4]。Alvares L O等指出一些軌跡數據分析研究存在的問題便是缺乏語義信息的分析,為獲得更多有價值的信息需要依靠更復雜的查詢,如數據挖掘算法[5]。但在現實情況中,數據中的移動行為等問題需要通過結合軌跡和它們的語義信息來回答。Bogorny V等向我們展示了在不添加語義信息和添加語義信息兩種情況下同一個查詢的結果。實驗表明在沒有語義的軌跡中,軌跡與相關地理信息對象的關系需要進行多次的重復計算,效率較低[6]。而添加了抽取到的語義信息的軌跡在可視化圖表中可清晰看出客戶的行為動態,無需再次查找計算。
研究提出一種新的使用于軌跡流數據的清洗方法以達到以下幾點要求:
1.有效壓縮清洗后的數據體積,降低數據保存成本。
2.清洗完成的數據需附帶語義信息,可初步直觀明了的看出軌跡動態及數據熱點。
3.以上兩點皆可以以圖表的形式展現出來該方法的優勢性和實用性。
現有研究并不能完全做到及時抓取流數據的有效信息,為降低數據保存的成本,本研究采用一種具有壓縮效果的方法,實驗于真實的商場室內軌跡流數據集,可有效減少數據體積并且在一定程度上保護了有效數據不被丟失,可有效保存數據。
數據清洗是對數據進行重新審查和校驗的過程,其任務是過濾那些不符合要求的數據。在本研究所用的商場軌跡流數據中,用戶的停留等行為會使得采集到的數據存在噪聲和重復值。本研究提出一種數據清洗方法,用于將軌跡數據和與應用相關的地理信息進行整合,從而去除噪聲及重復值。
缺失值估計在一些對數據完整性要求很高的應用中是極其重要的。然而,當前缺失值填充的算法主要針對整體修復,不適用于流數據,或者針對某領域數據無法推廣使用,且計算復雜性過高。目前尚無較好的適用于流數據的缺失值填充算法提出。據此本研究擬設計適用于流數據的缺失值填充及異常值修復的算法。
語義信息提取是對軌跡進行一種語義補充,它表明原始軌跡可以進一步的被劃分為語義片段,每個語義片段由它的開始時刻和結束時刻以及標識這個片段的定義標識值所表示。本研究所用到的語義,表示了地理空間特征類型(如超市,酒店,旅游景點等),區別于傳統的流數據清洗方式,擬提出了一種流數據清洗方法,用于向數據添加語義信息,以便于在應用領域中可以更直觀的進行數據分析,幫助理解數據。
1.使用合適的圖像識別算法來識別商場地圖像素,將每個商店覆蓋的所有像素點放到各自的集合里。
2.針對輸入的軌跡流數據,使用SMOT算法提取停點和移動。
停點:候選停點C定義為表示閉合的多邊形,它是真實平面中各地理坐標的投影,是最小持續時間,是正實數。
移動:在T的兩個停點之間的最大連續子軌跡;在T的起點和T的第一個停點之間的最大連續子軌跡;T的最后一個停點與終點之間的最大連續子軌跡T;如果T沒有停點,那就是軌跡T本身;這四種情形被定義為移動。
SMOT算法思想:驗證軌跡T的每個點是否與的幾何形狀相交。在肯定的情況下,查看交叉的持續時間是否大于等于給定的閾值。如果滿足上述條件,則將相交的候選停點視為停點,并記錄該停點。
3.判斷提取的停點和移動是否屬于某商店像素點集合,如果是,則判斷該停點和移動在這個商店里。并依據已經確定的停點和移動刪除噪點和重復點、修復異常值以及填補缺失值。
4.為清洗完成的數據附上語義信息,得到語義軌跡數據集。用其他的清洗方法對實驗數據進行清洗,比較驗證算法的性能優勢。
流數據有一個十分明顯的特點,那就是體積過于龐大。受存儲空間的限制,流數據在產生后必須及時有效的對信息進行抓取,避免有效信息的丟失。但現有研究并不能完全做到及時抓取有效信息,為降低數據保存的成本,本文采用了一種具有壓縮效果的方法,可有效減少數據體積并且在一定程度上保護了有效數據不被丟失,可有效保存數據。經過實驗證明使用本文提出的方法清洗數據得到了較好的實驗結果,數據體積成功壓縮且有價值的數據也被成功的保存下來,附著語義信息的數據可以被直觀明了的表現出來。但是由于流數據的特殊性質,在方法效率上本文提出的方法還有著很大的不足。該方法運行時間較長且對存儲空間也有一定的要求,今后工作的方向將著力于此不足之處。