鐘磊
廣東邦鑫數據科技股份有限公司 廣東廣州 510310
大數據也被稱為巨量數據,是指數據規模較大、在短時間內無法進行人工截取和管理,需要通過計算機技術對數據進行處理,涵蓋大數據平臺和相關指數體系,是目前助力產業發展和城市建設的先進技術形式。現階段,大數據技術包括數據采集、預處理、挖掘和存儲等多方面內容,數據采集主要通過傳統的MySQL和Oracle等數據庫,對網絡數據進行識別與收集,目前由于數據技術的發展,通過開源Kettle和Talend,可實現對主流數據庫之間的同步與集成,使得非結構化或半結構化數據得到統一處理,達到對本地數據資源的采集與優化管理[1]。
海洋測繪數據種類繁多,不僅包括溫度、鹽度、深度等水文信息,也包含地址信息、生物信息以及遙感信息等,這些不同類型的數據有不同的特點,在對它們進行存儲和處理時需要考慮到它們的處理需求和存儲格式。在分析了海量的海洋測繪數據后可以發現,海洋測繪數據的特點如下:
(1)海量。在進行海洋測繪時會有大量的監測點,它們收集到的數據結構復雜,而且是動態變化的,這就決定了勢必會產生大量的測繪數據,僅僅使用本地存儲難以滿足海量數據的存儲需求。
(2)數據格式及結構存在差異。不同的測繪數據的記錄格式是不同的,存儲結構也隨之不同,造成測繪數據在存儲時并沒有一個統一的數據結構標準。已經收集到的海量海洋測繪數據包含了海洋、地址、水文等多方面工作人員的辛勞汗水,所以在收集到的數據的積累、存儲等方面需要慎重考慮,需要結合海洋測繪數據的特點提高存儲、處理的高效性和安全性;另外,還需要考慮海洋測繪數據的穩定性。海洋測繪數據的種類很多,比如海底地形數據、海岸帶航空遙感數據、海岸線測量數據等,不同種類的數據格式也存在很大的差異,這就需要對這些有差異的數據進行數據加工處理,形成標準統一的矢量數字海圖、航空攝影正射數字影像等。
對于采集到的海洋測繪數據,一般都會先保存在本地系統之中,然后在大數據技術的支持下,借助Hadoop所提供的API將采集到的有關數據上傳到HDFS文件系統中。對于測繪過程中所布置不同的測繪點而言,在大數據技術下能夠以一個統一的身份將采集到的海洋測繪數據傳送到HDFS文件系統中,并且能夠成功上傳到HDFS文件系統的數據一般都是以一種透明的組織形式存在的,即HDFS文件系統會與本地存儲系統擁有一個對應的位置,而采集到的海洋測繪數據會不間斷地傳送到這個位置上,同時會按照固定的時間間隔傳送到HDFS文件系統中。數據傳送到HDFS文件系統的過程如圖1所示。
圖1 數據傳送到HDFS文件系統的過程圖
經過一系列的過程將采集到的海洋測繪數據上傳到HDFS文件系統中后,就要面對存儲的大量的海洋測繪數據進行相應的數據挖掘分析,從而找到有價值并滿足相關需求的數據信息,而在這個過程中就會用到相應的數據挖掘工具。數據挖掘工具的管理層主要作用是用于海洋測繪數據和用戶之間進行信息交互的交互界面,相關用戶通過借助數據挖掘工具的管理層,就可以實現對采集到的海洋測繪數據進行上傳、下載或者瀏覽等操作,從而對數據進行有效的處理。數據挖掘工具的計算層通常會給用戶提供常用的數據挖掘分析算法,用戶通過使用相應的和數據挖掘分析算法,就可以對大量的海洋測繪數據進行相應的計算,從而得到自己需要的數據信息。而用戶通過數據挖掘工具的存儲層,可以借助HDFS文件系統對海洋測繪數據相關的文件進行很好的保存,并且在存儲大量的海洋測繪數據的同時,也能夠實現數據的冗余備份[2]。
通常在進行數據挖掘的時候,Hadoop分布式計算平臺中的HDFS分布式文件系統內,并沒有與之相關的文件,這個時候就需要將海洋測繪數據上傳到HDFS文件系統中。在對大量的海洋測繪數據進行相應的數據挖掘后,就會得到相應的中間文件和結果文件,這兩種文件也都是保存在HDFS文件系統中,如果用戶想要在本地對這些文件進行訪問來獲取相應的信息,就需要再將這些文件下載到本地的文件系統中,然后進行相應的查詢。
由于我國的海洋面積遼闊,在進行海洋測繪的過程中就會出現種類繁多并且復雜的數據,海量的海洋測繪數據在存儲方面也是值得重點關注的問題,而在當今計算機信息技術和物聯網技術快速發展的背景下,大數據技術已經普遍的應用于社會中的多個領域,在數據的處理方面表現出強大的能力。