梁玉榮
(濟南市水文局,山東 濟南 250014)
“大數據”是一個體量特別大,數據類別也同樣大的數據集。并且這樣的數據集無法用傳統數據庫工具對其內容進行抓取、管理和處理。它的特點是:數據體量(volumes)大;數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富;數據處理速度(Velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理;數據真實性(Veracity)高,企業需要有效的信息之力以確保其真實性及安全性[1]。這種數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據技術可以分為:數據采集,數據存取,數據處理,統計分析,數據挖掘,模型預測以及最終的結果呈現。
GIS技術是指通過采集一定的信息,建構顯示地理信息系統的計算機數據庫。國家會通過GIS技術增強國民的安全感。而在大數據化時代,GIS技術的運用并沒有削弱,反而隨著信息化進程的加快,人們對于GIS技術的依賴性也隨之加強。
水文GIS技術即將GIS技術運用到水文測繪當中,整合相關信息,并做出預測。主要的表現為:對于海量水文數據的管理,對于空間數據挖掘以及地理可視化。
水文數據原有的大規模、傳輸塊、形態多樣化的特點會隨著GIS技術的數據管理存貯而帶來改變,之前信息數據中的非結構化數據會大量的呈現在人們的視線當中。隨著信息傳輸速度的加快,使用傳統的數據庫技術將無法適應社會的發展。NoSQL技術是水文GIS技術為了面臨大數據的帶來的挑戰而開發的新型技術,它可以與關系數據庫之間形成互補,并結合實際需求進行運用,共同發展。
空間數據挖掘的意義就在于挖掘深度的信息價值。數據信息挖掘其實就是運用數學分析方法,對數據的結構模式以及發展方向進行探究,在原有的數據基礎上建構一個空間,然后通過空間模型,挖掘空間之中以及空間之外的信息。信息挖掘不只限于特定模式下的具體性核算,而更多的研究重點從之前復雜整合轉換為抽取規則的方向,發現其中的普遍性規律,進行相關預測,為人們的生活帶來更大的便利。
地理可視化同樣也是水文GIS技術中的重要功能。數據信息進行可視化分析是非常先進的方式。全球頂級的GIS技術軟件公司進行了“城市瞭望臺”的項目研究。這個項目是通過當今世界現存的數據,建立具體化的信息模型,然后同步到世界城市信息的對比,比如交通、人口老齡化、就業趨勢、醫療狀況等等。綜合之后,人們可以很好地了解自身的生存環境,對于出現的問題,積極采取措施予以解決。在大數據發展快速的時代下,水文GIS技術已經轉變成為了一種可見的地理空間模型[2]。
頻繁的信息,爆炸的數據,對于GIS數據的采集、管理以及空間數據分析帶來了嚴峻的挑戰。在數據采集方面,傳統的方法是通過遙感、攝影測繪的相關測量手段進行采集,這種依賴于GPS等傳感器的方法獲取的數據信息有很高的精確度以及確定性,但是這種數據并不是滾動制的,而是一種靜態化的數據形式。隨著大數據時代的來臨,GIS技術的數據結構比傳統的數據信息都要復雜許多,因此對于數據采集方式提出了新的要求和新的標準。傳統的數據采集方式已經不適應信息的多變需要、數據采集及時準確性要求,無法實現信息的完美對接和對數據的真實程度以及價值進行仔細的甄別。這種標準是任何的個體無法單獨解決的,需要人類的集體智慧才能夠予以解決。
對于大數據的管理,其實不在于規模的大小,而是要及時準確,注重信息的動態性和靈活多變的特點。傳統的GIS技術是無法對大數據進行精確的描述。特別是對于這種含有大量非結構的數據,舊有的技術根本不具有處理這種信息的能力。隨著時間的變化,大數據庫中的信息也會越來越多,這種根據時間動態增加的數據,人們把它稱之為流數據,具有無限性。水文觀測數據就是典型流數據,因為信息的收集與時間變化息息相關。目前的GIS技術對于空間數據的管理依舊是停留在靜態的數據采集模式上,需要做出相應的改變與創新。
空間數據分析是大數據運用中不可或缺的環節。但是當前的大數據庫,很多并不是人們想要了解的信息。垃圾多、污染多、環節多是挖掘大數據價值不容忽視的問題,這些都會使數據喪失其準確性。因此,對傳統的空間分析理論以及方法帶來了嚴峻的挑戰。如果無法保證數據信息的真實可靠,那么只能說明這種信息是無用的。傳統的數據分析采用從樣本本身進行推測,無法解決這種問題。因此,如何將傳統數據分析方法與當代信息分析技術進行有機結合是當前水文GIS技術亟待解決的問題。
大數據對于人們影響的加深,在水文GIS技術運用上,需要采取相應的對策。下面從4個方面進行深入分析:
水文GIS技術的運用應當從自身的實際情況出發,制定相應的使用標準。一般而言,GIS的開發和運用大部分都是分開的。針對不同的具體需求,進行獨立的技術開發。因此,從整體來看,我國并沒有一套完整的技術規范系統以及應用標準。各種開放平臺以及數據格式的復雜給我國信息的共享帶來了巨大的阻力。雖然部分地方政府已經共享部分水文信息,但是仍然需要國家對這些信息進行統一處理。這樣無論是對于地方的水資源監控,還是國家的水利工程建設都會起到巨大的促進作用。因此需要盡快完善GIS技術的應用標準。
其實在大數據來臨之前,我國已經建立了相應的信息庫。但是面對復雜的社會環境,傳統的信息庫已經無法適應人們的需求。因此,作為GIS系統關鍵的水資源地理空間數據庫需要重新構建。隨著人們對于GIS數據庫要求越來越高,對于一些重要的水文信息數據庫,比如旱情檢測、水位線下降以及水質污染等方面,需要在極其規范的基礎上進行高標準的建設。另外,數據庫當中存有的信息應該及時更新,并且為決策者提供準確可靠的信息。
加強水文空間數據基礎設施建設,將基礎數據、管理數據、以及分析數據等等,實現資源信息之間的共享。我國的地理環境極其復雜,各種水文數據的覆蓋面是相當巨大的,所以水文中的各種專業數據需要有關人員及時進行分類,然后輸入數據庫中記錄。這些規模大的數據不僅為人們的管理帶來諸多不便,并且由于管理主體的獨立、結構不統一以及工作不協調等原因,嚴重的阻礙了數據的共享。
因此,利用大數據的優勢,對傳統的水文GIS系統實現轉型升級,實現非結構化空間數據庫的有效管理,建構三維一體的水文空間數據結構[3]非常必要。
水文數據分析關鍵在于解決好數據采集和模式分析過程中的計算問題。在現有信息技術以及組織體系的支持下,水文大數據分析應該根據實際應用的需求,進行相關處理。分布式的并行計算方式是解決這些問題的關鍵途徑。大數據的規模化特點削弱了精確復雜模型在數據分析中的作用,使人們逐漸擺脫了對于模型設想的依賴。其實小數據的復雜算法并沒有大數據的精簡算法有效,人們需要及時有效的信息,即使復雜算法下的信息分析比簡單算法方式更加精確,但是時效性才是人們最關鍵的需求。云計算方式是當前數據核算的發展方向,基于云計算的體系框架,利用大數據信息量大的特點,實現通過數據驅動的創新開發。并且深度挖掘潛在信息價值,提高人們的應變能力,這是大數據時代下衡量水文GIS技術是否“過硬”的關鍵。
信息技術在不斷的改變人們的生活方式以及思維方式。在大數據時代,雖然我國的水文GIS系統較為成熟,但是面對日新月異的社會環境,在大數據面前依然存在許多的不足。數據的采集、分析、管理中的空間信息抽取、存貯以及動態更新,發展明顯乏力。如何實現高效化的動態流數據管理,如何解決數據庫中的“垃圾”信息,如何凈化人們的數據儲存庫等一些問題都亟待人們研究解決。只有實現大數據時代下GIS技術的創新,我國的水文系統才會更加完善,國際地位也會顯著提高。