張 立
(深圳職業技術學院 人工智能學院,廣東 深圳 518055)
地理空間數據交換中心(以下簡稱“數據交換中心”)面臨最直接的挑戰是時空數據采集方式的變化,特別是互聯網技術的成熟以及智能手機的普及有力地促成了時空大數據服務體系的功能角色專業劃分態勢,時空數據的采集者可以不再是時空數據的保存者和運營服務者;時空數據的采集也不再需要全程的專業設備,對一些實景照片的分析也能實現對地理景物的識別,再結合眾多來源的新型時空大數據(如個體時空定位數據、網絡消費數據、社交應用網絡數據)并進行融合分析與深入挖掘即可滿足時空大數據服務的要求[1-2].
數據交換中心現有處理數據的方式難以應對時空數據多元化趨勢.傳統的時空數據主要包括基礎地理數據、臺站觀測數據、人文統計數據,多呈更新周期長、采集成本高、數據結構化程度高等特征.其中基礎地理數據通常是由專業的測繪部門來測量與采集,臺站觀測數據主要來自各部門和機構建立的觀測臺站,人文統計數據則主要包括土地普查、經濟統計、地質水文、城市交通等調查數據[3].這些數據的特點主要體現在專業化程度比較高,存儲形式也多為結構化數據,應用范圍主要集中在專業化的地理信息系統(GIS).與傳統的空間數據相比,時空大數據作為現實世界中的地理實體在信息世界中的多維度映射,其數量級已經逐步達到TB、PB級,例如個人位置信息的數據在2009年就已經達到了PB級[4].而這些海量時空數據產生方式也發生了很大變化,涵蓋了互聯網、物聯網、全球定位系統、智能移動設備、各類傳感器與攝像頭等眾多數據采集途徑.換句話說,其數據來源不再僅僅限于專業測繪設備,而且非專業測繪設備采集的數據量的占比也正在逐漸擴大.新型時空大數據的類別見表1.

表1 常用新型時空大數據的類別
時空大數據不僅在數量上增加,而且其外延也在擴大.人類生活中所產生的數據有80%和空間位置有關,目前我國衛星遙感數據已超過美國已達600PB,每個大城市的城市視頻數據量大約為3000~4000PB,超過600個城市擁有城市實景地圖[5],這些涉及現實地物或對象的照片和視頻都可被納入時空大數據的范疇,這些多源異構的數據沒有特定的結構形式,數據語義豐富,蘊含了大量可挖掘信息和巨大潛在價值.從感知對象角度,時空大數據可以劃分為感知地理環境的時空大數據與感知人類社會活動的時空大數據,前者依托于遙感云平臺發布的各類遙感數據服務與處理服務,而后者則依托于互聯網與物聯網技術、社交媒體平臺的發展,并正以驚人的速度快速增長[6].在數據體量上呈現出海量性、采集時間呈現出連續性、數據關系呈現出內在關聯性,這正是新型時空大數據的特征.
從應用前景來看,個體時空定位數據、網絡消費數據、社交應用網絡數據通過與遙感數據產品、電子地圖數據、智能交通數據、物聯網傳感數據等新型時空數據的組合疊加、融合分析、深入挖掘正為人們生產生活的方方面面提供高效的智慧服務,從而實現真正意義上的地理信息社會化應用.數據交換中心只有引入大數據技術,更新自身的處理思維模式才能應對時空數據多元化的變革.
大數據環境下的時空數據外延不斷擴大,單個部門或機構的數據或單個來源的數據也無法滿足時空大數據分析的需要,換言之,數據交換中心需要整合多源時空大數據才能提供時空大數據分析服務.例如,滿足一體化出行的智慧交通可能涉及到的時空大數據包括手機信令數據及其衍生的出行出發地點-目的地(OD)數據、興趣點(POI)數據、公交 IC卡/自動售檢票系統(AFC)數據、浮動車GPS數據、網約車訂單數據,這些數據來源不同,獲取方式也存在差異.其中手機信令數據主要用于合理推算城市人口分布情況、城市空間布局,興趣點(POI)數據可以用于分析得出目標區域的職業分布、出行分布等信息,實現更為精確的交通需求預測.公交IC卡/AFC數據、浮動車GPS數據、網約車訂單數據可通過分類計算與融合分析用于推算各交通方式的需求量以及運行現狀.為了提升城市智慧化程度,數據交換中心需要充分整合這些多源時空大數據,對居民出行需求的差異性、隨機性進行精細化剖析,在增加交通設施滿足交通流運行的基礎上實現通過動態調控交通網絡滿足一體化出行的需求[7].
數據交換中心面對的數據用戶也正在發生改變,時空數據的需求者不僅僅局限在測繪專業相關企業和部門,普通大眾都可以成為時空大數據服務的對象,最典型的時空數據應用案例是用于居民出行的車輛智能導航,出行者只要利用安裝在智能手機上的導航APP即可實現傻瓜式的實時道路導航服務.
隨著時空大數據正逐步取代傳統的靜態空間數據成為地理信息社會化應用的主要數據載體,時空數據服務模式正經歷著重組和變異.以車輛的運動軌跡分析為例,在過去往往是由應用開發商自行購買電子地圖(靜態地理空間數據),并自行編寫程序來根據車輛與地物的拓撲關系來解析車輛運動軌跡;而現在則可以直接向時空數據分析服務提供者購買車輛運動軌跡的數據分析服務,購買方得到的是一系列的API接口程序或軟件開發包,只要在自行開發的程序中調用這些API或解析時空大數據服務網站上下載得到的數據流即可實現特定的時空數據分析功能.換句話說傳統的數據服務主要是指提供時空數據本身,而大數據環境下的數據服務演變為提供數據分析服務的途徑或結果,形式可以是Web服務、API接口程序等等.
在傳統的數據服務體系中,數據交換中心主要有兩大職能,其一是地理空間元數據標準的制定,其二是構建空間數據的生產者、管理者及數據用戶之間溝通的網絡發布平臺.目前大數據環境下的時空數據服務需求與模式均發生了很大變化,時空數據的應用范圍也在不斷拓展,時空數據的潛在價值也有待于被不同領域不同行業進行更多的深入挖掘,這就要求作為時空大數據服務體系中核心成員的數據交換中心通過轉型與升級來適應這種新變化[8].
作為溝通載體的地理空間元數據,其收集、維護和發布在數據交換中心傳統意義上的職能中占有相當大的比重,這是因為其提供的數據服務模式主要是以地理空間元數據作為載體、為數據用戶提供方便查找適用于其應用的時空數據產品的途徑;而大數據環境下,數據交換中心的數據服務需要調整為一系列時空大數據分析服務或提供數據清洗后的時空大數據資源.
要實現這種時空數據服務新模式,數據交換中心需要自行建設以時空大數據分析資源池(以下簡稱“大數據資源池”)為核心的新體系架構,有針對性地購買、下載、提取多源時空大數據,并進行融合分析與深入挖掘以便對外提供通用時空大數據分析服務.當然數據交換中心還可以對已有的時空數據進行數據清洗,同時對外提供訪問這些時空大數據的接口.大數據時代的到來還意味著思維方式的變革,大數據時代的特征之一就是——不再是帶著問題找數據,而是根據數據來尋找和定義問題和需求.大數據資源池中保存的時空大數據可以催生各種新的數據分析需求,從而進一步提升基于時空大數據分析的智能服務質量.
如前所述,大數據環境下單個部門或機構的數據也無法滿足時空大數據分析的需要,分散在不同機構的數據都可能被作為時空大數據分析的素材.這也就促成了數據交換中心內數據存儲方案的變革.具體來說,地理空間元數據由于其數量以及特殊性仍然可以被集中地保存在數據交換中心的關系型數據庫中,這對于提供時空元數據查詢至關重要;而其他的時空大數據則由數據交換中心通過購買、商業合作等方式獲得,這些數據原本保存在云端(即分屬于不同機構的分布式存儲系統中),不可能也沒有必要全部歸屬于數據交換中心存儲與維護的范圍內.特別是新型時空大數據,例如網絡消費數據產生于諸如淘寶、京東、拼多多等網購平臺,智能交通數據則來源于智能公交、交通視頻監控等等,社交應用網絡數據存在于微信、微博、QQ等社交網絡平臺.這些新型時空大數據的獲取只能通過購買和合作兩種途徑,數據交換中心本身無法生成這些數據.
盡管時空大數據的來源、類型、獲取方法存在差異,但為了提供某些通用時空數據分析服務,提高時空數據分析的效率,數據交換中心需要通過構建大數據資源池來保存從云端時空大數據清洗后的結果,這些數據主要被用來作為數據交換中心進行時空數據分析與挖掘的素材,其中保存的時空數據格式和存儲方式都可以根據需要重新規劃和設計.這是因為云端分布式數據存儲方案通常不是針對某種時空數據分析需要的,它的目標旨在解決數據存儲的形式多樣化要求、數據存儲體量擴展要求、數據存儲速度與性能的要求.這種數據存儲方式并不一定適用于旨在實現各種通用時空大數據分析功能的大數據資源池.
大數據環境下,數據交換中心的轉型與升級的工作重點就是構建大數據資源池,其功能是以大數據資源池保存的數據為基礎對外提供一系列時空大數據分析服務,或提供數據分析二次開發組件和接口以便用戶自行定制面向個性化需求的時空大數據分析.大數據資源池的邏輯框架結構圖如圖1所示.

圖1 時空大數據分析資源池邏輯框架結構圖
根據數據交換中心服務目標的定位,構建大數據資源池的初衷是針對預測與規劃需求提供高效的時空大數據分析服務,其數據來源主要是外部數據,即第三方云端存儲的時空數據及其元數據,這些數據需要根據數據分析的需要來確定是否要載入大數據資源池.當然大數據資源池中也可以包含數據交換中心的內部數據,內部數據主要是指數據交換中心自行采集、下載、購買、加工的時空數據及其元數據.
在理想情況下由既定的時空大數據分析任務來確定需要哪些時空數據作為數據分析的素材和對象,但現實中數據交換中心因為數據歸屬、隱私限制、購買價格等因素并不能獲取所有想要的時空大數據.因此,在大數據資源池建設初期通常需要以現有能得到的時空數據為出發點,面向大數據資源池潛在的應用有針對性地進行時空數據合理的篩選,并通過數據清洗和挖掘逐步構建大數據資源池.
數據清洗對于有效縮減大數據資源池中臟數據規模、提高數據分析效率而言尤為重要,數據清洗的對象主要包括缺失值、重復值、異常值等.其中,重復值的處理主要包括去重(刪除數據值完全相同的多條數據記錄)、去除(刪除數據主體相同但匹配到的唯一屬性值不同的數據記錄).異常值的設置標準不同得出的判定結論也會大相徑庭,因此需要結合潛在大數據分析應用的特點來制定異常閾值.缺失值就是數據中由于缺少信息導致某個或者某些數據不是完整的,這對數據分析有一定的影響,但由于大數據資源池中時空數據樣本數量較大,所以缺失值可以被直接刪除或通過估算進行清理.
從數據存儲特性上劃分,大數據資源池的數據可以分為存儲在關系型數據庫中的結構化數據以及形式相對不固定的非結構化數據兩大類.從體量上來說,非結構化數據的體量更為龐大,它主要是城市視頻、實景地圖、地物圖片等數據.大數據資源池的數據除了從相關機構或部門獲取之外還可以通過軟感知的方式獲得,即通過網絡爬蟲、事件追蹤(俗稱“埋點”)等方式來生成相關數據,其數據生成方式以離線方式為主,其數據可用于對時效性要求不高的規劃類時空大數據分析與挖掘.
從數據生成方式來劃分,大數據資源池的數據可分為兩類:一類是經過數據清洗后的時空大數據,這一部分的數據是原始時空大數據的子集,另一類則是以前者為基礎經過數據篩選與分析處理后生成的新的時空大數據,這些數據都可以直接對外提供給數據用戶作為時空大數據分析挖掘的素材.大數據資源池的數據生成還需要對數據源進行認證,明確時空數據的歸屬,確定時空數據密級標準(通常包括對外公開、內部公開、秘密、機密、絕密等信息密級維度),制定數據質量方案,并在數據入庫后注冊完成元數據.
其中,對于數據質量的考量涉及以下幾個方面:數據完整性是數據質量最基礎的一項,例如地物編號不可為空,否則在數據入庫時在數據清理階段該數據記錄將被清除;數據的準確有效性是指真實、準確地記錄原始數據,減少非法值數據的存在;數據一致性主要體現在數據記錄是否反映現實事物或符合邏輯,例如同一編號對應的不同系統中的地物應該是同一個實體,哪怕在不同系統中地物表達的類型可能不同,這種情況是允許存在的,主要緣于分析任務的不同以及對地物或對象理解上的差異.另外,數據交付滯后的時間過長可能導致分析結論失去參考意義,這就對數據的及時性提出了要求,即只有滿足業務對信息獲取的時間要求的數據記錄和傳遞才是有意義的.
在時空大數據分析中,某些規劃或預測的分析推斷對數據精度要求不高,其需要的可能只是時空數據分析判斷的結論作為統計分析素材.例如對某路段的車輛擁堵的分析判定時,只要車輛位置在馬路中軸線擴展一定范圍內即可判定這輛車在該路段上,“車輛是否在該路段上”這個結論才是大數據分析所關心的內容.當然判定是否成為擁堵或標識擁堵程度還需要結合車輛在該路段的數量以及車輛移動速度的閾值等因素進行判斷.但無論如何設計判定規則,最終保存的判定結果可以變得很簡單(甚至可以是一個布爾量),這樣有利于提高大體量的時空數據分析和挖掘效率,畢竟基于時空大數據分析的規劃或預測需要考量的更多是統計意義上的族群分布或變化趨勢.
時空大數據分析過程中很大程度上需要對分析對象之間的拓撲關系進行分析和處理,大數據資源池的建設有相當一部分工作就是建立便于快速準確查詢的拓撲關系數據,這種拓撲關系的表達可以是對原始時空大數據的分析處理結果,它們將作為用于對其他時空大數據分析挖掘的素材.鑒于結構化數據查詢遍歷的效率,時空對象的拓撲關系在大數據資源池中可被保存在關系型數據庫中.
為了提高時空數據分析效率,對于時空數據中精確的坐標位置、對象間的拓撲關系也會做一些近似處理.例如公交車是否到站的判定主要依托表達公交車(點對象)與車站(可以是點對象也可以是面對象)的拓撲關系.具體來說,如果把車站作為點對象來考量,當作為點對象的公交車與同為點對象的車站的距離小于某個閾值即可判定公交車已經到站;而如果把車站作為面對象來考量,公交車需要進入面對象內部才能判定為公交車已經到站,此時可以把車站近似為其外切矩形的地物對象,并通過判別公交車坐標值是否進入這個近似的矩形范圍內來判定公交車是否到站.顯然這種近似往往是不精確的,但這種近似減少了精確計算所帶來的計算強度,同時因為時空數據分析往往依托拓撲關系聚類分析的結果(而不是研究對象之間的精確拓撲關系),所以個別的拓撲表達錯誤不會影響最終的數據分析和統計結論,特別在大體量的時空數據分析和挖掘中這種近似處理不會影響其分析結論和判斷.
另外,在大數據資源池的拓撲數據表中為了某種數據分析任務的需要往往會增加時間特征的字段.例如為商業區域(如購物城等)店鋪的合理規劃提供改進決策支持需要對客戶分析進行人群畫像,此時根據客戶(個人)的手機信令數據把客戶作為點對象被記錄下其移動的軌跡,商鋪作為靜態地物被視為面對象,除了判斷客戶是否進入某商鋪還要記錄客戶在其中停留的時長,因此在點與面對象拓撲關系表達與判斷的同時需要增加時間字段以便記錄客戶在該商鋪停留的時間長短.
大數據資源池保存的數據一般不會讓外部用戶直接訪問,外部用戶實際上是通過數據交換中心的時空大數據云服務平臺來間接訪問其數據的.時空大數據云服務平臺的建設目標是針對不同類型的用戶需求提供時空大數據的規范化訪問途徑,將各類數據分析或訪問服務整合成服務庫的形式,為客戶提供通用時空大數據服務的同時還提供大數據資源池的二次開發組件和接口.
具體來說,時空大數據云服務平臺依托云計算技術,根據用戶不同的需求提供不同種類的時空信息服務,由此構建服務庫以便基于大數據資源池中各類數據實現不同層次的時空數據分析服務與能力支持.云計算技術實現的基礎是將大量的服務器按統一邏輯架構組合在一起,由此才能提供針對大數據資源池中海量數據的計算與存儲[9-11].
時空大數據云服務平臺的構建旨在提供通用時空大數據服務,主要包括地名匹配服務、影像推送服務、通用空間分析服務等.其中,地名匹配服務主要是利用時空數據之間的關聯性實現空間定位與地物屬性的智能匹配與查找;影像推送服務則通過對衛星影像數據自動解析并按場景與區域范圍的變化推送分發到相應的程序或設備上;通用空間分析服務主要是利用高性能空間分析引擎實現空間對象坐標位置的計算、多源信息的疊加、聚類分析處理[12].
為了讓外部用戶更好地利用大數據資源池的時空大數據,數據交換中心還需要提供了多層次的二次開發組件和接口,以便用戶使用這些組件或接口完成個性化的時空大數據分析功能拓展,在形式上可以是利用軟件開發工具包(SDK)在現有的業務應用系統中開發訪問大數據資源池數據服務庫的功能模塊,也可以編寫個性化的時空大數據分析應用,即直接通過訪問接口 API讀取大數據資源池的時空大數據.大數據資源池相關的開發組件和接口通常包括基于瀏覽器的二次開發包與基于移動設備的二次開發包兩種類型,以滿足不同途徑、不同形式的訪問需要[12].
為進一步深入整合現有數據資源,國務院相繼印發了《促進大數據發展行動綱要(2015年8月)》、《政務資源共享管理暫行辦法(2016年9月)》,其目標就是解決“數據孤島”問題實現信息化資源大融合大共享,從而實現時空大數據的社會化應用.大數據環境下數據交換中心的轉型與升級就是順應實施大數據戰略、推進數據資源開放共享這一重大國家戰略方向.
數據交換中心在轉型升級過程中需要著眼于如何應對大數據環境下時空大數據的特點以及數據服務模式的變化,其核心內容是融合多源時空數據構建大數據資源池,并以此為基礎搭建時空大數據云服務平臺,對外提供個性化時空大數據分析與服務.在時空大數據服務體系中,數據交換中心只有運用大數據的解決方案和技術手段才能實現對大量的時空數據進行有效的利用、挖掘其內在的潛在信息和價值,以便提供適合大數據時代的時空數據服務支持,在社會管理與日常應用諸多領域中實現時空大數據本來應有的價值.