摘要:在互聯網時代,依靠網絡、虛擬化、物聯網等大數據處理技術,帶來了地理信息提供方式的巨大變革。本文通過介紹以阿里巴巴的大數據分析公司為代表的移動定位大數據分析,深入探討了移動定位大數據分析和地理信息的結合方法,并著重探討了移動定位大數據分析的清晰擴樣、地域關系和旅行特征提取等新方法,并在此基礎上通過Leaflet、DataV、ECharts等開源方法,建立了一個面向大數據分析可視化技術的新架構,研究了成果在城市規劃、港區治理、動物疫病防治、森林消防等方面的具體應用方法與趨勢。
關鍵詞:互聯網大數據;動態位置信息;地理關聯;大數據可視化
引言
當前,中國地理信息產業正面臨著以互聯網、大數據技術為依托的數字化多業共存、融合發展新模式,以GIS信息技術擁抱互聯網也已形成潮流,并開始重建中國地理信息技術的全產業鏈條。N市為全省首個系統推進智慧城市建設工作的城市,發展中大數據基礎堅實、前景廣闊。近年來,N市人民政府也頻頻出招,積極推動互聯網落地。2016年10月,N市人民政府發布的《關于推進信息化發展的實施意見》中提出,到2020年將把N市打造成為國家級的城市信息化產業基礎。2016年底,N市政府與百度公司簽署了策略合作備忘錄,雙方確定將以國內首家試驗示范性的高標準共同建立百度云智N城市信息產業培訓基地。2020年5月,N市政府與阿里巴巴(中國)有限公司簽署了全方位合作框架性協議書,成立了N市阿里中心,雙方將在五大方面進行一系列協作,共同推動智慧城市、智能經濟與大數據領域的融合發展。
互聯網大數據是一個覆蓋面最廣、內容最豐富的大數據分析,涵蓋了所有人類群體的空間行為特點,可有效揭示都市人員活動的發展軌跡及其空間聚集情況;經過相應的空間可視化表達分析,可以直接表達都市中人口的空間分布情況,很好地克服了傳統靜態地理數據的限制,有著重大的科學探索價值與實際使用意義。
1. 數據源分析與處理
互聯網定位大數據分析的樣本量大、信息真實全面、采樣結果不會出現很明顯的傾向性,而且具備了很大的時間穩定性,可以監測到客戶出行的全部情況,是任何其他數據源都不能做到的。阿里巴巴是目前國內規模最大的網絡企業之一,掌握著80%的智能手機客戶,每天地址與路線數據信息請求量超過了千億級,通過在各種地點情況下進行的GPS確定、IP確定、基站確定、Wi-Fi確定等四類地址數據信息的篩選和配合,進行客戶定位數據信息的錄入與追蹤,并生成客戶地址軌跡信息;借助阿里系服務(如高德地圖、天貓、淘寶、餓了嗎等)以及高德地圖自有的人地關系數據分析,在各個層次對用戶線上行為信息進行記錄、排序、提取,并通過與客戶的ID進行聯系,生成客戶畫像數據分析。
我們采用了從阿里云特殊接口分析數據處理,并濾除客戶特征內容后的加密手機信號數據分析,但不會觸及個人隱私內容[1]。在開展研究期間,需對這些資料開展了格式轉換、清洗降噪等前期處理操作,并通過將電腦的定位數據映射到地域空間位置,可以全面、真實地復原手機用戶的出行鏈路徑,最后發掘得出人口空間分布與經濟活動特征等內容。
1.1 數據預處理
因為原有的網絡定位大數據分析都是以JSON形式保存的,日期、地點等都不能簡單地保存,且信息冗余率高,所以首先必須依照信息內容的分類設置數據字典,將大數據分析統一傳輸至Postgre SQL數據庫中。另外,因為受到了傳輸干擾、信號彈跳、偏移等問題,通過網絡收集的定位軌跡大數據分析會出現大量無效且出錯的信息,使得原有大數據分析無法準確地描述客戶的出行路徑,所以必須及時對原有數據分析加以處理,以確定并消除出錯或無效的信息。針對各種數據ID信息缺失的現象,通過利用對上下文信息的補滿,篩選出時間持續、但地址偏離卻較大的重要信息,并抽稀同一個空間位置所產生的大量密集點,以實現對網絡地址重大信息的規范、格式化或清洗入庫[2]。
1.2 地理空間關聯
網絡大數據的原始數據中除時間屬性高度有序外,其空間位置信息內容和空間語義信息內容均高度不規則,不能直觀完成出行統計分析,需通過地理空間關系,以完成大數據空間地圖的可視化展現。因此我們通過整合已有的計算機數據庫、地名地址表等要素向量資料,將網絡大數據分析的空間位置信息內容與地域網格(分為區縣、城鎮街巷、居民村、基層網格等各種行政區劃數據信息)通過多級綁定聯系,從而形成了文字信息內容與地理空間關系的索引字典,并基于時間戳對其完成了時間聚合,從而獲得了符合空間結構特征的客戶生活大數據分析日期排序;再以月、周、天、時辰、分等不同時間段為單元,按照各種統計的時間戳大小依次展開時間歸類,并以全國公安、政法等部門人員調查數據為母體,再按照樣品與母體之間的大小差異計算擴樣關系,從移動用戶群體中有效地擴樣至全國整個系統人員中(包含持電話人員與無電話人員);最后構造出帶有時限空間屬性的以時間點為單元的位置大數據集合。
1.3 出行特征提取
在地理空間聯系的基礎上,提煉交通特點,形成完善的交通鏈。出行鏈是指用戶在從出發點開始至終點的移動過程中,所經歷的空間位置序列。確定一個客戶的兩條旅行記錄是否屬于同一次出游行為,一般要求最小間隔長度和最小間隔時間兩個閾值。其具體過程如下:第一步,對客戶的出游軌跡根據時間序列進行排序;第二步,確定相鄰站點間的時間距離,若超過給定閾值范圍,則可確認為下一次的出行站點,并進入逗留站點預選序列;第三步,確定預選序列中所有相鄰站點雙方的時間距離,若超過時間間距閾值范圍,則標識為逗留站點,以此類推直到遍歷全部的數據集。經過對大量數據的檢驗后確定,如果相鄰地點間的距離閾值僅為5min,且相鄰間隔長度均小于10m,則認為這是一個完整的出行鏈,反之則視為有同一個人二次不同的外出活動情形[3]。
在出行鏈集的基礎上,可以通過對一個地區較長階段(1年)的人口活動狀況訓練確定夜間居所(home)和白天上班地(work),其方法是:在持續一年內對定位工具實時追蹤,如果有一個地點多次發現,且時間集中在9:00-19:00時,確認該地點為上班地;相反,如果時間集中在20:00以后,且整個周末時段都發生在這個地點上,則確認為上班居所,從而獲得完整的出行鏈數據。出行鏈接的每一條信息,都具有地理坐標、起點網絡編號、終點站網絡編號、路徑、時間區域、是否是為居所、是否是為上班地點等特征。
2. 大數據地理空間可視化
大數據的空間數據可視化是利用地圖和統計圖等方法對大數據進行圖像可視化表示,不但較好地解決了大信息的空間位置表示問題,同時可完成對大信息的分類利用,直接揭示了大信息的內涵意義。目前的海量空間數據可視化應用,一般主要采用了專門的GIS應用軟件平臺搭建、可視化函數庫開發工具構建和根據地圖應用軟件的二次定制使用。雖然上述手段已經在一定程度上提高了數據可視化應用的搭建效果,但仍然存在著很大的應用入口難度,且缺乏復用度,很難再次移植使用,對大量正交的大數據空間也缺乏動態關系表達[4]。面向互聯網大數據的地圖可視化開發與應用框架如下:
2.1 數據層
該層使用PostgreSQL的擴展插件PostGIS儲存了JSON數據庫格式的網絡信息,將網絡信息經過標準化處理之后,再引入PostGIS中實現數據信息的儲存和地理關系。
2.2 邏輯服務層
該層通過對Tomcat客戶端的Ge-oServer.war包完成對Ge-oServer的配置。Ge-oServer將新增的數據鏈接到PostGIS中,將PostGIS作為主數據庫完成服務開發工作。該層承擔信息的發送和分析等任務,在Web客戶端中,Tomcat客戶端層主要接受用戶在網站端的點擊或其他形式的操作事件,并將其所收到的請求事件與其自身作為特定服務器的地址匹配,在配對成功后再將請求事件轉發到GIS服務器Ge-oServer;在邏輯業務層中,Ge-oServer客戶端接受了Tomcat客戶端發出的請求后,對其需要的服務類型加以分析,從中獲取申請方需要的GIS類型信息,然后將其返回送到Tomcat客戶端,實現整個服務的申請流程。該階段使用Node.js實現前后端的隔離。
2.3 展示應用層
該層是地圖顯示界面,主要載體是網頁瀏覽器,也支援IE、Chrome、Firefox等主流網頁瀏覽器。實現以地圖為基礎的圖表與可視化元素的有效結合,并通過氣泡圖形、熱力圖、燈光圖形、動圖表、散點圖形、流場圖形、柱狀圖、餅圖、樹圖形等空間可視化方式呈現豐富的點、線、面等信息,形成了基于海量信息展示功能和開發應用的新型空間可視化地圖引擎,可整合當前絕大多數領域現有的空間可視化框架,支撐跨平臺跨終端信息展示,并提供支持自定義的配置功能、多維度信息的相互關聯以及秒級動態渲染功能,實現海量信息的動態連接與即時呈現,并支撐為各領域客戶迅速構建個性化的空間可視化體系。
2.4 前端表現層
構成該層的界面框架包括ECharts、DataV、UI框架等,其實現基本地圖操作的主要方式是引用Leaflet框架,并結合一系列插件將可視化功能變成可能。而這種運行路徑需要設計人員有較強的宏觀組織能力,將重復利用的代碼劃分成不同的模塊。基本操作包括地圖加載、標記、調整圖層、設置彈窗的位置與時間等,本質上是大數據套件的個性化展示。
3. 典型應用成果
目前,該框架已分別在城市空間規劃、智能碼頭區控制、森林火災保險預防、禽流感預防等方面開展了初步實踐,給政府部門帶來了基于大數據視角的決策依據,推動了城市交通的精細化、智能治理。
3.1 城市空間規劃
通過可視化框架,借助網絡大數據分析有效研究了N城市的人口空間分布現狀,并探索了各區域職住通勤狀況,對城市綜合開發政策的制訂以及對城市規劃的制定、評價,提出了更為合理、科學的技術框架[5]。該市居民活動變化能夠直接呈現出該市的熱力生活隨時間推移變動的現象,比較了各個時期的居民熱力活躍度;再整合周邊POI公用設施數據,可為N市空間規劃發展和質量升級提供依據。綜合統計各區域職住比、居民偏好距離、通學程度等信息,對各區域的居民偏好聯系做出了客觀判斷,直接體現出各區域發展的互動關系,將為地方的城市規劃建設奠定科學基礎[6]。
3.2 森林火險預警
通過可視化框架,以及移動位置大數據分析,實時監測山林火災事故多發期、高發點周邊的人員分布狀況和區域密度情況,對N市內歷史火災事故高發點、歷史風景區、墓區、游步道等重點部位或地區客流情況開展即時監測,并重點監視周末、十一、元旦、清明等法定節假日的客流狀況,進而做到對山林火災事故采取針對性的防控措施,為政府森林消防工作決策和社會管理決策提供了可靠依據[7]。
3.3 避免出現踩踏事件
在節假日等高人流量期間,通過居民流動行為大數據分析顯示城市內各密集地區,特別是非常住居民以及游客遷入N市的狀況,持續追蹤每日各地入N市人員的變化,幫助預測人員流動方向,為避免踩踏、精準施策提供輔助保障,促進健康教育等公共服務方面的常態化信息監控,增強城市居民對重大公眾突發事件的應對能力。
3.4 智慧港區管理
在可視化框架的幫助下,港區客流情況能夠始終處在動態位置大數據的監控之下,有關部門可以在工作日或節假日時間段進行分段控流,也能夠記錄歷史客流人數。這些數據都是港區制定后續發展計劃的重要依據,也是我國規劃公共服務計劃的基礎,還能夠用于應急指揮與旅游統計等。可以說,大數據的應用大大增強了港區智慧化管理的改革進程,為我國第三產業做出了重大貢獻。
3.5 交通網絡管理
可視化框架能夠與道路監控系統相結合,為我國交通網絡管理提供詳細的車流量與流向數據,這在提高我國交通安全系數的同時,也能夠為后續的交通網絡現代化改革提供關鍵數據。
結語
論文詳盡闡述了最新的大數據分析清洗擴樣、地理相關、生物特征提取等新技術,還提出和發展了以圖為基礎元素的大數據分析空間可視化技術框架,并介紹了該框架在城市規劃、森林消防、傳染病防治等諸多方面的應用示例。作為一種利用網絡大數據分析開展地理信息應用的實踐與探索,在應用技術以及對大數據分析的管理方面還有許多未完善之處,我們今后在研究上將進一步加強探索,爭取為其他同類大數據分析探索與應用提供借鑒。
參考文獻:
[1]吳秀蕓,王海江,梁寒冬.互聯網位置大數據空間可視化研究與應用[J].地理空間信息,2022,20(11):21-24.
[2]江平.基于大數據可視化激光測距城市空間三維圖像重構[J].激光雜志,2022,43(3):174-178.
[3]馬夢宇.大規模地理矢量數據交互式實時可視化分析技術研究[D].國防科技大學,2020.
[4]崔曉軍,高子航.基于GIS與云計算的溫州市農業大數據可視化平臺研究[J].電腦編程技巧與維護,2020(4):113-115.
[5]尹言軍,劉暉,葉琳,等.數據清洗和空間可視化在浮動車數據處理中的應用[J].地理空間信息,2019,17(5):116-119,6.
[6]王志敏.基于GIS云服務的云南省國土空間大數據可視化系統建設研究[J].地礦測繪,2018,34(3):12-16.
[7]周文濤.一種企業數據空間可視化匯聚流程建模方法與查詢優化策略[D].青島:山東科技大學,2010.
作者簡介:徐建軍,碩士研究生,講師,研究方向:地理信息、大數據。
基金項目:2021年江蘇高校哲學社會科學研究項目——基于社交媒體數據的網絡事件時空演化研究(編號:2021SJA2479)。