巫細波
(廣州市社會科學院 廣東 廣州 510410)
隨著信息化、網絡化、智能化及物聯化的深入發展,各領域每時每刻都在產生大量數據,有別于傳統的數據,大數據具有5V(Volume、Velocity、Variety、Value、Veracity)特點[1],即數據量大、數據生成及處理速度快、數據類型多樣、價值密度較低、數據準確和可信賴。近年來,大數據已經引起了國內外學者的廣泛關注和研究,在邁爾-舍恩伯格和庫克耶合著的《“大數據”時代:生活、工作與思維方式的大變革》中指出大數據正在深刻改變經濟生活的各領域[2],這本論著掀起了國內外大數據研究熱潮并成為許多學科的熱點與主流[3][4][5],朱建平對大數據的分析理念進行了深入辨析[6],張慶熊(2015)、李天柱(2018)、周良發(2018)等學者則專門討論了大數據在人文社會科學領域的應用及發展趨勢[7][8][9][10]。隨著網絡地圖服務的快速興起和普及,POI 這種具有地理坐標度信息的數據逐漸成為一種社科研究的重要數據類型。POI 數據是人口、土地、經濟、社會等城市主要要素相互作用的綜合體現,集地理位置信息和功能分類信息于一體,與傳統數據相比較還具有規模大、覆蓋廣、類別多、易獲取、更新速度快等優點,越來越得到用戶認可和青睞,也日益引起研究人員的重視[11][12][13]。與傳統基于城市用地類型劃分的城市功能結構研究不同,通過POI 數據識別和分析復雜多變的城市功能空間結構可大量節省實地調研的時間,而且能夠從宏觀、中觀及微觀多種尺度對城市空間結構開展分析,使得研究結果也顯得更為精細。一般而言,一個城市的POI 數據類型多樣而且數量非常龐大,以廣州為例,根據從高德地圖抓取的POI 數據量達到128 萬條(數據抓取時間為2017年7 月份),常用的Excel、Access、Stata、SPSS 等軟件難以直接處理這么大量的數據,必須借助數據庫進行存儲和處理。對于大部分科研人員而言,免費而且功能足夠的強大的開源數據庫成為必然選擇,常用的開源數據軟件主要包括MySQL、PostgreSQL、SQLite 等,與商業數據庫相比還有一些差距(見表1)。本文以粵港澳大灣區的496 萬個POI 數據的存儲與分析處理為例,結合PostgreSQL開源數據庫探討社會科學大數據的處理與應用方法,同時采用空間核密度方法分析粵港澳大灣區城市空間結構現狀并總結其特征。

表1 主流數據庫優缺點對比
POI 數據。一種能夠代表真實地理實體的點狀數據,一般包含點要素的名稱、類別、經緯度、電話、所在省市以及地址等基本信息,POI中的坐標數據一般為WGS84 地理投影坐標,涉及距離、面積等空間統計分析需要將地理坐標轉換為地圖投影坐標。本文采用的POI 數據通過第三方網絡數據爬蟲工具從高德地圖開放平臺獲取,數據獲取時間為2017 年8 月。借助POI 數據之所以能夠對城市空間結構開展研究關鍵在于每個POI 都是城市物質空間中實際存在的一個點,大量POI 集聚分布在空間上形成連片區域,能夠反映城市功能空間布局特點,同時POI 數據還包括社會空間的各種屬性信息,而城市空間結構研究根據研究目的和對象的不同可以分為城市物質空間和城市社會空間的研究,因而借助POI 數據可以同時從物質空間和社會空間兩個維度研究城市空間結構的演化規律和各子系統的相互作用機制。高德地圖POI 原始數據共包含汽車銷售、餐飲服務購物服務、生活服務、體育休閑服務、醫療保健服務、住宿服務、風景名勝、商務住宅、政府機構及社會團體、科教文化服務、交通設施服務、金融保險服務、公司企業、道路附屬設施、地名地址信息、公共設施等23 大類數據類型,本文根據研究目標選取其中的19 類POI 數據展開分析,以粵港澳大灣區范圍內的廣州、深圳、香港、佛山、澳門、惠州、肇慶、江門、東莞、中山、珠海等11 個地區的POI 數據為研究對象,POI 數據總量接近500 萬條(具體見表2)。限于篇幅限制,本文只對所有POI 數據展開總體分析,不對7 大細分類型展開分析。

表2 粵港澳大灣區七類POI 數據情況
1.大數據分析方法
由于采用數量龐大的POI 數據對粵港澳大灣區城市空間結構展開分析,傳統基于Excel、TXT、CSV 等文件系統的數據處理和分析方法已不可能勝任,必須借助大數據分析方法。大數據是一類復雜且龐大的數據集合,傳統的基于文件系統的數據管理工具或者應用已經無法勝任其數據的處理工作,必須采用單機數據庫系統或者分布式網絡數據庫進行高效率存儲和數據傳輸,為各種數據分析提供強大的基本支撐。本文的POI 數據為500萬條級別,可以采用單機數據庫系統進行,本文采用PostgreSQL 數據庫系統(版本為10.4),作為免費而且功能強大的關系型數據庫系統,非常適合用于社科研究人員開展各類基于大型數據的科學研究。
2.空間核密度分析方法
一種將離散數據進行空間平滑處理形成連續分布密度圖的方法,能夠有效地分析出離散數據的空間分布特征和趨勢,其計算公式如下:

公式(1)中,(fx)為空間位置x 處的核密度計算函數;h 為距離衰減閾值,可以是固定值,也可以根據樣本進行計算或者是動態值,還可以根據點要素的屬性值進行加權計算;n 為與位置x 的距離小于或等于h 的要素點數(如果采用加權方法,此處n 則為要素屬性值的總數);k 函數則表示空間權重函數,一般是距離衰減函數。核密度計算公式的幾何意義為密度值在每個核心要素ci 處最大,并且在遠離ci 過程中不斷降低,直至與核心ci 的距離達到閾值h 時核密度值降為0。本文采用ArcGIS 軟件進行核密度計算,不采用加權處理,h值會根據樣本特征進行自動計算。核密度分析方法會產生柵格數據,為顯示不同區域POI 數據密度差異需要對柵格數據進行分組分級,本文主要采用Jenks 自然斷裂法進行分組統計并顯示。
大數據的分析主要涉及到數據管理和結構支撐、開發模型和評測、可視化和用戶接口、商業模型等幾個方面,分析流程一般包括數據源、數據管理、數據建模和數據結果分析及可視化(見圖1)。大數據分析過程中最耗時和耗力的環節就是數據的準備階段,因此分析大規模的數據時必須考慮到數據存儲、過濾、移植和檢索的效率。此外,選擇何種數據庫也是必須考慮的重要問題,主要考慮應用場景、數據量及存儲方式、多用戶管理和并發性等問題。總體而言,開源數據庫的功能也越來越強大,可以滿足絕大部分科研需求。以流行的開源數據庫為例,MySQL 易用性較強,主要應用于網絡應用;SQLite 則主要應用于數據較小、嵌入式終端而且不需要多用戶并發訪問數據的場景;PostgreSQL 支持完整的SQL 標準、社區活躍、更新持續而且對空間數據和空間計算支持較好,綜合而言非常適合社科人員使用,尤其適用于本文要處理的POI 數據。
1.數據導入
數據庫數據導入方式一般包括使用SQL 命令、數據庫API 編程及圖形化工具等三種方式,圖形化工具比較適合社科領域研究人員采用,如果數據不規整需要整理則采用編程方式比較合適。本文使用的POI 數據為CSV 格式,這種格式數據可以用PostgreSQL 內置的“copy”命令導入,效率高,適合熟悉SQL 語法的研究人員;還可以利用PostgreSQL 內置的pgAdmin 可視化工具導入,步驟簡單而且支持中文,適合大部分社科領域的研究人員,本文也采用這種方式。此外,還可以借助Navicat 等第三方數據庫管理工具導入,可視化操作更加方便,但一般第三方軟件需要付費。如果需要反復進行大規模的地理空間查詢和分析,可直接借助PostgreSQL 的空間擴展模塊PostGIS 將POI 數據中的地理坐標信息存儲為Geometry 數據類型。
2.數據分類及合并
由于POI 數據源于地圖導航領域,其分類方式需要根據研究目的對數據進行多次分類整理,在不刪除原數據的情況下可采用視圖方式對數據進行分類檢索。本文以分析粵港澳大灣區城市空間結構為例,因此根據商業、產業、生活居住、政務辦公、科教文化、休閑、交通等7 大類對POI 數據進行分類合并處理,如果需要數據交換還可以將分類合并后的每一類POI 保存為視圖也可以導出為CSV 格式數據,方便下一步分析。這里對不同區域不同類型POI 數據進行分類統計(見表3),每一次查詢都非常快,如果用以往基于文件系統的數據查詢方式,基本不可能實現。
3.數據分析
由于PostgreSQL 數據庫本身的空間統計與空間分析功能很弱,需要將POI 數據需要轉換才能夠為地理信息軟件處理(如ArcGIS、QGIS、MapGIS等地理信息軟件)。本文主要采用核密度方法,因此需要將POI 數據轉換為地圖投影坐標下的地理空間數據并用ArcGIS 進行核密度分析。
4.數據制圖
POI 數據可以通過多種地理信息軟件進行制圖,一般情況下地理制圖需要包括地圖內容及地圖附件(指北針、比例尺、圖例等)。本文采用核密度方法對POI 大數據進行分析,其結果為柵格類型的圖并結合粵港澳大灣區行政邊界矢量數據進行顯示,可以非常清晰地展示POI 數據的空間密度分布情況。
限于篇幅限制,本文僅對粵港澳大灣區地區所有類型的POI 進行總體核密度分析,研究探討粵港澳大灣區各城市空間結構的總體空間布局特征,不單獨對7 大細分類型POI 展開分析。總體上看,相對于基于傳統統計數據的方法,基于POI 大數據的分析能夠更加清晰準確地識別出粵港澳大灣區城市空間結構的網絡化、多中心及空間連片化特征。
總體上看,粵港澳大灣區絕大部分POI 分布于珠江兩岸,其中東岸POI 數量明顯大于西岸,外圍區域POI 數量較少而且集聚規模較小。從地區分布看,廣州和深圳兩地的POI 數量最多而且較為接近,占比均超過了20%,分別達到23.44%和21.39%。采用ArcGIS 軟件對粵港澳大灣區所有類型POI 進行核密度分析,結果顯示:廣州、深圳兩大城市主城區均形成了大規模的高密度集聚區,香港九龍、東莞莞城、佛山禪城則形成了次級高密度集聚區,惠州惠陽、珠海香洲、廣州花都及番禺、中山石岐、江門蓬江、肇慶端州等區域側形成更小規模的集聚區(見圖2)。
廣州、深圳、香港三大城市主城區是粵港澳大灣區城市空間的三大中心,各類城市功能POI均呈現高度集聚特征,對七類城市功能空間POI的數據分析均支持這一論斷,三大中心在不同領域具有比較優勢。其中,廣州在政務辦公、科教文化、商業、交通等方面占有數量優勢,是大灣區政治、文化、商業及交通功能空間的主要核心;深圳在產業、科技創新等城市功能空間占有相對優勢,成為大灣區新興信息技術產業及產業科技創新的核心引擎;香港則在國際化功能空間、高等級科研空間等方面具有相對優勢,是目前大灣區邁向全球化的重要窗口。
粵港澳大灣區城市空間以廣州、深圳、香港三大城市主城區為中心,借助完善的公路、鐵路、水運及航空立體化交通網絡,大灣區其他城市圍繞這三個中心周圍形成等級化、網絡化特征明顯的城市空間結構,整個大灣區城市空間結構主從關系明確,核心城市突出,居于主導地位。其中,佛山禪城、東莞莞城、珠海香洲、中山石岐、江門蓬江、肇慶端州、廣州花都及番禺等區域形成大灣區次級中心區。東莞虎門及長安、惠州惠東、博羅及惠東、佛山三水及高明、廣州從化及增城、肇慶四會及高要、中山小欖與古鎮、珠海斗門等區域則形成三級中心城市;大灣區外圍區域則圍繞縣域中心形成各類POI 小規模集聚區,成為大灣區城市網絡結構體系的重要節點城市,三大層次城市通過實體交通網絡與虛擬信息網絡形成體系層次分明、等級化、網絡化特征顯著的城市空間結構。
隨著珠三角城市一體化進程不斷深入發展,大灣區內部各城市之間的各類經濟活動與人員往來日益頻繁,各類城市功能空間POI 不但在各自城市行政邊界內部形成POI 連片高密度集聚區,也逐漸突破城市行政邊界制約,促使各類城市功能空間POI 在城市之間也逐漸形成了連片化高密度集聚區,這種高密度連片化特征在生活居住空間、交通空間及產業空間等方面顯得尤為明顯,如廣佛、深莞之間的居住空間POI 連片化特征非常明顯。
隨著物聯網及智能化時代的到來,社會科學領域的數據類型及數量快速增長,傳統基于文件型的數據存儲和處理方法已無法適用,常用的Excel、Access、Stata、SPSS 等軟件難以直接處理這么大量的數據,必須借助數據庫進行存儲和處理。對于大部分科研人員而言,免費而且功能足夠的強大的開源數據庫成為必然選擇。本文以粵港澳大灣區的496 萬個POI 數據的存儲與分析處理為例,結合PostgreSQL 開源數據庫探討社會科學大數據的處理與應用方法。通過研究發現:PostgreSQL 數據庫免費、易于適用、性能強大等特點使得非常易于社科研究人員使用,單機數據庫系統能夠輕松應付百萬級數據量;POI 大數據也將隨著網絡地圖服務的深入發展成為一種重要的社會科學研究數據;根據POI 大數據的空間核密度分析可以發現粵港澳大灣區城市空間呈現高度集聚、多中心、等級化及功能空間連片化特征。如果數據量進一步增加以及需要整合跨網絡數據源,基于單機數據庫的大數據處理方法則需要更新改進,必須借助基于云計算的大數據方法,這有待下一步的研究探討。