(1.東南大學經濟管理學院 江蘇 南京 210000;2.東南大學經濟管理學院 江蘇 南京 210000)
城市服務業的合理選址可以有效滿足城市社區居民的多樣化需求,提高客戶對公司的滿意度。但是,由于社區居民位置分布廣,需求層次不同等因素,難以對目標服務群體進行劃分,使得城市服務業合理選址難以實現。近年來,學者們大多利用聚類分析來解決目標服務群體劃分問題。Everitt等(2011)認為聚類分析包括一系列將多元數據分類為子組的方法,可以幫助揭示任何結構或模式的特征。A.Joy Christy等(2018)為了細分客戶,提出對公司事務數據進行RFM分析,然后利用傳統的K均值和模糊C均值算法對事務數據進行聚類。而在當前大數據環境下,為了解決傳統聚類研究中耗時費力的數據采集問題,學者們開始利用數據挖掘技術從多種渠道獲取數據。徐曉宇等(2019)利用爬蟲技術獲取大眾點評平臺的北京地區數據,引入聚類算法對于餐飲業的地理聚集特征進行了分析。
本文以南京地區為研究對象,從互聯網平臺獲取了居民社區位置、房價信息等大量數據,通過改進的K-means算法對南京地區社區進行聚類,利用聚類結果對南京地區社區空間分布進行了分析。
本文以南京地區為研究對象,利用網絡爬蟲技術獲取安居客上的社區數據,包括社區名稱、經緯度、詳細地址、平均房價等屬性信息。數據獲取時間為2019年4月1-30日,原始數據共計2231個社區。首先對數據進行預處理,刪除了部分有問題的數據,確保數據的有效性。然后采用空間坐標轉換技術將其經緯度轉換為百度坐標,最終篩選出2165個小區用于本文研究。
當前,在處理較大數據對象時大多使用經典K-means聚類算法。因為其可伸縮性和有效性比較好,而且結構簡單易于實現。但是由于南京地區的社區數量多、空間分布復雜,而K-means算法容易受到簇數及初始聚類中心位置的影響。因此,為了使聚類結果更加合理,本文采用Bisecting K-means算法對社區數據進行處理。
Yu Zhuang等(2016)認為Bisecting K-means是對K-means算法在聚類質量和效率上的改進。其基本思想是:將所有點作為一個簇,將該簇一分為二,再選擇一個合適的簇劃分為兩個簇,不斷重復,直到簇的數目等于目標簇數k。相對于原始K-means算法相比,這種方法可以確保得到全局最優解。
本文使用輪廓系數來確定最佳k值,從圖1聚類簇數效果圖可以看出,聚類簇數在達到30個簇之后,輪廓系數的增量就很小,因此選擇簇數K值為30比較合理。利用Bisecting K-means算法對南京地區社區進行聚類,由圖2可以看出,聚類中心主要集中在鼓樓區、建鄴區、玄武區、棲霞區、雨花臺區、秦淮區及浦口區,呈圈層式分布,由主城區向外密集程度逐漸減弱。

圖1 聚類簇數效果圖

圖2 聚類結果圖
總體來看,南京地區社區整體分布不均衡,大多數聚類中心都處于南京的主城區附近,其他地區聚類中心較少且分散,同時沿交通線擴散。據官方統計資料,南京地區2018年鼓樓區常住人口密度為2.64萬人/km2;秦淮區常住人口密度為1.04萬人/km2;玄武區常住人口密度為0.63萬人/km2;而溧水區常住人口密度最小為0.04萬人/km2。將社區聚類中心的空間分布與每個城區的居民人口密度分布進行比較,發現兩者基本一致。主要差別在于浦口區的社區較密集而其人口密度較低,原因是其社區主要聚集在沿河地區,在空間分布上符合圍繞主城區進行布局的格局。
經統計發現,安居客上社區平均房價集中在3000~100000元區間內。社區的平均房價一定程度上能夠代表該社區的消費等級,本文將社區平均房價劃分為3個等級,代表社區居民消費的三個等級:社區平均房價45000元以上的為高消費等級社區;15000~45000元的為中消費等級社區;0~15000元的為低消費等級社區。社區平均房價熱力圖如下圖所示,顏色越深表示社區越聚集。高消費等級社區共計263個,如圖3-1所示。高消費等級社區主要聚集在河西地區。中消費等級社區共計1862家,由圖3-2可看出,中消費等級社區數量明顯增多,而且呈現圍繞主城區的分布特征。低消費等級社區共計209家,由圖3-3可看到,集聚地更多更分散,基本覆蓋南京地區所有行政區,且表現出了沿交通線擴展的集聚特征。

圖3-1 高消費等級社區

圖3-2 中消費等級社區

圖3-3 低消費等級社區
總體來看,不同消費等級社區的空間分布特征存在明顯差異。南京地區中低消費等級社區數量占總數的絕大部分,而高消費等級社區數量則較少,且多集中在河西地區附近。隨著等級降低,社區的集聚特性呈現出邊緣化分散的特點,且更易受交通便捷性的影響。
根據南京地區社區聚類中心和消費等級的空間分布可以將社區分為以下四種情況:(1)不僅密集而且消費等級高,以河西地區的社區為代表;(2)分布雖十分密集,但其消費等級卻并不高,以浦口和江寧副城區等地社區為代表;(3)消費等級高卻分布稀疏,以玄武區和秦淮區等地社區為代表;(4)消費等級低而且較為分散,以六合和高淳等地社區為代表。通過對比社區位置和區位特征,發現產生這種差異性主要是因為城市布局和居民個體屬性的影響。
河西地區是南京地區傳統的富人區,而且位于南京市城區的中心地區,靠近南京最繁華的商業區,導致大量的高收入人群聚集。所以,以河西地區社區為代表的社區表現出了高密度、高消費的特征。
江寧區、浦口區等地因為工業區而匯聚了大量的外來就業人口,而大量的外來就業人口導致了社區的聚集,房價處于中等水平,符合實際消費等級。所以,以浦口和江寧副城區等地社區為代表的社區表現出了高密度、低消費的特征。
主城東部以玄武區和秦淮區等地社區為代表,表現出低密度、高消費的屬性。其原因在于城東地區科研院所與高科技園區的布局。南京主城東部外圍的環鐘山風景區一帶的大片區域存在大量的高校和科研院所,而居住在周邊的居民大多是高收入高學歷人群。
以六合和高淳等地社區為代表,特征是低密度、低消費。因為其大多位于城中村地區或者偏遠郊區,經濟發展水平較低,居民收入不高。
本文通過數據挖掘技術獲取南京地區的社區信息,并通過Bisecting K-means聚類算法對其進行聚類。從其空間分布密集程度和消費等級方面對其蘊含的地理特征進行了分析。研究發現:
(1)南京地區社區呈現不均衡分布情況,聚類中心大多靠近主城區,其他地區聚類中心較少且分散,而且沿交通線擴展。同時,社區聚類中心空間分布受區域人口密度和交通便捷性影響很大。
(2)南京地區社區消費能力呈現出等級體系特征,其空間分布特點是:高消費等級社區少,主要在河西地區,城東地區分布較為稀疏,但都表現出小范圍內規模聚集。中低消費等級社區集聚區多且分散,并受交通便利性的影響。
(3)影響南京地區社區聚類中心和消費等級空間分布的因素主要是城市布局和居民個體屬性兩個方面。其中,城市布局是主要因素,而居民本身的屬性則是次要因素。