劉華琛+白峰+繆濤+謝偉


摘要摘要:以2016年某月存量房交易數據為例,通過使用公共地理編碼服務,清理和規范化地址數據并獲得空間參照數據。以整理后的數據為基礎,利用R交互式編程環境,以核密度分析和六邊形分析兩種方法,對存量房交易數據進行空間點模式分析。結果表明,利用地理編碼服務獲取的數據能夠滿足空間分析需要;在R語言環境中可以方便快速地完成空間數據獲取、分析和展示的全過程,極大提高了空間分析效率;武漢市存量房交易密度大體上呈環線分布,漢口比武昌熱,漢口存在一個密集交易中心,武昌則呈現多點開花的態勢。
關鍵詞關鍵詞:地理編碼;R語言;空間分析;點模式分析;核密度分析
DOIDOI:10.11907/rjdk.162298
中圖分類號:TP391文獻標識碼:A文章編號文章編號:16727800(2017)001014403
引言
隨著城市土地供應和新建商品房供應的日趨減少,房地產市場重心將逐步由一級市場轉移到二、三級市場。但目前的房產市場分析局限于新建商品房市場,對存量房交易市場的研究未予以足夠重視。存量房交易市場分析研究滯后的原因在于交易數據地址信息不規范,缺乏相應的空間數據,無法在此基礎上開展空間分析。另外,市場分析的空間分析過度依賴于GIS系統的建設,導致技術和需求契合不足,造成分析工作滯后。
本文探索了利用公共地理編碼服務,完善存量房交易數據的空間信息;同時脫離GIS系統,利用R交互式編程環境,進行存量房交易熱點空間分布的點模式分析。這對于利用交易地址信息、快速整理數據、建立分析模型和交互式圖形具有較好的參照意義。同時,基于本文方法,可以進一步挖掘時空數據的變遷,并促進存量房、商品房等相關市場的關聯研究。
1數據獲取
數據分析的主要工作量來自于數據準備,即數據的選取、清理和整理,以滿足數據分析需要。
1.1地址數據來源
武漢市存量房交易合同打印是存量房交易的前置條件,房屋坐落數據是由交易雙方根據房屋產權證證載坐落進行填寫,其中可能出現少量填寫錯誤及文字編碼不規范的情況。為進行市場分析,保證樣本的隨機性和代表性,本文選取2016某一交易月的存量房交易全月成交數據共7 805條作為分析樣本。
1.2空間參照數據獲取
樣本數據只包含有地址信息,沒有包含空間分析所需要的空間參照坐標信息。本文利用公開的地址編碼服務,獲得和完善分析數據的空間參照數據。
1.2.1地址編碼
地址編碼(Geocoding)[1]是將地點的描述信息(地址或建筑物名稱)轉化地球表面位置(坐標)的過程。地址編碼分為正向地址編碼和反向地址編碼兩種。正向地址編碼是指從地址描述轉換成位置信息的過程,反向地址編碼則是從位置信息轉換成地址或建筑物名稱的過程。
用于描述地點的位置信息的準確度分為不同的級別,主要取決于查詢條件的準確和詳細程度。通常情況下會提供建筑物中心點、街道中心點、郵政編碼區域中心點坐標等不同準確度的查詢結果。
1.2.2高德地圖的地理編碼服務
由于地圖基礎數據較為詳實,API使用簡便,本文采用高德地圖提供的地址編碼服務作為空間數據完善的工具。以查詢雄楚大街199號的空間位置為例,調用高德地理編碼服務后得到的是json形式的響應報文,響應報文內容包括格式化地址即湖北省武漢市洪山區雄楚大街199號,地址所在省、市、區、城市編碼(電話區號)、區域編碼、平面坐標("114.339802,30.515439",以逗號分隔的字符串表示),精度級別[2](門牌號)等空間參照數據。
1.2.3利用R獲取空間數據
為了獲取7 805個交易樣本的空間參照數據,本文通過使用R的RCurl包程序化調用地理編碼服務,從而批量完成交易樣本數據的空間參照數據完善任務。程序包括以下步驟:①將地址數據規范化;②生成查詢URL,同時轉換為utf8編碼;③對API調用的結果進行解析,獲取平面坐標、精度信息和標準化地址。對7 805條樣本數據進行空間數據解析結果統計,地理編碼能達到門牌號、興趣點、交叉路口的樣本數據占總樣本的91%,足以支撐空間數據分析。
2空間點模式分析
2.1空間數據分類及點模式
空間數據通常分為3類[3]:①點參照數據(Point-Referenced Data),即有取樣點的空間位置是相對固定的,類似于氣象觀測站獲得的數據;②平面數據(Areal Data),即取樣點為有固定邊界的數據,如行政區數據;③點模式數據(Point Pattern Data),即取樣點不再是固定而是隨機的,存量房交易數據就屬于點模式數據。
點模式分析主要是研究特定事件隨機發生的地理位置關系,空間值域D是在某一特定區域內特定事件發生的點集合,其中事件發生的點是隨機的。在進行空間點模式分析時,通常是為了評價事件發生可能性的集簇(Cluster)[4]。由于事件點通常是隨機產生的,因此許多空間點模型關注計算的是在空間值域范圍內隨機點的可能密度。針對于存量房交易市場分析,空間點模式可以用于研究交易發生的熱度分度及不同類型交易的空間分布及可能性分析(Marked Point Pattern Process)。
2.2KDE核密度估算與展示
最簡單的空間點模式的模型是認為存在一個密度函數f(x)能夠將隨機點x的可能密度計算出來。假設一片區域(空間點的分布域),這片區域被分成細小的網格,每個網格都有各自的概率密度分布,那么指定區域的概率密度分布就是區域內包含網格的概率密度分布的總和。這種密度分布通常是未知的,基于特定地理形狀的,而不是常見高斯分布 [5]。
用于估算f(x)的常用技術是KDE(Kernel Density Estimates),KDE假定(x1,x2,…xn )是密度函數f(x)在某種分布下的獨立同分布的采樣。為了測算f(x)的形狀, KDE采用式(1):^fh(x)=1n∑ni=1Kh(x-xi)=1nh∑ni=1Kh(x-xih)(1)其中K(·)是核函數,h稱為帶寬(Bandwidth),是用于平滑的參數。在空間分析中,KDE的基本思路是有一系列的空間樣本點,以每個空間樣本點為核心,h為半徑,隨機生成n個樣本點,每個樣本點都以K作為概率密度分布函數,現有樣本點的概率密度分布就等于這n個樣本點概率密度的均值[6]。
因此,h的選取對KDE結果的影響很大。h選擇較小,分布就會產生多個峰值,h選擇較大,則分布就相對平滑。可以采用簡單的規則選取h,如式(2):hx=σx(23n)16(2) 式(2)是空間位置x的標準差。以存量房交易發生位置進行分析,圖1顯示不同h對KDE結果的影響。
如圖1(b)所示,從高平滑處理結果看,武漢市存量房成交的密度總體按照環線分布,內環尤其是漢口內環存量房成交最為密集。所有交易基本上在三環以內,交易密度從內環到外環逐層遞減。如圖1(a)所示,武漢市存量房交易在中心城區交易密集度可分為3個等級,交易最密集地區分布在以解放大道和香港路交匯為中心,北至江大路,南至中山大道友誼路交匯處,東至沿江大道和三陽路交匯處,西至建設大道和萬松園交匯處的區域漢口核心區域。交易密度較為密集的則集中在武昌南湖片、積玉橋片、徐東片。武昌光谷片、青山片區和漢口后湖片和漢陽王家灣片區緊接其后,屬于第三層級。存量房交易在新城區的分布則局限于新城區的城關鎮和陽邏、盤龍城、沌口開發區,但交易密度遠遠低于中心城區。
2.3六邊形分檔
六邊形分檔(Hexagonal Binning)是顯示空間數據分布的另一項有效工具。六邊形分檔的原理十分簡單[7],即用六角形的網格覆蓋觀察區域,然后計算每個網格中點的數量,最后將點數大于0的網格通過不同的顏色或大小按比例顯示。通過使用R的fMultivar包可以將全市存量房交易區域分為161個存在交易的六角形區域,其中交易最密集區域的月交易量達364個。通過標記圓大小顯示交易密集地區的地圖顯示如圖2所示。相對于圖1,其六角分檔更為簡單直接。
3結語
通過本文研究,可得出如下結論:由于空間數據缺乏,存量房交易研究一直局限于常規的統計分析;通過使用第三方公開的地理編碼服務,可以解決空間數據缺失的問題,從而實現有效的空間分析,尤其是點模式分析;利用R語言提供的各種分析包和工具可以脫離傳統的GIS工具快速進行空間分析和展示,加快和簡化分析過程;以武漢市為例,存量房交易的熱點區域仍然主要在中心城區內進行,尤其是在漢口中心區域;存量房交易空間的點模式分析,最直接的應用是幫助經紀行業更精確地確定網店分布。后續研究中,可建立新建商品房增加、城市拆遷和存量房交易之間的空間相關性,從而獲得存量房交易的空間發展趨勢。
參考文獻:
[1]DAVISC A,FONSECA F T.Assessing the certainty of locations produced by an address geocoding system[J].Geoinformatica,2007,11(1):103129.
[2]DANIEL TESKE.Geocoder accuracy ranking[J].Communications in Computer and Information Science,2014,500(1):161174.
[3]SUDIPTO BANERJEE,BRADLEY.Hierarchical modeling and analysis for spatial data[M].USA,CRC,2015.
[4]MARTA BLANGIARDO,MICHELA CAMELETTI.Spatial and spatiotemporal bayesian models with RINLA[M].United Kingdom:Wiley,2015.
[5]CHRIS BRUNSDON,LEX COMBER.An introduction to R for spatial analysis&mapping[M].United Kingdom:SAGE,2015.
[6]S J SHEATHER,M C JONES.A reliable databased bandwidth selection method for kernel density estimation[J].Journal of the Royal Statistical Society:Series B,1991(2):683690.
[7]NICHOLAS LEWINKOH.Hexagon binning:an overview [EB/OL].https://cran.rproject.org/web/packages/hexbin/vignettes/hexagon_binning.pdf.
責任編輯(責任編輯:孫娟)