趙根 閆亮
重慶市規劃和自然資源信息中心 重慶 400015
傳統的數據管理與分析技術通常以結構化數據為管理對象,利用集中化軟硬件架構或計算存儲設施設備處理和分析小規模數據集,計算、存儲、分析成本較高,大數據的數據分析技術通過分布式架構數據處理及管理方式,對于多源異構數據(結構化數據、圖片、影像、文檔資料等)、大規模數據集(PB量級)等無論是數據類型還是數據量方面的處理,其效率有著指數級提升。大數據分析以數據全體或總體為分析對象,數據是核心和關鍵,聚焦于分析數據的屬性、特征、聯系和規律[1]。本文所指房地產市場監測分析是對重慶市主城區城鎮土地上的商品房從規劃建設、預售許可、上市交易、可售存量、抵押貸款、轉移登記、二手房交易等全生命周期的動態數據,同時采集經濟政策、房產市場調控政策及部分開發企業、中介機構等數據。所以利用大數據技術對長時間、全域性、多種類數據進行處理和分析,對決策支持和政策制定研究具有重大意義。
本文以重慶市主城區2010年以來的房地產市場交易數據為研究對象,選取2010—2019年的年度及月度市場交易、檔案、宏觀調控政策等數據,利用大數據挖掘、關聯分析等技術,結合房地產市場監測分析方法,構建全面、合理的重慶市房地產市場分析指標體系,對重慶市房地產市場進行客觀分析和系統研究,為進一步全面實現基于大數據分析的重慶市房地產市場監測、分析等決策支持系統提供支撐和示范。
近年來,重慶市積極發揮中國西部橋頭堡引領作用,圍繞習近平總書記對重慶提出的營造良好政治生態,堅持“兩點”定位、“兩地”“兩高”目標,發揮“三個作用”和推動成渝地區雙城經濟圈建設等重要指示要求,重慶經濟飛速發展、城市建設大大加快,房地產市場也發展迅速。近十年全國房地產市場發展熱潮的影響,以及重慶市本身城市特點和建設的統籌規劃,對于重慶市房地產市場發展的規律和后期趨勢變化有著緊密的關系。因此,對重慶市房地產市場的發展情況進行數據分析,對城市重點及熱點區域進行監測和趨勢判斷,這對于領導決策城市規劃建設及調整和指導房地產市場健康、有序、穩定發展具有重大意義。分析過程中所需要加工處理的各類業務數據、交易數據、檔案數據,以及宏觀經濟、社會、政策數據等急劇增加[2],截止到2020年12月,重慶市主城區各不動產登記中心所辦理的交易、登記數據達到1.2PB。
當前房產業務數據存在數據量巨大、含有大量非結構化數據、實時動態變化等顯著特點,傳統的建立在關系型數據庫或數據倉庫基礎上的分析方式已不能支撐動態、智能化的決策分析需求,其不足之處主要體現在以下幾個方面[3]:
(1)對非結構化數據支持有限,不能利用所有可能的有效數據源,使得分析結果存在片面性;
(2)傳統的數據存儲和處理方式決定了其難以應對海量數據的讀寫和計算要求,其管理方式存在局限性;
(3)由于對海量數據處理能力較差,在做數據分析時,通常采用的方式是抽取一定樣本進行有監督的數據分析,這使得分析結果的準確性很大程度依賴樣本的合理性和準確度,存在不確定性。
房地產市場作為重要的經濟市場之一,其在規模上、流程上、層次上和結構上都具有相當的復雜度。從流程上講,有土地供應、開發建設、上市交易、轉移登記、可售管控、二手房交易等環節[4],其他各種類型數據還有以下幾種:
(1)基礎屬性數據。房屋作為市場中的基本數據單元,也是市場的交易客體。基本屬性數據包括:位置坐落、價格朝向、建筑信息、商業自住、房屋類型、周邊配套、附加設施、周界規劃信息等。
(2)市場交易數據。交易活動數據作為房產市場重要數據組成部分,其數據類型包括預售上市價格(一戶一價)、商品房及存量房交易數據(交易時間、成交量、抵押、轉移登記等動態數據),其中根據現房或期房,又需要進一步收集網簽數據或金融機構解抵押數據等。
(3)宏觀數據。房地產市場作為重大民生保障經濟市場之一,涉及點多面廣,政府部門涉及發改、規劃、國土、住建、交通、市政、水務、電力等多個部門,又同時和經濟政策、國家或城市房產調控政策等息息相關。
本文通過研究大數據關鍵技術,通過分析、比較,選擇符合實際需求的成熟模型,挖掘房地產市場各因子之間的潛在關系,以此為突破口研究大數據技術在房地產市場分析與預測中的應用,包括數據的收集存儲、建模及預處理、分布式數據管理、數據分析與挖掘、展現和應用等多個方面。系統的整體架構如圖1所示。

圖1 房地產大數據分析整體架構圖
房地產交易大數據的采集和預處理是將業務數據進行有選擇的篩選和清洗后采集到大數據平臺中,并針對實際的需求進行相應的預處理,這是進行數據分析和預測的前提[5]。
房地產交易大數據的分析與挖掘,在現有成熟模型、算法的分析比較大數據應用中,最關鍵的是分析手段與數據挖掘技術的利用,通過需求分析,確定研究對象,選擇合適的成熟算法和模型,從而挖掘房屋購買需求、房屋價格、購房者分類、行業政策、宏觀經濟指數等之間的潛在關系,為決策提供支持[6]。
(1)建模。以房產市場分析管理為核心,以“圖-房-人-金-檔”為主線,分析客體(房)、主體(人)、載體的關系,建立房產業務時空模型[7],該模型構建計(規)劃、立項、建設、交易、使用、征收的房屋全生命周期,圍繞商品房項目、政策性項目(房源)分析房屋業務及數據;分析權利主體、從業主體以及管理主體三者之間的關系,實現人(自然人和法人)的管理,同時通過房屋的各類交易,建立人與房的緊密聯系;在交易和管理過程中形成了各種載體,即房產檔案;在交易的過程中又產生了資金、稅費以及各類房屋價格的管理。最終,房屋交易和管理的一切活動,全部基于地圖進行時空的展示、管理和分析,如圖2所示。

圖2 房產業務時空數據模型圖
(2)數據清洗。數據清洗是將不規范的數據篩除掉或修正,主要發生的原因來源于系統錯誤或人為錯誤等環境,如系統出現錯誤字符、關聯數據錯誤、識別錯誤等,人為錯誤包含交易登記各環節中的漏簽、錯簽、空簽及其他錯誤等。小部分數據在不影響分析的情況下可以篩除,但是錯誤信息可以同步反饋給各部門進行修正。
(3)數據轉換
數據轉換主要是轉換數據的類型、粒度以及計算規則[8],主要原因是在市場發展過程中,市場交易規則一直處于相應變化中,各區域對于市場規則的制定和統一過程存在一定的差異,如交易價格(建筑面積、使用面積)、房屋類型(別墅有獨棟、聯排、疊拼,洋房有高層洋房、花園洋房、底層洋房等),統計口徑也存在粒度、周期、類型、規則等各種計算差異性。數據轉換即是根據統一的計算規則、統一的統計指標進行各類數據的轉換。
為了更加直觀地研究全市房地產市場變化趨勢,尤其是重點區域的變化前后對比情況,如“沿輕軌線”“兩江四岸”“環內環線”等,從地理位置、城市發展的不同角度對房產交易數據進行分析,對上述區域建造了數據模型,通過歷年來的數據可以展示相關地域的房產上市和交易隨著時空變化而產生的不同。
如圖3左部分所示,通過渝北區沿軌道熱力圖我們可以發現,軌道交通具有十分明顯的外部效益,其形成的聚集效應勢必會改變城市發展過度分散的土地利用形態和空間分布,促進沿線房地產增值,將中心區域和其他區域緊密連接。另外,也能夠節省城市建設用地和發展空間,對城市空間布局的優化和節約城市空間資源具有重要作用。

圖3 近十年城區(左)及兩江四岸(右)房地產市場變化趨勢
圖3右部分所示數據模型主要是根據管理部門業務需要動態建立的“兩江四岸”數據模型,通過上述房產交易數據分析,展示歷年來重慶市作為江邊城市中房產相關數據的變化,可以發現重慶市購房者對于“江景房”的購置熱情。以沿江房產熱力圖分析可以發現,房地產市場與空間規劃和政策引導具有緊密聯系,房屋除了使用價值、本身建筑屬性價值之外,還受到空間位置、景觀環境、交通規劃、職住平衡等各方要素的疊加影響。
本文深入研究了大數據技術,并通過收集、分析、梳理研究了房地產市場分析指標和核心業務數據等內容,建立了重慶市房地產交易監測分析專題研究模型,實現了大數據關鍵技術應用于房地產交易數據的采集、預處理、分布式存儲和管理,利用現有房地產交易的數據進行分析與挖掘,使用現有成熟模型、算法的分析比較,對房地產市場中交易情況和發展變化趨勢等進行全面分析和研究。
下一步工作計劃是重慶市機構改革工作的推進,整合重慶市發改委、規劃、土地、住建等多部門業務數據,形成完整的跨時空、跨業務流程的房地產全生命周期監測分析。