馮崇軍
(南京衛生高等職業技術學校,江蘇 南京 210046)
房地產市場是關乎國計民生的重要經濟產業,近期中央多個部委召開會議強調保持樓市調控政策的連續性和穩定性,在“房住不炒”基調指導下,地方政府在房地產監管上因城施策,南京作為長三角區域的房市熱點城市,調控政策也聚焦穩低價、穩房價、穩預期等方面持續發力,力爭確保房地產市場平穩健康發展。本文選取南京地區二手房市場作為研究對象,使用Python 爬蟲采集網上的二手房源掛牌信息,以爬取的信息數據為分析依據,從價格趨勢、房源類型、熱點區域等多個維度分析二手房市場的現狀,并將分析結果數據進行可視化處理,方便用戶參考決策。
由于城鄉二手房源的價格懸殊,且偏遠郊區的房源流通性很小,本文僅爬取南京市熱點城區的在售二手房數據進行分析,對二手房市場的現實狀況進行多維度分析。此外,由于各城區二手房樣本量超過3000之后信息會出現大量干擾或無效信息,進行篩選分析后決定爬取各區約3000份房源樣本,并剔除了面積在10000平方以上特殊房源。通過網頁研究,我們將各主城區二手房源的小區、地段、面積、建設年代、朝向、裝修、稅率、價格等信息作為研究變量,從而確定Python爬蟲需要從網站抓取的數據范疇。
通過對市場認可度較高的搜房網、安居客、鏈家網等二手房掛牌網站進行的初步觀察統計發現,鏈家網依托分布廣泛、覆蓋全面的線下門店系統,能夠實時動態更新其網站的二手房信息,并能對海量的房源數據進行嚴格審查,從而確保網站數據的真實可靠,能夠很好地反應南京當地的二手房市場現狀。
Requests 庫作為Python 常用的HTTP 庫之一,在友好繼承urlib標準庫的規范的基礎上,對主要的爬蟲模塊進行了高度封裝,便于用戶更加方便快捷地進行web 數據的爬取操作。其中requests.get()是獲取網頁的方法,如r=requests.get(url),r是一個Response對象,Request對象包含爬蟲返回的服務器資源,可以使用get(url)方法構造一個向服務器請求資源的Request。
為了有效應對網站的反爬蟲機制,本研究對爬蟲的請求頭進行了偽裝處理,在頭部信息中添加了特定的瀏覽器表示和訪問地址,使得HTTP請求在實際運行中能夠模擬人的操作。循環爬取每個行政區至少3000個房源信息,利用BeautifulSoup對站點數據進行解析,從中獲取房源標題、小區、位置、稅率、總價、單價等信息,通過“|”切割房源標簽,獲得面積、朝向、裝修、建設年份等,并將數據結構化處理存入DataFrame。關鍵代碼如圖1所示。

圖1 Python爬蟲構造房源數據集的關鍵代碼
從二手房網站共計爬取到24080個房源信息,其中存在空值、重復值、數據格式不規范等問題,為了保證后期分析研究的信效度,在使用前需要對數據進行預處理。重復值主要表現為數據重復行,使用drop_duplicates()方法直接刪除存在重復的數據行。對于空值的處理,根據房源數據的實際表述形式及研究的需要,對不同字段的空值采用了不同的處理方式,對行政區、房源標題、地段、小區、面積、戶型、價格等關鍵字段存在空值的情況,直接使用dropna()方法刪除該房源數據,對于稅率、朝向、裝修及建設年份字段存在空值的房源,按小區字段排序后,使用df.fillna()方法插入上下文數據進行填充。由于鏈家網站對房源數據的審核嚴格,所爬取的房源數據普遍格式規整,主要朝向及建設年份兩個字段存在不規范的數據,以小區、面積字段作為關鍵字排序后,使用同小區近似面積房源的上下文數據對異常值進行替換填充。數據清洗和預處理后的主要代碼如圖2所示。

圖2 通過Python爬蟲獲取的二手房源數據集縮略圖
數據可視化能讓人們更直觀地了解數據所表達的信息。Echarts 是百度開源的一個數據可視化JS 庫,主要用于數據可視化。Pyecharts 是一個用于生成Echarts 圖表的類庫,即用Python 編碼創作Echarts 圖表的專門模塊。對南京市區的24000套二手房源按總結及面積進行關聯分析,形成了面積—總價的散點圖,由圖3 可見,南京市區的二手房以500 萬的總價為界限,面積與價格呈現的相關性有明顯的分化趨勢。其中,200平方米以內的二手房源,總價與面積的相關性更強,與市場上二居室、三居室二手房量占比較高的事實相符,也會剛需購房者的首選,側面印證了較小戶型的房源在掛牌出售時買賣雙方對價格的敏感度更高的現實情況。而200平方米以上的大戶型房源,隨著面積的增加,與總價的相關性逐漸變弱,尤其是300平方米以上的戶型房源的總價—面積離散度更高,大戶型房源以四居室、五居室、別墅等特殊戶型為主,是改善性購房者的主要目標,但由于總價高而帶來的巨大資金壓力,買賣雙方對于房源的裝修條件、小區環境、位置地段及周邊配套等環境因素的考量會更多,因而房源面積的細微差別并不會影響市場主體的成交意向。

圖3 南京市二手房源總價—面積散點圖
二手房市場的情況從房源的分布地段可以得到體現,如圖4 所示,在南京二手房均價TOP10 地段的柱狀圖中,鼓樓區作為省級機關的集中地,也是南京的科教中心,其二手房價長期占據高位,且受到學區房政策的利好推動,二手房價格節節攀升,在均價TOP10地段中占據2/3的優勢。其次,玄武區是南京市的行政中心,其科教文旅產業優勢突出且發展均衡,玄武門及北京東路區域有優質學區的加持,其二手房價格也普遍較高,且相當堅挺。唯一進入TOP10的新城區是奧體地段,作為河西新城的核心區,憑借政府的超前規劃及大量優質房企數十年的精耕細作,金融、體育、文旅、科技等產業已初成規模,且區域環境、交通條件得天獨厚,隨著一批優質學校的進駐,二手房價格持續走高,已有比肩鼓樓、玄武的實力。

圖4 南京市二手房均價TOP 10 地段
二手房市場的情況,也可以從房源本身的戶型結構進行分析,通過對南京市場的二手房源戶型進行統計分析,可視化生成了各戶型分布的餅圖,由圖5可見,兩室一廳、三室兩廳戶型構成了南京二手房市場的主力戶型,這也體現了購房者對傳統戶型房源高度認可,傳統的戶型結構得房率高、采光通風較佳,更加契合購房者的居住習慣,也能帶來更好的生活體驗。其次,三室一廳及兩室兩廳的戶型也占比較高,作為小戶型房源中的特殊戶型,對于年輕的購房者更加有吸引力。其他的大戶型房源及單室套房源相對較少,主要是面向改善性需求的家庭購房者或單身客戶。

圖5 南京市二手房戶型分布餅圖
經過觀察研究常用的二手房網站,可以發現,業主和中介更傾向于在房源標題中用特定的詞語來描述并突出房源的優勢,以此吸引購房者的注意。為了更加準確直觀地分析南京市二手房源的市場熱點,對數據集的房源標題字段進行分詞處理,并統計詞頻,然后使用WordCloud()方法繪制詞云圖,以詞云圖的形式來展示二手房源的市場關注熱點。
如圖6,從二手房源標題分詞的統計情況來看,“采光”一詞的出現頻次最高,這與南京市場的二手房房源現狀有顯著關系,從數據集中的二手房建設年份來看,房齡在10年以上的二手房占比達到76%以上,而房齡在20年以上的老房子占比是36%,對于市區建設年份較早的房源,普遍存在樓間距小、低層住宅多、周邊高層建筑遮擋視野等問題,采光狀況直接關系到業主的居住體驗,所以采光問題受到購房者的重點關注。同時,“樓層”“戶型”作為二手房源的客觀屬性,在二手房賣點的宣傳中占據了主要地位,與此相關的“黃金樓層”“南北通透”“戶型方正”“朝南”等詞頻也普遍較高,這些因素均與房屋的居住體驗密切相關,也側面證明南京市場的二手房購買者主要以自住為目的,與新房的投資屬性截然不同。其次,“精裝修”“配套”“交通”“便利”等詞語在房源標題中的出現頻次也較高,可見關于房源內裝檔次、周邊配套及交通便利性等環境指標的水平也受到二手房市場參與者的重點關注。從有關房源描述的熱點詞云圖來看,購房者的自住需求是二手房市場的主導因素,房源的硬件屬性及環境指標是影響買賣雙方形成成交意向的主要決定因素,進而也表現為南京二手房市場的熱點。

圖6 南京市二手房源市場熱點分析圖
本文通過編碼設計實現Python爬蟲,并運用Pandas、Pyecharts 等擴展庫對爬取的南京市二手房數據集進行結構化處理及分析,采用豐富的可視化圖形直觀呈現了南京市二手房源的價格、面積、戶型、區位等分布現狀及市場熱點。研究發現,以鼓樓、玄武為代表的主城區二手房源,源于學區、交通、環境配套等因素的巨大優勢,均價普遍較高,處于第一梯隊。以奧體為代表的河西新城片區,受益于產業定位高、立體交通覆蓋及名校學區資源的加盟等因素,二手房均價也遙遙領先。同時,研究發現南京市掛牌的二手房源中,10年以上房齡的二手房源占比達到76%,傳統的兩室一廳、三室兩廳戶型的房源占據主力地位,二手房市場的買賣雙方則更加注重房屋的居住感受和生活體驗,可見南京市場二手房的投資屬性相對較弱,更多地傾向于滿足潛在客戶的剛性居住需求。隨著國家房產調控政策的不斷優化,二手房市場的發展必將更加分化和多元,積極探索使用大數據技術分析當前的二手房市場,并高效預測未來的二手房變化趨勢和行業熱點,必能合理引導二手房市場的參與者理智決策,促進房地產經濟的健康發展。