陳琦越 梁復榮 黃銳權 邱梓杰



摘 要:影響房價的因素不再僅限于地區,還受出行便利程度、房屋區域熱度的影響。針對房屋集群的識別與進一步研究,對于及時把握供需關系、價格等都有極大的幫助。文章基于密度的聚類(DBSCAN)和深度神經網絡(DNN),對房屋集群進行識別聚類,根據簇的結果與房價影響因素訓練神經網絡,達到房價預測的效果。實驗結果表明,對所采用的數據進行預測達到準確的效果。通過研究,可為集群房屋區位定價提供參考。
關鍵詞:房地產;DBSCAN聚類算法;空間格局
中圖分類號:F293.35 文獻標識碼:A 文章編號:1005-6432(2022)06-0001-03
DOI:10.13939/j.cnki.zgsc.2022.06.001
關于房屋集群,馬小賓等人[1]利用DBSCAN算法對民宿集群進行分類,找出Airbnb民宿區位分布特征。湯新程等人[2]利用BP神經網絡預測邯鄲市房價。文章采用基于密度的聚類(DBSCAN)和人工神經網絡(DNN),對UCI機器學習儲存庫中房屋數據集進行識別,形成簇并分類,根據簇的結果與房價影響因素訓練神經網絡,最終達到房價預測的目的。
1 數據來源
文章采用的數據是臺灣淡江大學分享的關于臺灣省新北市新店區的房地產估計數據集,該數據集一共包含了414條房地產交易數據。數據主要包括房屋所在地的經緯度、房屋年齡、距離捷運站(地鐵站)的距離等。從位置以外的變量來看,所選的變量如地鐵站、便利店數量,都是城市基礎設施的一部分,短時間有大變動的概率比較低,基于該數據可以得到一定時間內設施存在對該地區房價的合理影響。首先,對數據進行探索,特別對數據集中提供的經緯度數據進行可視化,其結果如下。
通過圖1可以看出,數據點的地理位置分布呈現一定的聚集性,但是具體的分類數和分類方式有待確定。通過分析,最終采用DBSCAN方法進行聚類。通過調節參數來調節聚類數,并且和后面的預測算法相結合,尋求最優的分類方式。
2 模型
2.1 DBSCAN
Density-based Spatial Clustering of Applications with Noise(DBSCAN)是由Ester等人提出的一種基于密度數據的聚類算法,被廣泛應用于地理研究、統計學研究。它最大的特點是所需變量少,只需要半徑(r)和最小點個數(MinPts)兩個參數,根據所給的半徑找出突變點,在給定的半徑內進行掃描,若大于所給的密度閾值,則稱該點為核心點,形成一個集合,再從核心點出發,尋找新的密度相連的點,作為新的核心點進行集群,形成新的簇,最終形成簇群的一個過程。文章借助于聚類算法對臺灣新北市新店區分布特征進行識別,并形成群簇。
2.2 DNN神經網絡
Deep Neural Networks(DNN)與傳統的人工神經網絡(ANN)的區別在于,DNN相較于ANN,在輸入與輸出之間插入了許多隱藏層,層與層之間通過神經元相連。DNN的工作原理和感知機是一樣的,由線性函數(w)和激活函數構成(softmax分類器等)。在多維的情況下,分類器無法進行進一步的學習,因此DNN引入了偏倚,通過偏倚聯通隱藏層,進行進一步學習,上一層的輸出不斷向下一層輸出。DNN算法利用輸入數據經過隱藏層中的不斷優化以后,得出最優結構。文章中,DNN算法將在最優簇群的情況下進行訓練。
2.3 模型結構
文章最終采用的模型結構如下:首先,利用DBSCAN算法,利用經緯度數據對樣本進行聚類,獲得樣本相應的類別。其次,對數據集進行劃分(80%訓練集,20%測試集),將其他標簽和類別標簽一起,作為DNN輸入、輸出房價的預測值。通過梯度下降和反向傳播,獲得訓練好的模型并用于預測。
3 數據實驗
3.1 (地理位置)聚類(3,5,7)類——基于DBSCAN算法
本小節調節參數以獲得不同的聚類效果,下面對其進行展示(該部分未接入預測算法,僅做探索)。其對應的參數設置如表1所示。
可視化聚類結果如圖 3所示。
可以看出,通過調節不同的聚類參數,可以得到不同的聚類效果。但是,并不是分類數越多越好,分類數較多容易產生過擬合。下面將連接預測算法,查看最佳的分類方式。
3.2 神經網絡(12個神經元)
文章最終將構建房價預測模型,經過DBSCAN處理后,將原本標簽和類別標簽一起作為神經網的輸入,首先設置神經網絡的層為4層(輸入層、2個隱藏層和輸出層),而類別數設置為3、5、7并進行實驗。loss的計算公式如下:
其中,yturei表示樣本真實值,ypredicti表示樣本預測值,N為樣本數量。最終訓練結果如下。
從圖4右圖可知,在神經網絡結構相同的情況下,分為三個類別數據集,在訓練集和測試集上都表現出比其他分類數更好的結果,且能夠較快地達到一個收斂值(0.0080),其具體訓練數據如表2所示。
3.3 調節神經元個數(6,12,15個),得到15個效果最好
在分類數為三的情況下調節神經網絡參數,以獲得一個較好的預測模型。分別在隱藏神經元個數為6,12,15情況下進行實驗,可獲得如下實驗結果,見圖5。
觀察可知,15個神經元的情況下模型的效果最好(右圖為局部放大效果),數據如下。
4 結論與討論
實驗表明,在神經網絡結構固定的情況下,對經緯度數據進行3類是最好的訓練結果。在此基礎上,固定聚類類別,修改神經網絡結構。可知,15個神經元數時損失值最小,模型結構最優。文章中,使用了位置、屋齡等變量,融合DBSCAN和DNN對未來房價進行預測,達到了一個較為有效的預測結果,文章的研究具有一定的參考價值。但是,實際的房屋交易市場中,影響價格的因素可能不止文中研究的變量,這也是文章研究的不足之處。
參考文獻:
[1]馬小賓, 侯國林, 李莉, 等. 基于 DBSCAN 算法的民宿集群識別、分布格局及影響因素——以南京市為例[J].人文地理, 2021, 36(1):84-93.
[2]湯新程, 王志海. 基于BP神經網絡的房價預測研究——以邯鄲市為例[J].統計學與應用, 2019, 8(5):6.
[3]高玉明, 張仁津. 基于遺傳算法和 BP 神經網絡的房價預測分析[J].計算機工程, 2014, 40(4):187-191.
[4]李東月. 房價預測模型的比較研究[J].工業技術經濟, 2006, 25(9):65-67.
[5]侯普光, 喬澤群. 基于小波分析和 ARMA 模型的房價預測研究[J].統計與決策, 2014(30):15.