999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

隨機森林房地產自動評估模型構建及其比較研究

2022-03-04 06:48:18公云龍楊雨涵
中國資產評估 2022年1期
關鍵詞:特征模型

■公云龍 楊雨涵,2

(1.中國礦業大學公共管理學院,江蘇徐州221116 2.香港理工大學土地測量及地理資訊學系,香港810005)

一、引言

大數據時代,隨著不動產特征及其交易數據可獲性的大幅提升,使自動評估模型成為稅收、信貸等批量評估領域關注的熱點。2003年,國際估稅官協會(International Association of Assessing Officers,IAAO)發布了《自動評估模型準則》(《Standard on Automated Valuation Models》),對自動評估模型的構建過程、建模技巧、應用范圍等進行了規范。相對而言,我國對批量評估和自動評估模型的研究起步較晚,早期主要集中于將GIS 與估價方法相結合以構建評估系統[1-2]。

房地產自動評估模型依賴于計算機和數學模型,其核心是挖掘房地產價格與其影響因素之間的定量關系并將其用于待估房地產價格的預測。特征價格模型是構建自動評估模型時最常用的數學模型之一[3-4]。特征價格模型能夠量化單因素對房地產價格的線性影響,而房地產價格通常受相互滲透、復雜多變的各個因素的交互綜合影響,為此,國內外學者開始將機器學習算法應用于房地產自動評估模型的構建,以刻畫房地產特征對價格的非線性和交互影響。當前,已有眾多研究構建了基于神經網絡的自動評估模型,針對神經網絡評估模型的穩定性、評估精度、收斂速度、泛化能力等問題進行了深入探討[5-8]。除此之外,也有學者探討了基于支持向量回歸的自動評估模型的構建問題[9]。

相比于神經網絡模型和支持向量回歸模型,回歸樹算法原理簡單、計算速度快且可以處理連續和分類變量,也因此被廣泛應用于自動評估模型的構建。當前,已有研究表明基于回歸樹的集成算法—隨機森林模型,在自動評估模型的評估精度方面具有一定的優越性[10-13]。為進一步揭示隨機森林自動評估模型的構建特點及優勢,本文將深入研究隨機森林模型的參數設定對評估效果的影響,并從評估精度、模型泛化、經濟解釋等方面將其與常用的Hedonic 模型、BP 神經網絡和支持向量回歸自動評估模型進行比較分析,總結隨機森林自動評估模型的應用特點并指導實踐。

二、隨機森林房地產自動評估模型構建原理及精度評價方法

給定一個容量為n的房地產交易數據集,并將其隨機分為容量為nt的訓練集和容量為nr的測試集(n=nt+nr),同時將影響房地產價格的特征因素標記為xj(j=1,2,…,m)。本文將運用訓練集訓練隨機森林自動評估模型,并利用測試集進行精度分析。

(一)回歸樹模型

回歸樹是一種應用于因變量為連續變量的決策樹[14],是隨機森林自動評估模型的機器學習。回歸樹模型利用樹形結構將房地產交易數據集劃分為若干子集(C1,C2,…,CR),并利用子集內樣本價格進行價格評估,即一棵典型的回歸樹由根節點、內部節點和葉節點組成。根節點是包含數據集中所有數據的節點;根節點包含判斷條件,以此為起點生長回歸樹,分裂過程將形成多層內部節點,每個內部節點代表數據集中滿足從根節點到該節點所有判斷條件的數據集合;最終形成的具有相似特征的數據子集稱為葉節點,也即用于進行房地產價格預測的數據集。

圖1 回歸樹原理圖

在每個根節點或內部節點分裂生長回歸樹自動評估模型時,需以最小化兩個分支樣本的預測殘差平方和為目標,采用啟發式方法確定最佳切分特征變量(Xj)和切分點。構建回歸樹自動評估模型時還需確定樹的高度或深度,預剪枝和后剪枝是兩種常用的方法。前者在構造回歸樹時進行剪枝,比如提前確定樹的深度,但此種方法的效果較差;后剪枝則先構造一個大的回歸樹,再根據葉節點合并前后預測誤差的變化來確定是否刪除子樹[15]。目前最常用的回歸樹生長算法為CART(Classification and Regression Tree)算法。

(二)隨機森林自動評估模型

當回歸樹自動評估模型的節點分裂深度較大時,容易出現過擬合[16]。隨機森林回歸(Random Forest Regression)是一種由Bagging 算法改進的基于回歸樹的組合算法,可以有效解決回歸樹模型的過擬合問題。隨機森林自動評估模型的構建過程為:

(1)運用bootstrap 法從訓練集中隨機有放回的抽取容量為nt的k個訓練樣本,每個訓練樣本通常只包含原始訓練集2/3 的樣本,另外1/3 未被抽取數據被稱為袋外數據(out of bag——OOB);

圖2 隨機森林原理圖

(2)對于每個訓練樣本,在每個分裂節點處從m個住房特征中隨機抽取h個特征并運用CART 算法分裂構建回歸樹(m≤h);

(3)將生成的k棵回歸樹組成隨機森林,由k棵樹預測值的均值決定最終預測結果。

基于袋外數據OOB,隨機森林模型可以對特征變量的重要性進行評價。將每個訓練樣本的回歸樹模型應用于袋外數據時,將得到袋外數據的均方根誤差(MSEOOB1);進而對OOB 樣本的特征xj隨機加入噪聲干擾,也即隨機改變特征變量xj的值,再次得到袋外數據均方根誤差(MSEOOB2),最后計算該值越大,說明該變量xj在回歸模型構建中越為重要[16]。

(三)精度評價方法

運用訓練集構建隨機森林自動評估模型后,可以運用測試樣本對模型的評估性能進行驗證與評價,評價過程以模型對測試樣本預測值與測試樣本實際值的各項誤差為基礎。本文借鑒其他學者[17]的研究,選用R2、均方根誤差(RMSE)、平均絕對誤差(MAE)和平均絕對百分比誤差(MAPE)作為模型預測精度的評價指標。其中RMSE、MAE、MAPE的計算公式分別為:

三、數據與變量

(一)研究區及數據

本文以江蘇省徐州市泉山區和鼓樓區的二手房交易市場為研究對象。從圖3 可以看出,2018年1月—2020年8月徐州市鼓樓區房價稍低于泉山區房價,體現了兩個區的區位差異。但從長期發展趨勢看,泉山區與鼓樓區的住房均價變化趨勢基本一致,可以將泉山區與鼓樓區房地產市場看作為同一房地產市場。

圖3 徐州市泉山區與鼓樓區2018年1月—2022年8月房價走勢圖

本文從禧泰房地產大數據(cityre.cn/credata.html)收集了泉山區和鼓樓區2018年1月—12月的二手房首次掛牌案例,共85 037 條記錄,涵蓋787個小區①。刪除異常值、無效值和缺失值的掛牌案例后,本文將剩余的21 590 條記錄作為樣本集,涵蓋361 個小區。該樣本包括房產的地理位置、建筑面積、房齡、所在樓層和總樓層、房型、裝修程度等14 個特征的相關信息。與此同時,本文根據房產的位置信息,利用GIS 計算了各案例到城市中心的距離。教育配套、基礎與公共設施配套等信息則來源于房天下、安居客等在線房地產中介網站的評價信息。

(二)變量設定

一般而言,房地產價格的影響因素包括一般因素、區位因素和個別因素。由于本文搜集的二手房交易數據位于徐州市區內,具有相似的社會、經濟和行政狀況,一般因素在研究區內具有同質性,所以本文只考慮區位因素和個別因素的選取。借鑒其他學者的研究[9,18-19],本文設定了6 個區位因素和8個個別因素作為房地產的特征變量。其中,區位因素DFC(距離市中心的遠近)以蘇寧廣場作為商業中心,用ArcGIS 計算小區到商業中心的距離;因素SR(教育配套設施狀況)的量化結合房天下(https://xz.fang.com/)網站公開信息,根據“是否為學區房”的評價標準,以0 或1 量化;因素FT(交通設施狀況)為小區500m 半徑范圍內公交站點、地鐵站點的數量;因素FPF(生活服務設施狀況)為小區500m半徑范圍內醫療點、公園、銀行、商場的總數量;因素PF(物業狀況)和因素AR(綠化率)分別以小區物業費和綠化率的實際值量化。

在個別因素變量設定中,age(住宅樓齡)以2018年為基期,減去小區建成年代而得來;PR(容積率)為住宅所在小區的實際容積率;area(面積)為掛牌房地產的建筑面積。建筑結構、戶型、朝向、裝飾裝修和層高則被轉變為相應的0-1 虛擬變量,比如建筑結構被分解為磚木結構(BWS)、磚混結構(BCS)、鋼筋混凝土結構(RCS)三個虛擬變量來表達。最終共獲取26 個個別因素特征變量,各變量的定義及描述性統計信息見表1。

表1 因素的統計描述

① 房地產自動評估模型一般基于交易價格構建,但在我國當前的市場條件及環境下,真實的交易價格較難獲取,因此本文用首次掛牌價格加以替代,并不影響自動評估模型的構建。根據數據提供方的統計,首次掛牌價格與真實交易價格的差距一般在15%之內。

四、隨機森林自動評估模型訓練及比較分析

(一)隨機森林自動評估模型訓練

本文隨機將研究數據集劃分為訓練集與測試集,其中訓練集包含17 285 條記錄(占比80%),測試集共包含4 305 條記錄(占比20%)。隨機森林自動評估模型基于R 語言的randomForest 包構建,在構建過程中需要確定兩個重要的超參數:(1)隨機森林中回歸樹的棵數ntree;(2)回歸樹分裂時特征子集的特征個數mtry。本文將mtry 的范圍確定為[5,32],ntree 的取值范圍確定為{500,1 000,1 500,2 000,2 500},繼而運用遍歷法構建了140 個隨機森林模型,并計算其擬合優度,其對應關系如圖4所示。

圖4 隨機森林超參數設定對擬合優度的影響

由圖4 可以看出,隨著特征個數mtry 的增加,隨機森林自動評估模型的評估精度越來越高。但其變化呈現出非線性特征,當特征個數從5 增加到12時,隨機森林模型的評估準確性上升較快,之后提升趨勢變緩并趨于穩定,甚至略有下降。與此同時,通過比較包含不同回歸樹顆數的隨機森林模型,發現ntree 的取值對模型擬合優度的影響并不顯著。綜合而言,當mtry ∈[15,18]時,包含不同回歸樹顆數5 個隨機森林自動模型的擬合程度均可達到峰值。通過比較,發現當mtry=16、ntree=1 500 時,模型的擬合優度最高,因此將其確定為最優超參數。

最終構建的隨機森林自動評估模型中回歸樹的統計特征如圖5所示。在1 500 棵回歸樹中,最小的回歸樹包含5 350 個節點,最大的回歸樹包含5 600個節點,絕大部分回歸樹的節點數在5 450-5 500 之間。可以發現,隨機森林自動評估模型中回歸樹的結構特征基本穩定,回歸樹節點深度在15 層以上,足以說明各變量對房地產價格影響的復雜性和綜合性。

圖5 隨機森林模型回歸樹節點統計

根據表2,本文所構建的隨機森林自動評估模型在訓練集的擬合優度(R2)為90%,即能夠解釋90%的房價差異;平均絕對誤差為151 714.10 元/套,平均絕對百分比誤差為11.11%,即對于一套價值為100 萬元的住宅,隨機森林自動評估模型的估價區間為88.89 萬元至111.11 萬元之間,模型的預測精度較高。

表2 模型預測效果對比

(二)評估精度及泛化能力比較

為進一步考察隨機森林自動評估模型的評估精度及泛化性能,本文將此模型運用于測試集進行驗證。結果表明,此模型在測試集中的表現稍好于在訓練集中的表現,除平均絕對誤差這一指標劣于訓練集外,R2、均方根誤差、平均絕對誤差百分比三項指標均略好于訓練集中的表現,表明本文所構建的隨機森林自動評估模型具有較高的精度和較好的泛化能力,能夠廣泛的用于研究區域房地產的自動評估。

此外,本文還訓練了Hedonic 模型、BP 神經網絡和支持向量回歸模型以進行不同自動評估模型的比較研究。上述4 個模型均用同一訓練集進行模型訓練,并用同一測試集進行模型預測效果檢驗。BP神經網絡自動評估模型基于python 算法構建,核函數確定為ReLU,利用5 折交叉驗證,構建了單隱層、雙隱層、三隱層和四隱層網絡,并對每層的神經元個數進行網格法搜索,最終確定BP 神經網絡模型的隱含層數目為4,每層的神經單元數依次為30、30、10、10。支持向量回歸自動評估模型的核函數設置為高斯徑向基核,利用網格法尋找出最優的懲罰因子C 為108,徑向基核函數參數為10-5。Hedonic模型則依據R2與殘差分布,在線性、線性對數、對數線性和對數4 種函數形式中確定,最后優選出對數函數形式的Hedonic 模型。

所訓練的4 個房地產價格自動評估模型的評估精度如表2所示。總體而言,四個精度測度指標均顯示Hedonic 自動評估模型的預測精度低于其余三個機器學習自動評估模型的預測精度。其原因在于Hedonic 模型只能刻畫房地產價格與特征之間的線性關系(或可轉換為線性關系),而忽略了房地產特征對價格的非線性影響和交互影響[20]。機器學習模型是建立在房地產特征相互依賴基礎之上的,能夠對特征間和特征與價格間的復雜關系進行深度學習,從而使模型預測更為準確。

在基于機器學習的3 個房地產價格自動評估模型中,隨機森林自動評估模型在訓練集和測試集中的表現均遠遠好于BP 神經網絡自動模型和支持向量回歸自動評估模型;在自動評估模型泛化能力方面,支持向量回歸自動評估模型出現了明顯過擬合問題,而BP 神經網絡和隨機森林自動評估模型的表現較為穩定。綜合而言,隨機森林自動評估模型無論在評估精度還是泛化能力方面均具有明顯的優越性。

(三)模型的經濟解釋

相較于BP 神經網絡和支持向量回歸自動評估模型的“黑箱”特點,隨機森林模型能以節點不純度或均方誤差對變量重要性進行評價,從而識別對房地產價格有重要影響的特征,能夠進一步揭示房地產價格的形成機制。隨機森林模型對房地產特征重要性的評價如圖6所示。房屋面積(area)是決定房地產價格最為重要的因素,距市中心距離(DFC)和綠化率(AR)兩個區位因素對房地產價格的影響也頗為重要,緊隨其后的是其他區位因素,如物業狀況(PF)、教育配套設施(SR)和生活設施(FPF)。總體而言,區位因素對房地產價格的影響程度要高于個體要素,也充分印證了區位對房地產市場的重要性。在影響房地產價格的個別因素方面,住宅樓齡、建筑結構、戶型對房價的影響較為重要,而朝向對房地產價格的貢獻較小。

圖6 隨機森林模型變量重要程度測度

五、結論

在大數據時代背景下,本文以徐州市泉山區和鼓樓區2018年21 590 套二手房首次掛牌案例為樣本,探討了隨機森林房地產價格自動評估模型的構建特點,并從評估精度、泛化能力、經濟解釋三個角度與BP 神經網絡、支持向量回歸和Hedonic 模型進行了比較分析,得出以下結論:

(1)在隨機森林自動評估模型構建過程中,回歸樹分裂時特征子集的特征個數mtry 對自動評估模型預測精度影響較大,隨著特征子集中特征個數的增加,模型的評估效果先迅速增加而后趨于平穩;與之相對,隨機森林中回歸樹的棵數對模型預測效果的影響不顯著。

(2)隨機森林自動評估模型的預測精度較高,在訓練集和測試集中的平均絕對誤差百分比為11%,其評估精度顯著好于Hedonic 模型、BP 神經網絡模型和支持向量回歸模型;此外,隨機森林自動評估的模型的泛化能力也較好,具有較高的穩定性。

(3)相比于其余機器學習模型,隨機森林模型更具經濟解釋意義,通過變量重要性評價能夠進一步揭示房地產價格的構成特征,研究發現區位因素對房地產價格的影響程度要顯著高于個別要素,充分印證了區位在房地產市場中的重要性。

當然,本文構建的隨機森林自動評估模型也存在一定的局限性。首先,本文構建的自動評估模型反映了樣本時段特定的房地產市場結構,若房地產市場結構發生變化,則需重新訓練;其次,本文基于同質房地產市場構建隨機森林自動評估模型,而現實中一個城市的房地產市場通常由多個同質子市場組成,如何通過模型自動識別房地產市場的異質性特征并將其納入自動評估模型的構建是未來的重要研究方向。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 日韩欧美国产另类| 自拍偷拍欧美| 亚洲第一精品福利| 国产91丝袜| 国产成人亚洲精品色欲AV| 国产微拍一区| 亚洲无码四虎黄色网站| 性做久久久久久久免费看| 在线色综合| 99九九成人免费视频精品| 午夜激情福利视频| 久久这里只精品国产99热8| 亚洲欧美不卡中文字幕| 久久综合亚洲色一区二区三区 | 另类重口100页在线播放| 在线观看无码av五月花| 日日噜噜夜夜狠狠视频| 人妻中文久热无码丝袜| 午夜福利无码一区二区| 免费A级毛片无码免费视频| 久久亚洲美女精品国产精品| 久久青青草原亚洲av无码| 99ri精品视频在线观看播放| 久久性视频| 亚洲人成网站色7777| 老色鬼欧美精品| 亚洲人成影院在线观看| 国产办公室秘书无码精品| 亚洲国产精品日韩专区AV| 亚洲另类色| 一级毛片在线播放| 亚洲全网成人资源在线观看| 全部免费特黄特色大片视频| 国产日本一区二区三区| a毛片免费看| 亚洲av综合网| 午夜精品福利影院| 国产午夜人做人免费视频| 欧美亚洲欧美区| 日韩国产一区二区三区无码| 国产va免费精品观看| 亚洲A∨无码精品午夜在线观看| 欧美不卡在线视频| 最新精品久久精品| 美女免费黄网站| 成年人久久黄色网站| 四虎国产永久在线观看| 亚洲美女久久| 亚洲精品国产综合99| 亚洲一区二区黄色| 精品国产自在在线在线观看| 欧美日韩精品一区二区在线线| 日韩无码白| 国产99精品久久| 456亚洲人成高清在线| 国产激爽大片高清在线观看| 美美女高清毛片视频免费观看| 国产成人久久综合777777麻豆| 青青青国产在线播放| 国产毛片基地| 国产最新无码专区在线| 国内精自线i品一区202| 国产成人高清在线精品| 久一在线视频| 欧美精品在线免费| 97视频免费在线观看| 久草视频一区| 国产丝袜91| av色爱 天堂网| 国产日本一线在线观看免费| 国产经典三级在线| 伊人久久综在合线亚洲2019| av手机版在线播放| 国产综合色在线视频播放线视| 亚洲精品日产AⅤ| 夜夜操天天摸| 日本一区二区不卡视频| 国产亚洲欧美日本一二三本道| 精品福利国产| 26uuu国产精品视频| 亚洲日韩高清无码| 国产新AV天堂|