□文/楊凱博
(東北林業大學 黑龍江·哈爾濱)
[提要] 在房產稅稅基評估新要求下,房地產評估行業對于二手房價格評估有了更高的要求。本文基于特征價格理論,選取哈爾濱市主城區六區的13,694條二手房成交數據建立地理加權回歸模型。結果顯示:擬合優度R2為0.595,模型擬合良好,在保證評估精確度的同時,為二手房稅基評估提供新思路。
房地產批量評估一直以來都廣泛受到資產評估界的關注。與傳統針對個案使用成本法、收益法、市場法相比,批量評估能夠快速、高效地確定房地產價值,在確定房產稅稅基等領域有著廣泛地用途。
目前,國外學者將統計學與計算機技術相結合,研究出CAMA(Computer Assisted Mass Appraisal)、地理信息系統 GIS(Geography Information System)、人工神經網絡ANN(Artificial Neural Network)等技術作為批量評估方法應用于房地產價格評估之中。我國仍處于使用傳統特征價格模型階段,一般采用基于特征價格理論的多元線性回歸模型,然而使用傳統OLS進行批量估價會忽略各個影響因素在空間上的變化。因此,從空間統計學出發應用地理加權回歸模型,探索更加準確、公平的評估方法,有利于提高房地產估價的科學性和創新性。
(一)研究區域與研究數據。哈爾濱市共轄18個縣級行政區,因其二手房成交量主要存在于主城區,其余行政區的二手房成交量較小,故選取包括南崗區、道里區、香坊區、道外區、松北區、呼蘭區這六個主城區作為研究區域。哈爾濱主城區2019年二手房均價在第1至第44周上漲較為平穩,從45周開始有較大幅度上漲。為避免極端值對二手房價格評估模型的影響,選取2019年前三季度主城區六區的二手房成交數據,共獲得成交記錄13,694條,涵蓋825個小區。
(二)變量選取。特征價格理論認為,房地產的價格可以分解為不同的特征變量進行反映,本文借鑒國內外對房地產價格批量評估的研究文獻,結合哈爾濱市的實際情況,按照特征價格理論中的建筑特征、區位特征和鄰里特征選取容積率、綠化率、物業費、建筑年齡、與最近小學距離、與最近公園距離、與最近三甲醫院距離、與最近大型超市距離、最近地鐵站距離、與最近公交站距離等10個特征變量作為影響哈爾濱市二手房成交價的空間分異因素。
(三)地理加權回歸模型的構建。地理加權回歸模型(GWR)是局部模型,主要思想是認為回歸系數根據地理位置的變化而變化,考慮了數據在空間上的非平穩性,對每個樣本點都設定了一系列的局部變量回歸系數,樣本點與擬合點間的地理位置間隔越小,權重越大,能夠探測參數在區間內的非平穩變化,因此優于普通的線性回歸模型。
構建完整的地理加權回歸模型分為三步:
首先是確定地理加權回歸模型的基本公式:

式中,(ui,vi)為第i個樣本點的坐標,xik是第i個樣本點的第k個解釋變量,回歸系數βk(ui,vi)是地理坐標(ui,vi)的函數。殘差 εi~N(0,σ2),不同樣本點 i和點 j的隨機誤差相互獨立,協方差為0。
其次是空間權函數的選擇。空間權重矩陣定量反映了地理要素之間的空間關系,是構造地理加權回歸模型最關鍵的一步,不恰當的選擇空間權函數將無法對參數進行有效估計。常用的空間權函數有以下四種:(1)距離閾值法:選取合適的距離閾值,然后將數據點與回歸點之間的距離與閾值進行比較,如果二者之間的距離大于該域值,則賦予權重為0,否則為1。距離閾值法的實質其實就是劃定一個判斷范圍,超出范圍的距離點將不被賦予權重。距離閾值法雖然簡單,但其缺點為分段函數,因此無法對參數進行估計。(2)距離反比法:在空間地理位置上距離回歸點相近的數據點比相遠的數據點對回歸點的影響更強,因此在估計回歸點的參數時,應對距離相近的數據點賦予更高的權重。距離反比法采用數據點與回歸點距離倒數的一次方或二次方作為權重,但是當出現回歸點與數據點重合時,二者距離為0,回歸點觀測值權重將變得無限大,而刪除數據點將降低參數估計的精度,因此無法直接用于地理加權回歸進行參數估計。(3)高斯核函數法:構建一個單調遞減函數反映所賦予的權重與回歸點和數據點之間距離兩個變量之間的關系。用帶寬描述權重與距離之間單調遞減關系的快慢,帶寬越大,權重隨距離衰減得越慢,帶寬越小,權重隨距離衰減得越快。因此,高斯核函數可以克服上述空間權函數為分段函數的缺點,適合作為地理加權回歸模型的空間權函數。(4)截尾型函數法:實際估計中,截去對回歸參數沒有影響的數據點,使其不參與回歸模型的計算,并使用有限高斯函數代替高斯函數,最常用的截尾型函數為bi-square函數。bi-square函數可以視為距離閾值法和高斯核函數法的結合,在距離閾值即帶寬范圍以內的回歸點,通過有限高斯函數計算并賦予數據點權重,在距離閾值即帶寬范圍以外的數據點,賦予的權重為0。通常地理加權回歸模型選取高斯核函數法或bi-square函數法作為空間權函數進行參數估計。
最后是帶寬的確定與優化。地理加權回歸模型對選取高斯核函數法還是bi-square函數法作為空間權函數并不是非常敏感,但對其帶寬的確定卻非常敏感。因此,確定并計算合理的帶寬是保證地理加權回歸模型參數估計無偏性、有效性的關鍵,常用的方法有兩種:(1)交叉驗證法:應用于帶寬確定時,表示對于回歸參數進行估計時,將排除回歸點本身,只根據回歸點附近的數據進行參數估計,然后把不同的帶寬和不同交叉驗證到的CV值繪制成趨勢線,當CV值為最小時,對應帶寬為最佳帶寬。(2)AIC最小信息準則:又稱為赤池信息量準則,建立在信息熵的基礎上,衡量所建立的模型的復雜程度和模型擬合數據能力的優良性。當模型有大量可供選擇的參數時,應選取AIC值最小的。因為AIC值的大小與模型獨立參數的個數呈反比,模型參數個數越少,AIC值越小;AIC值的大小與模型的極大似然函數呈正比,模型極大似然函數越大,AIC值越小。當模型參數較少時,模型較為簡潔,當模型極大似然函數較大時,模型較為精確。因此,AIC值和評價模型擬合優度的調整R2類似,在評價模型對數據的擬合能力時兼顧了簡潔性和精確性。當兩個模型之間存在較大差異時,體現為兩個模型的極大似然函數差別較大;當兩個模型之間不存在顯著差異時,參數越少的模型擬合能力越好,因此這個準則被稱為最小信息準則。當利用AIC準則確定帶寬時,有利于評價地理加權回歸模型是否比多元線性回歸模更好地擬合數據。
(四)結果分析。地理加權回歸模型是對傳統多元線性回歸模型的拓展,因樣本數據沒有過于離散的點,故選取混合高斯函數作為空間權函數,擬合優度較好的交叉驗證(cross-validation,CV)方法作為驗證最優帶寬方法。利用GWR4.0軟件對樣本點進行回歸分析,模型評價采用擬合優度R2和比率檢驗指標進行評估。
根據回歸模型計算結果OLS模型擬合優度R2和調整的R2為0.574和0.568,GWR模型擬合優度R2和調整的R2為0.595和0.587,說明地理加權回歸模型的總體擬合效果較好,解釋變量對被解釋變量具有一定的解釋能力。
為進一步分析二手房價格評估的精確性,引入國際評估協會(IAAO)對于房地產價格評估模型準確性與公平性判定的三項指標:比率中位數、離散系數、相關價格差異系數。比率中位數是將預測值與真實值相除得到的一組比率按升序或降序排列后取其中值的方法;離散系數是衡量回歸結果離散程度的相對統計量;相關價格差異系數是評估結果累進性或累退性的統計指標。如表1所示,地理加權回歸模型的三項評價指標均符合國際評估協會制定的標準,相較于傳統的多元線性回歸模型,地理加權回歸模型在評估的精確性上更優。(表1)

表1 OLS模型與GWR模型比率檢驗指標對比一覽表
本文結合特征價格理論和地理加權回歸模型對哈爾濱市二手房價格進行評估,一方面GWR模型克服了傳統OLS模型無法解決的空間非平穩性問題;另一方面為批量評估房產稅稅基提供了一種可行的思路。對于大數據下的二手房價格批量評估研究,不僅要提高模型的精度,更要提高模型的運算效率。