■仇曉潔 羅榮蕓
(河北經貿大學財政稅務學院,河北石家莊050061)
2021年3月,十三屆全國人大四次會議通過的“十四五”規劃和2035年遠景目標綱要,明確將“推進房地產稅立法”納入工作重點[1];5月,財政部、全國人大常委會預算工委、住房和城鄉建設部、國家稅務總局召開房地產稅改革試點工作座談會,聽取部分城市及部分專家學者對房地產稅改革試點工作的意見;10月,第十三屆全國人大常務委員會第三十一次會議通過《授權國務院在部分地區開展房地產稅改革試點工作的決定(草案)》;房地產稅的開征漸行漸近。為滿足房地產稅稅基評估的需求,需不斷提升房地產稅稅基評估的批量評估技術?;诖?,本文試圖借助機器學習以及大數據資源,引入新的房地產批量評估技術--人工神經網絡的多層感知機,探索二手住宅的批量評估模型,以期為預期的房地產稅征收提供計稅依據。
房地產批量評估,就是指評估機構和人員在給定時間用標準化的方法,引用共同數據,進行統計測試等方法對大批量房地產進行評估的過程[2]。
通過梳理國內外文獻發現,房地產批量評估中應用較早、且較為常用的方法是特征價格模型,常用形式是線性回歸,它是基于特征價格理論構建的模型。該理論認為房價是由多種特征帶給人們的效用決定的。國內外學者皆嘗試利用此模型對房產稅稅基進行批量評估。其中,國外研究多集中于特征價格模型本身的優化改進,如用加法,乘法,混合模型回歸方法(Connor,2002)[3],或是模型與傳統市場法的效果對比(John D.Benjamin,Randall S.Guttery,C.F.Sirmans,2004)[4]。而國內研究主要針對變量關系、模型本身改進等方面展開研究,如用彈性分析影響因素間關系(孫禮圣、鄧宇,2018)[6],利用空間計量優化特征價格模型(金杰,羅婷婷,2021)[7]。
但伴隨大數據時代的到來,機器學習開始逐步被應用于各類領域中,包括房地產批量評估。所謂機器學習,即使用計算機模擬或實現人類學習活動的科學,通過對數據或經驗的學習實現自身改進。目前,運用于房地產批量評估中的機器學習的算法,主要有隨機森林、支持向量機和人工神經網絡等算法。其中,隨機森林是一個包含多個決策樹的分類器,其取多棵決策樹組合在一起取預測值的平均值為結果,國外學者較早嘗試此方法,通過構建隨機森林模型對房地產價格進行評估(EA Antipov,EB Pokryshevskaya,2012)[8]。支持向量機算法是利用有限的樣本信息進行模型訓練。在房產稅稅基批量評估中,支持向量機算法通常作為對比的方法出現(司璽同,2019)[9]。人工神經網絡(Artificial Neural Network,ANN)是目前機器學習的研究熱點,具有自學習功能,自適應性強。它通過模仿人類大腦神經元系統相互協作完成任務的過程,引入激活函數刺激神經元,將信息傳遞到下一層,變成非線性的信息處理系統。人工神經網絡主要包括多層感知機、BP 神經網絡、卷積神經網絡及遞歸神經網絡等。而在房地產批量評估中應用較為廣泛的人工神經網絡模型是BP 神經網絡模型,如收益性房產評估(趙愈等,2021)[10],城市二手住宅評估(陳詩沁等,2020)[11]。
與BP 神經網絡不同的是,多層感知機是一種前饋神經網絡。后者將輸入的多數據集映射到單一的輸出數據集,克服了單層感知機不能對線性學習不可分數據進行識別的缺點。與BP 神經網絡相比,多層感知機的運行和訓練效率更快,更多地是偏向一種結構,而非算法。作為基礎的神經網絡,后期可以對多層感知機添加多種算法不斷優化,可操作空間更大。但利用多層感知機進行批量評估的研究較少。
綜上所述,鑒于多層感知機的優勢,在此運用多層感知機模型,對石家莊市長安區二手住宅進行批量評估,將特征價格模型作為參照模型,對比兩個模型的評估結果,以驗證多層感知機模型在批量評估中的有效性,為稅基批量評估提供新的思路。
另外,為確保結論的準確性,將此模型運用于石家莊市裕華區二手住宅的批量評估做進一步驗證。
多層感知機(Multilayer Perceptro,簡稱MLP)模型也稱為多層前饋神經網絡模型,是人工神經網絡模型的一種。所謂人工神經網絡是一種可用于處理具有多個節點和多個輸出點的實際問題的網絡結構,除了輸入輸出層,它中間可以有多個隱層。多層感知機也具有同樣的結構,這一結構使其具有出色的非線性匹配和泛化能力,如圖1[12]:

圖1 多層感知機結構
從圖1 可看出,多層感知機層與層之間是全連接的。多層感知機最底層是輸入層,中間是隱藏層,最后是輸出層,多層感知機是一種前向的神經網絡,它的輸入是一組向量,輸出為另一組向量。多層感知機由輸入層(In-put Layer)、隱藏層 (Hidden Layer)和輸出層(Output Layer)構成。其中,隱藏層又可以包含多層。每層由多個節點構成,每層又可以傳遞給下一層,直到輸出層。除去輸入節點,每個節點都是一個帶有非線性激活函數的神經元(或稱處理單元)。隱藏層的神經元與輸入層是全連接的,假設輸入層用向量X 表示,則隱藏層的輸出就是 f(W1X+b1),W1 是權重(也叫連接系數),b1 是偏置,激活函數f 可以是常用的sigmoid 函數或者Tanh 函數。激活函數能夠給神經元引入非線性因素,這使得神經網絡可以任意逼近任何非線性函數中,神經網絡可以利用到更多的非線性模型中,由于Tanh 函數的均值為0,彌補了sigmoid 函數均值為0.5 的缺陷,因此本文使用的是Tanh 函數作為激活層的函數,即雙曲正切函數,此函數在原點附近幾乎是線性的,便于下一層的計算,使得輸出結果更加準確快速。
考慮到房地產評估的特征,研究的數據主要分為網站上的掛牌交易數據、樣本小區信息以及樣本地理數據?;跀祿@取難度和信息詳略程度,數據來源主要選取有:鏈家網站、百度地圖GIS 以及各大房地產中介網站問答板塊。
1.掛牌交易數據:利用Python 爬取了鏈家網站上石家莊市長安區在售二手住宅的相關信息,共取得2 067 條掛牌二手住宅的信息,通過對部分樣本缺失值去除,篩選重復樣本,去除非典型樣本后,得到了包含全部預期特征變量的1 045 個樣本,其中包括:總價、單價、戶型、樓齡、總樓層數、物業費、小區戶數、裝修情況、方位等9 個指標的相關數據;
2.樣本小區信息:通過搜查各房地產網站的問答板塊核實典型樣本的小區信息,確認了綠化率,容積率,重點學校劃片情況的真實數據;
3.樣本地理數據:利用百度地圖GIS 測量了樣本到市中心的距離,兩公里內學校、醫院、地鐵、公交、商業中心的數量,獲取了共6 個指標的相關信息。
通過對房地產評估實務經驗總結以及樣本分析,將影響價格的因素主要分為建筑特征、鄰里特征、區位特征三個方面。其中總價和單價為目標變量,其余16 個為特征變量,預期會對房價產生一定影響。具體指標及對數據進行量化的方法主要如下:

表1 變量解釋與量化
對特征變量的量化結束后,對變量進行描述性統計分析,相關統計如表2:

表2 描述性統計
1.樣本分區
利用SPSS 內置的多層感知機進行模型預測,根據以往相關文獻和研究經驗總結,通常以7∶3 的比例劃分訓練集和檢驗集。因此在1 045 個樣本中,隨機選取725 個樣本進行訓練,320 個樣本作為測試集對訓練出的模型進行檢驗。
2.模型檢驗
平均總體相對誤差和相對誤差可以評價數據的變化程度,兩者值越小,說明評估模型描述數據有更好的精確度,擬合效果更好。通過機器學習后,訓練集的平均總體相對誤差為0.068,檢驗集平均總體相對誤差為0.162,平方和誤差也較小,說明本次訓練機器學習具有較好的效果,精確度較高。
3.預測值對比
當評估值和真實值重合得越多,兩者就越易匯合到y=x 的直線上,說明模型評估效果越好。如圖2,在多層感知機模型的訓練下,單價評估值與實際值重合點占總點數的絕大部分,單價的評估值和真實值的散點圖匯聚成為了y=x 的直線,且很清晰。說明模型具有較好的預測效果。

圖2 單價評估值與實際值對比圖
4.變量重要性
變量重要性通過觀察SPSS 中正態化圖例得出。由圖3 正態化圖例發現,長安區二手房樣本中對因變量影響解釋性最強的是樓層數,比例接近100%,其次是對口重點學校的數量比例超過80%。這部分結果符合預期,因為長安區是石家莊市歷史較長的行政區域,二手房多為樓齡長的低樓層房屋,在該區后期修建的中高樓層房屋更易受到購買者青睞,此外學區房對口情況也對房價有較大影響力;最弱解釋性變量的是朝向,比例僅有10%左右,這一點符合預期,因為網站上掛牌房產絕大部分選擇了朝南方位,可能現實中并非如此,大批量的選擇朝南使得該指標對房價的影響并不突出;超過60%解釋性的因素分別是面積、物業費、市中心距離、戶型、小區戶數、樓齡。結合面積和物業費的重要性來看,石家莊長安區的二手住宅的房價與住宅的舒適程度,小區的高檔程度有較大關系,在同樣的條件下,小區越高端,住宅面積越大,二手住宅的交易價趨于更高。

圖3 正態化圖例
首先建立參照模型——特征價格模型,通過SPSS 計算樣本數據后,獲得以下特征價格模型系數,其中檢驗結果中模型調整的R2為0.739,德賓沃森值為2.082,具有較好的擬合效果:如表3。

表3 特征價格模型系數表
先隨機選取5 個樣本進行預測值展示,接著對1045 個樣本進行匹配度對比和誤差分析,匹配度反映了真實值和評估值之間的匹配情況,采用評估值除以真實值的方法,計算結果如表4:

表4 長安區二手住宅評估值匹配度對比
在綜合1 045 個樣本的匹配度后,多層感知機總價平均匹配度為1.038,單價的平均匹配度為1.012,特殊價格模型分別為0.739、0.724,此外,加入兩種模型的誤差分析,其中平均絕對誤差為模型預測值與真實值的差額,平均相對誤差=(預測值-真實值)/真實值。由表5 可知,兩種模型在模型評估的精確度方面相差較大,相比之下,多層感知機的評估能力更加突出。

表5 長安區二手住宅評估效果對比
為進一步驗證多層感知機模型的有效性,根據上述步驟,從石家莊市裕華區1 500 條掛牌的二手住宅的信息中篩選出包含全部預期特征變量的570 個樣本,分別運用多層感知機模型、特殊價格模型進行評估,最終得出表6,由此驗證:相比特征價格模型,多層感知機模型評估二手住宅的價值更為準確。

表6 裕華區二手住宅評估效果對比
通過對房地產批量評估相關文獻進行回顧,在前人研究的基礎上,較詳細地分析神經網絡如何在房地產評估中發揮作用,利用爬取的大量樣本數據,對石家莊長安區實際掛牌交易的二手住宅進行評估,從理論和實證的角度證明了特征價格模型和神經網絡在房地產批量評估有較大使用空間。綜合以上,得出的主要結論如下:
第一,變量重要性方面。在多層感知機的學習下,對石家莊市長安區二手住宅樣本而言,可以發現不同變量具有不同的重要性。其中,樓層在所有變量中最重要,占到100%的正態化比例,樓層對房價產生絕對影響,同時其余變量也具有一定的重要性,主要是學區房與否、配套設施等方面也會對房價產生較大影響;
第二,模型訓練方面。通過對大量數據的處理和學習后發現,多層感知機在模型訓練上具有突出的優勢。一方面,訓練速度快,即使是上千條數據也能在極短時間內訓練得出結果,這為今后建立批量評估的估價系統起到較好的借鑒作用,更體現了批量評估技術在房地產稅稅基評估中應用優勢;另一方面,訓練效果好,體現各誤差指標值較小,評估值與真實值擬合接近,展出技術預測的優越性。
第三,模型比較方面。經典特征價格模型具有較好的擬合效果,但是與神經網絡類的機器學習對比預測效果不太理想。特征價格模型主要是線性形式,函數是提前預設好的,但是實際交易市場中,特征變量與房價并不一定呈線性關系,這就造成誤差相對較大。其次,特征變量之間具有一定的相關性,會對最終的結果造成誤差。多層感知機則是利用機器模擬神經運行,利用非線性的形式,對樣本進行訓練,最終得到較好的評估效果。
此外,多層感知機具有較大的算法優化空間,后期還可繼續添加算法使其更加優化,比如廣義多層感知機[14]、BP 神經網絡的粒子算法、螞蟻算法、遺傳算法、卷積神經網絡等等。樣本數據有擴充空間,變量可能考慮不全,今后可以完善相關研究。