【摘要】本文以探究如何將大數據運用在房地產評估領域為重點進行分析,以當下房地產行業的大數據基礎為主要依據,為大數據的獲取和分析提供了系統方法,試圖為人工智能時代下的房地產預測提供一種新的思路和解決方式。
【關鍵詞】房地產評估;大數據
房地產行業是我國的支柱型產業,對國民經濟發展影響深遠。當前,大數據的發展與應用為房地產評估行業帶來了巨大的機遇和挑戰,基于大數據分析下的評估結果,企業能夠最大限度地消除評估過程中的主觀性,改善融資鏈條下風控中的房地產評估環節,進而控制資產交易的風險。
1、大數據下房地產數據信息概況
1.1大數據技術簡介
大數據通常指系統地抽取并處理信息的一系列方式,這些信息可以指任何類型,包括數字、文本、照片、視頻、音頻和其他形式,海量信息由廉價且眾多的信息傳感物聯網設備收集,揭示行業內存在的問題和規律。大數據中所包含的數據集大小和計算復雜度,通常超過了常用軟件工具在有限時間內對數據的捕獲,整理,管理和存儲能力,因此大數據往往依賴于云計算等并行計算處理工具,例如在數十,數百甚至數干臺服務器上運行的大規模并行軟件。從本質上說,大數據擴大了數據分析的抽樣方法和范疇,降低了對精確性的要求,更多地轉向揭示房地產經濟領域的復雜聯系,并且預測其經濟行為。在大數據時代這一大背景下,企業評估人員需從數據中提煉有效信息,并與具體業務知識進行結合分析,從而引導企業評估環節的有效變革。
1.2房地產行業大數據構成
房地產評估行業是一個典型的數據密集型行業。各房地產土地評估機構通過長期經營,已經逐步積累了海量的數據信息。比如以房地產行業為中心的交易活動便派生出各種交易數據,包括房價評估數據,抵押登記數據,各渠道消費數據等。而宏觀經濟、土地、人口等數據作為傳統房地產行業的基本評估維度,其信息主要包括土地規劃,宏觀經濟政策,土地應用等級及金融投資等,這些同樣是房地產企業開展評估工作不可或缺的。此外,通過獲知消費者群體的年齡分布,性別分布,消費能力,分析不同時間段的人口流動軌跡和人口聚集情況等數據,企業也能輕易完成目標消費者畫像,判斷市場的消費活力。房地產行業龐大的結構性數據資源集合了本行業受到產業上下游的綜合作用,收集房地產大數據是確保評估工作順利進行的有利條件。
2、房地產大數據獲取技術
2.1傳感器
傳感器是房地產城市大數據最經典的形式,它們被放置在建筑物及道路之間,以各種物理信息作為輸入,包括光線,溫度,空氣質量,噪音污染水平等。例如聲光傳感器可以放置在地塊中的十字路口或橋頭,測得這些區域的交通狀況和人流量;光纖傳感器可以監控地塊的土質狀況并標記裂縫。隨著傳感器價格持續走低,性能不斷提升,數據共享和傳輸得以實現持續化與便捷化。
2.2APP
隨著智能手機的廣泛應用,APP成為了新的大數據渠道。大量的開放式公交應用與滴滴,共享單車定位等商業應用提供的大量交通數據,能夠判斷地塊是否處于高速發展國內,以及是否存在配套生活設施的虹吸效應。部分應用程序還允許用戶有意識的輸入數據。通過對在線評價數據的研究,地產商可以定位潛在消費者,并預測他們的購買力和購買偏好,從而預測商圈的前景。
2.3GIS與遙感技術
地理信息系統(GIS)和遙感技術能提供一套完整的空間數據獲取,存儲,顯示,和處理的模式,其綜合了房地產空間位置,形狀,大小,分布狀況和拓撲關系等空間方面的信息,并且借助計算機技術實現了對數據的批量管理和可視化。由于房地產的價值嚴重依賴地理位置,周邊環境等信息,GIS和遙感技術能使得評估人員能夠更有效的分析影響房地產價格的空間區位因素,從而提高評估結果的準確性。
3、房地產大數據分析技術
幾十年來,房地產評估的準確性一直是業界爭論和研究的話題。傳統的房地產評估方法過于依賴過去的價格,然而由于市場變化難以預期,所選的可比實例與持估房地產不可能完全相同,通過過去市場變化情況預測未來房地產價格時通常會產生很大偏差。同時,評估人員對房地產狀況的勘察難以做到細致入微,僅僅依靠賣家,買家或時中介人員的陳述勢必會造成評估結果的主觀偏差。
盡管房地產估價領域的不精確性和低效性依然存在,然而隨著機器學習技術的出現,房地產行業數據的可用性已經顯著增加。將大數據應用于某些復雜的建模技術中,即可實現用于房地產開發發自動商業估價模型。
3.1基于決策樹
決策樹模型是將數據按順序劃分為子集的一種算法。每一次劃分之后,數據將向下被傳遞到樹分支的下一個結點,直到所有實例具有相同的分類。根據目標數據的性質,有兩種類型的決策樹,分類樹(預測類別)和回歸樹(預測連續變量)。因為資產的價值是連續的,通常使用回歸樹作為大數據分析模型。
回歸樹算法通過最小化平方誤差在當前特征集中選取最佳的預測因子,進而根據特征的重要性生成一個序列,序列中的每一個特征表示決策樹中的一個節點。第一個節點(也成為根節點)包含整個數據集,根節點數據集的分割方法基于成本函數確定的預測因子,該因子可以使得兩個子數據集的回歸方差最小化。在葉子節點中繼續對數據集進行分析,選出表現最好的特征進行劃分,這一過程在樹的所有分支中都是遞歸的,直到達到樹的期望深度。
與傳統的回歸模型相比,決策樹易于理解和應用,統計顯著性明顯,即使數據量很大也可以在短時間內做出預測。盡管有這些優點,決策樹也有一些局限性,一方面訓練集中可以使決策樹無限制垂直增長,這樣的深樹產生了非常復雜的模型,對未知數據的預測存在較大偏差,這種現象稱為過擬合。另一方面,如果決策樹太淺,訓練數據的小變化就會導致預測結果的大變化,這樣的模型是欠擬合的。為了克服決策樹模型的局限性,可以通過創建多個決策樹獲得平均預測。最流行的決策樹集合是隨機森林模型,其在減少方差上表現優異,適用于降低單一決策樹的過擬合現象。另一種著名的集成方法是梯度增強模型,其根據初始決策樹的殘差生成新樹,各決策樹預測結果的加權和即為分析結果。隨著迭代次數的增加,梯度增強模型的精度逐步提高,減少了決策樹的欠擬合現象。
3.2基于神經網絡
神經網絡是由大量處理單元廣泛互聯而成的網絡,它反應人腦的基本特征,是對人腦的抽象,簡化和模擬。人工神經網絡由一個輸入層一個輸出層和若干個隱含層組成,不同層之間的節點通過權進行連接。除輸入節點之外的任意節點都可以用激活函數表示,可選擇線性型,閾值型或S型等。實際中以影響房地產價格的因素作為輸入信號,上層節點的數據經由連接權的處理,通過激活函數變換并輸出到下層,最終得到房地產的估計價格。
神經網絡的訓練由兩階段組成,信息正向傳遞與誤差反向傳播。首先通過輸入學習樣本,層層激活神經網絡中的節點,得到實際輸出。然后計算神經網絡估計值與學習樣本標簽之間的誤差,反向傳播該誤差,得到各節點對誤差的貢獻,并修改各層的連接權,再次進行預測。正向傳遞與反向傳播兩個階段循環進行,直到網絡收斂為止。傳統的神經網絡采用最速下降法,通過梯度方向來確定各連接權的修改幅度,這樣能保證每次迭代之后輸出的誤差逐步減小。
傳統BP神經網絡是一種依賴梯度下降的算法,這種優化算法有著諸多缺點,例如過于依賴空間誤差表面的瞬間梯度值,使得算法的收斂速度不能保證。若誤差曲面對權值的導數很小,則算法需要多次迭代才能收斂。若誤差曲面在權空間上是陡峭的,對權值的調整有可能越過誤差的極小值點,導致算法來回震蕩。再如誤差曲面并不是單峰的,梯度下降算法可能收斂在局部極小值點,降低神經網絡擬合的精確性。為了改進傳統神經網絡的缺點,通常使用自適應學習算法和浮動加量法來優化梯度下降過程。將每一次權值的變化加上一個正比于上一次權值的調整量,并且通過對比誤差函數下降量的大小動態調整學習速率,這樣可以提高梯度下降算法的收斂速率,使網絡陷入局部極小值的可能性大大降低。
結語:
在大數據技術不斷發展的今天,傳統資產評估逐漸暴露出一系列缺陷與問題。不斷產生的新的評估需求要求評估人員科學合理地收集數據,并搭建智能化的分析模型,從而提高回款效率,控制投資風險,完成土地價值評估這一行業的有效變革。
參考文獻:
[1]朱品,王培娟,汪麗麗,等.大數據下房地產土地價值評估的分析方法[J].價值工程,2018,37(10):219-220.
[2]郭欣欣.人工神經網絡在住宅類房地產評估中的應用[D].首都經濟貿易大學,2012
作者簡介:
王巖(1969-),女,漢族,湖南省湘鄉縣,中級,學士,研究方向:評估。