李盛達
(南京審計大學信息工程學院,江蘇 南京211815)
中國的房地產業已經成為國民經濟的支柱產業,房地產市場的調整將影響整個金融市場的變化,因此穩定房價是國家近年來提出的目標。[1-2]線性回歸是數理統計中的一種統計分析方法,需要給出訓練數據的分類標識,是機器學習系統的典型構成。有著建模速度快、可根據系數給出每個變量的解釋、對異常值敏感三個優點。多元線性回歸分析是指包括兩個及以上自變量且因變量和自變量滿足線性關系。傳統的房價預測模型僅僅考慮了當前房價與周圍城市房價,沒有考慮市場環境及國家宏觀因素,如失業率、貸款利率及國民消費指數,而這些因素均會影響房價的走勢,消費指數更是一項影響經濟發展的重要指標,預測時加以考慮,能更好的得出結果[3]。
首先考慮時間和房價指數作為最基本的變量。房價指數是指房屋銷售價格指數,反映一定時期內房屋銷售價格變動程度和趨勢的相對數,通過百分數的表示來反映房價在不同時期的漲跌幅度,包括商品房、公有房屋和私有房屋的銷售價格變動情況,可以很好反應當地的整體水平與價格空間,部分數據如表1 第2 列所示。
考慮失業指數作為一個重要變量,是指不同時期的失業人數比率,可以用來衡量失業人數變動的程度,用百分數表示并作為一項指標。 實驗中將其劃分為六種不同狀態(total_umemployed 完全沒有工作的;more-than-15-weeks 超過15 周的;not_in 沒有找工作的;multi_jobs 多份工作的;leavers 自動離職的;losers 被解雇的),部分數據如表1 第7-12 列所示。
考慮美國聯邦政府貸款買房的利率,貸款利率的高低直接決定著利潤在借款企業和銀行之間的分配比例,進而影響著借貸雙方的經濟利益,是一項相當重要的屬性。貸款利率因貸款種類和期限的不同而有所差異,同時也與借貸資金的稀缺程度相聯系。部分數據如表1 第13 列所示。
考慮工業生產總值,其與國家整體發展相關,且房地產行業與工業密不可分??紤]其中四個因素(total_expenditures 消費;labor_force_pr 人力資源;producer_price_index 生產者價格指數;gross_domestic_product 國民生產總值),截取部分數據如表1 第14-17 列所示。
建模時,強調找到數據之間的相關性并經行驗證。同時,使用數據要避免數據孤島情況的發生,需要對數據進行關聯性操作,而相關分析的目的在于檢驗兩個隨機變量的共變趨勢。對于回歸分析而言,其中的因變量必須為隨機變量,而自變量則可以是普通變量,但也可以是隨機變量,并不會對實驗結果產生根本性的影響。

表1 數據獲取及關聯性分析
3.2.1 首先對數據集進行關聯合并,以多個表的共同列——日期作為連接依據;部分代碼如下所示。
df=housing_price_index.merge (shiller,on='date')
.merge(unemployment,on='date')
.merge(federal_funds_rate,on='date')
.merge(gross_domestic_product,on='date')

3.2.3 評價指標:Ordinary Linear Square 普通線性方差
通過summary()函數,觀察這個模型的情況,具體方式如圖1 所示,所得出的結果中,R-squared=0.952,說明相關性比較大,即模型所選取的自變量可以有效的影響y 的值。

圖1 summary()函數分析
實驗圖像如圖2 所示。

圖2 實驗結果圖
通過對數據的擬合及對變量的分析,實驗預測房價指數結果為174.883133,與實際值178.652 的誤差為3.769967,誤差率約為2%,屬于小概率范圍,進一步證明了此模型可以很好的預測曼哈頓市房價,具有很強的操作性與準確率,實驗較為成功,提出的多變量回歸模型是值得推薦并廣泛使用的,可以達到很好的預測效果。