999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多元線性回歸統計模型在房價預測中的應用

2021-07-20 04:49:23羅博煒洪智勇王勁屹
計算機時代 2021年6期

羅博煒 洪智勇 王勁屹

摘 ?要: 以多元線性回歸統計模型為基礎,用Python語言對美國部分地區房價數據進行建模預測,進而探究提高多元回歸線性模型精度的方法。先對數據進行探索性預處理,隨后設置虛擬變量并建模得出預測結果,再使用方差膨脹因子對多重共線性進行修正,從而提高模型精度與穩健性,使回歸結果在很大程度上得到優化。

關鍵詞: 多元線性回歸; 多重共線性; 虛擬變量; 方差膨脹因子

中圖分類號:TP3-05 ? ? ? ? ?文獻標識碼:A ? ? 文章編號:1006-8228(2020)06-51-04

Abstract: Based on the multiple linear regression statistical model, this paper built the model to predict the house price by utilizing some parts of the United States data, and then explores methods to improve the accuracy of the multiple linear regression model. Firstly, the data were preprocessed, and then the dummy variables were set up for modeling to obtain the predicted results. After that, the multicollinearity was modified by variance inflation factor so that the accuracy as well as robustness of the model was improved, and the regression results were optimized largely.

Key words: multiple linear regression; multicollinearity; dummy variable; variance inflation factor

0 引言

多元線性回歸具有非常廣泛的應用范圍,但在實際預測中對存在類別變量設置不充分或多重共線性問題,導致統計模型缺乏精度和穩健性。由此,本文對如何精準且高效的排除多重共線性影響,并合理地將分類變量轉化為虛擬變量,提升多元線性回歸模型精度作了進一步探索,并將其應用于房價預測上。

1 多元線性回歸模型

一個因變量與兩個或更多的預測變量之間的聯系被稱為多元相關。在這種情況下做出的預測被稱為多元回歸。線性關系指因變量與自變量之間存在一次方函數關系。多元線性回歸模型如下:

其中y為因變量;為自變量;β0,β1,β2,…,βm-1是m個未知參數;ε是均值為零,方差為σ2>0的不可觀測的隨機變量,稱為誤差項,并通常假定ε~N(0,σ2)。

多元回歸模型初步建立后,是否真正解釋了預測變量和因變量的關系,還要進行顯著性檢驗。

1.1 回歸方程的擬合優度檢驗

判定指數R2描述了由自變量的線性函數值所能反應的Y的總變化量比例。結果在0-1間,越大說明擬合效果越好,判定指數公式如下

其中,MSE表示均方誤差,SSE被稱為殘差平方和。SSR則被稱為回歸和,反映了自變量的線性函數在各組觀測值出取值的離差平方和;SST則被稱為總離差平方和,用于度量y自身的差異程度,即數據總的變動。

1.2 回歸系數的顯著性檢驗

t檢驗是分別檢驗回歸模型中各個回歸系數是否具有顯著性,以便使模型中只保留那些對因變量有顯著影響的因素。檢驗時先計算統計量ti;然后根據給定的顯著水平α,自由度n-k-1查t分布表,得臨界值tα或tα/2, 若t>t-α或tα/2,則回歸系數bi與0有顯著差異,反之,則與0無顯著差異。統計量t的計算公式為:

2 虛擬變量的轉換

常見的變量類型有定量變量與定類變量兩種,其中定類變量也被稱為屬性變量,即該變量的分數是屬性,或是可分類的(如房價預測中的房屋類型)。但在房價回歸分析中不宜直接使用定類變量,因為對定類變量所賦與的離散值之間的相等間距掩蓋了不同類別之間的差異(如房屋朝向),虛擬變量是解決該問題的經典做法之一。任意一個具有k個屬性皆可定義成一組k個取值為1或0的虛擬變量。表1以房屋朝向為例,舉例構造虛擬變量。值得注意的是,轉化需要舍棄一個虛擬列,才能得到滿秩矩陣[1]。

3 多重共線性與VIF

3.1 多重共線性

多元線性回歸模型的主要假設之一是自變量彼此不存在強相關,否則會出現多重共線性問題。多重共線性的一個主要問題在于,它會導致多元線性回歸系數的顯著性偏離真實方向。要判斷是否有多重共線性,最常見的辦法是借助方差膨脹因子來修正[2]。

3.2 方差膨脹因子

方差膨脹因子(Variance Inflation Factor,VIF)是指解釋變量之間存在多重共線性時的方差與不存在多重共線性時的方差之比。VIF越大,顯示共線性越嚴重。自變量x的方差膨脹因子記為VIF,它的計算方法為:

經驗判斷方法表明:當0

4 案例分析

本文選用2019年美國波士頓地區房價作為示例數據集(6028條),已經剔除各屬性過高或過低的異常值,并專注于多元線性回歸分析,通過實例數據驗證回歸分析的結果,并使用方差膨脹因子對模型中可能存在的多重共線性進行修正,進一步提高了模型的精度與泛化能力。示例數據集屬性說明見表2。

隨機預覽5條數據如表3所示。

4.1 房價影響參數分析

正式建立模型前,使用探索性數據分析(Exploratory data analysis以下簡稱EDA)來查找數據集中變量的分布、模式、關系或異常情況,可以對數據集本身有一個快速直觀的了解,并且會在很大程度上為后續建模提供便利。Python作為一門強大的編程語言,在數據可視化方面為客戶提供了如Matplotlib,Seaborn等強大的第三方庫[3]。EDA結果如圖1所示。

圖1散點圖矩陣可以看出:不論房屋樣式如何,房屋的價格與占地面積、房間數量等都呈現不同程度的正相關關系;占地面積與房間數量的關系亦如此。

4.2 建立模型

Python的統計學庫 statsmodels 可以很好的處理預測變量和因變量,輸出自變量系數的同時亦能給出每個回歸系數的顯著性檢驗,置信區間,以及模型的精度情況取定量變量area,bedrooms,bathrooms作為預測變量,房屋價格price作為因變量,來初步建立多元線性回歸模型,得到表4。

表中各自變量的顯著性檢驗結果(P>|t|)項表明:對變量bedrooms與bathrooms來說,我們只能保留零假設,證明無顯著統計性,面積則具有顯著統計性。

4.3 多重共線性的檢測

觀測自變量bedrooms與bathrooms二者的系數時,不難發現:在模型其他變量不變的情況下,預測變量bedrooms每增加一個單位,因變量房屋價格會隨之減少2925.81美元,這就與EDA中散點圖的預期截然相反,見圖1。

散點圖是檢測是否出現多重共線性的其中一個方法,本身不夠精確,而Python的第三方支持庫 patsy 與 statsmodels中的方差膨脹因子函數,可很好的解決該問題。當建立的多元線性回歸模型中有存在多重共線性的風險時,statsmodels 庫會在運行結果后自動打印 Warnings 信息作為提醒,具體檢測結果如表5。

可清晰看出自變量bedrooms與bathrooms的方差膨脹因子均大于10,因此,存在顯著的共線性,選取最大的方差膨脹因子變量為多余變量,將其剔除再重復上述多元回歸模型的建模步驟,重新計算自變量系數、截距及方差膨脹因子,結果如表6、表7。

結合表5和表7可以看出,刪除最大膨脹因子變量bedrooms后,模型精度變強,且方差膨脹因子也回到正常水平,由此證明初步模型存在多重共線性問題。

4.4 設置虛擬變量

上述建模步驟均是將定量變量作為自變量,未能辨析街區及房屋樣式等定類變量對房價的影響。此時需要給分類變量設置虛擬變量。Python的pandas庫中的get_dummies函數可以快捷設置虛擬變量,見表8。

4.5 優化后的多元線性回歸模型

自變量:area,bathrooms,A,B,lodge,ranch

因變量:price

優化后的模型在運行過程中,并沒有出現多重共線性的警告,穩健起見,再次進行方差膨脹因子檢驗,結果見表10。

綜上所述,可得知以下信息。

⑴ 多元線性回歸模型結果為:

⑵ 判定指數R2 91.9%所反映的價格變動,可由基于占地面積、住宅區、住宅風格和臥室數量這四個變量來解釋,經過優化后的模型擬合效果較好,預測結果更加可靠;

⑶ 各自變量的p值均小于1%,呈現出較強的顯著性;

⑷ 其他條件不變的情況下,一間住宅每增加一個臥室,預測其價格會增加5386美元;

⑸ 其他條件不變的情況下,預測C住宅區的房價要比A住宅區的房價少88美元,住宅區B則比C要多524400美元;

⑹ 其他條件不變的情況下,預測大農場式房屋 ranch 比維多利亞住宅價格要多6224美元。

5 結論

本文以多元線性回歸為基礎和前提,在因變量房價與多個自變量的實際觀測值建立了多元線性回歸模型;分析并檢驗各個預測變量對因變量的綜合線性影響的顯著性,并盡可能的消除多重共線性的影響,篩選出因變量有顯著線性影響的自變量,對基準模型進行優化,并對各自變量相對重要性進行評定,進而提升了回歸模型的預測精度。

參考文獻(References):

[1] 曹志祥.回歸分析中虛擬變量的系數轉換[J].統計研究,1994.11(1):69-71

[2] 肖琳,何大衛.Pls回歸在消除多重共線性中的作用[J].山西醫科大學學報,2002.3:228-231

[3] Mckinney W.利用PYTHON進行數據分析[M].機械工業出版社,2014.

主站蜘蛛池模板: 亚洲欧美成人综合| 国产亚洲精品精品精品| 亚洲永久精品ww47国产| 在线亚洲天堂| 日韩成人在线网站| 国产综合另类小说色区色噜噜 | 亚洲欧美激情另类| 久久精品中文字幕少妇| 欧美成a人片在线观看| 国产亚洲精久久久久久久91| 一区二区三区四区精品视频| 欧美在线国产| 成人在线欧美| 99视频精品全国免费品| 91福利在线看| 国产免费久久精品44| 1024你懂的国产精品| 美女扒开下面流白浆在线试听| 欧美成人精品欧美一级乱黄| 亚洲视频欧美不卡| 欧美色香蕉| 中国毛片网| 免费黄色国产视频| 精品一区二区三区中文字幕| 91娇喘视频| 噜噜噜久久| 日韩高清无码免费| 久久亚洲高清国产| 视频一区亚洲| 亚洲国产精品一区二区第一页免 | 国产丝袜无码精品| 真实国产乱子伦高清| 天堂中文在线资源| 一区二区三区四区在线| 55夜色66夜色国产精品视频| 国产成人资源| 特级毛片免费视频| 色婷婷在线播放| 四虎精品免费久久| 亚洲日韩国产精品无码专区| 91网站国产| 99福利视频导航| 国产成人h在线观看网站站| 巨熟乳波霸若妻中文观看免费 | 老熟妇喷水一区二区三区| 欧美日韩一区二区三| 自慰网址在线观看| 中文无码毛片又爽又刺激| 亚洲精品免费网站| 日韩天堂在线观看| 中文字幕久久波多野结衣| 粗大猛烈进出高潮视频无码| 亚洲一级毛片免费看| 欧美亚洲欧美| 国产精品视屏| 国产中文一区a级毛片视频| 国产成人一区二区| 在线毛片网站| 欧美一区二区三区欧美日韩亚洲 | 国产香蕉97碰碰视频VA碰碰看| 国产性精品| 日本高清在线看免费观看| 精品无码视频在线观看| 久久久久亚洲AV成人网站软件| 波多野吉衣一区二区三区av| 99re这里只有国产中文精品国产精品| 三区在线视频| 精品国产成人高清在线| 四虎综合网| 亚洲高清在线播放| 日韩第九页| 亚洲国产精品一区二区第一页免| 国产一区二区免费播放| 免费一级毛片在线观看| 粗大猛烈进出高潮视频无码| 久久窝窝国产精品午夜看片| 四虎影视国产精品| 77777亚洲午夜久久多人| 国产无码性爱一区二区三区| 波多野结衣国产精品| 日本少妇又色又爽又高潮| 日韩国产综合精选|