黃明宇 夏典
[提要] 房地產(chǎn)價(jià)格變化一向是社會(huì)關(guān)注的熱點(diǎn)。本文從鏈家二手網(wǎng)站上爬取了近萬組合肥市截止到2018年3月的最新二手房交易數(shù)據(jù),據(jù)此建立因變量為二手房售價(jià),自變量分別為建筑面積、使用年限、戶型等11個(gè)變量的多元線性回歸模型,并對(duì)模型進(jìn)行優(yōu)化,最終得到較優(yōu)的二手房?jī)r(jià)預(yù)測(cè)模型,為合肥二手房交易各方提供一種有實(shí)用價(jià)值的房?jī)r(jià)定價(jià)工具。
關(guān)鍵詞:合肥二手房?jī)r(jià)格;房?jī)r(jià)預(yù)測(cè)模型;逐步回歸
本文為云南師范大學(xué)研究生核心課程建設(shè)項(xiàng)目(項(xiàng)目編號(hào):YH2018-C08);指導(dǎo)老師:郭民之
中圖分類號(hào):F293.3 文獻(xiàn)標(biāo)識(shí)碼:A
收錄日期:2019年2月25日
一、引言
住房是我國(guó)城鄉(xiāng)居民的一個(gè)基本生活需求,房屋價(jià)格一向是社會(huì)熱點(diǎn)話題。2016年內(nèi)合肥房屋均價(jià)漲幅為48.4%,漲幅排名全球第一,受到了國(guó)內(nèi)外特別關(guān)注。本文選用了涉及建筑面積、戶型、區(qū)域均價(jià)等13個(gè)影響因素共9,185組合肥市二手房相關(guān)交易數(shù)據(jù),據(jù)此建立二手房售價(jià)預(yù)測(cè)模型,并對(duì)模型進(jìn)行優(yōu)化,為合肥二手房交易各方提供了一種有實(shí)際價(jià)值房?jī)r(jià)定價(jià)工具。
二、數(shù)據(jù)預(yù)處理
本文數(shù)據(jù)主要來自鏈家二手房網(wǎng)(https://hf.lianjia.com),全部為介于2017年3月至2018年3月合肥二手房交易相關(guān)數(shù)據(jù),首先對(duì)原始數(shù)據(jù)進(jìn)行拆分、歸類和缺失值處理,共得到9,185組有效數(shù)據(jù),每組數(shù)據(jù)中Price(房?jī)r(jià))為因變量,其余13個(gè)變量為自變量,分別為:Avep(區(qū)域均價(jià))、Deco(裝修程度)、Towards(房屋朝向)、HT(戶型)、HA(建筑面積)、TF(該樓層高度)、KF(樓層段)、HY(使用年限)、Focus(網(wǎng)絡(luò)關(guān)注人數(shù))、Visit(看房人數(shù))、Ad(信息發(fā)布時(shí)間)、HCY(房產(chǎn)證是否滿五年唯一)、NTS(是否靠近地鐵站)。例如變量區(qū)域均價(jià)Avep就包括政務(wù)區(qū)、濱湖區(qū)、蜀山區(qū)、廬陽區(qū)、包河區(qū)、瑤海區(qū)六個(gè)城區(qū)的二手房均價(jià)、裝修程度分為精裝、簡(jiǎn)裝、毛坯和其他四類;其余自變量類似處理,這里略。本文主要考慮二手房交易中常規(guī)的交易數(shù)據(jù),故將原始數(shù)據(jù)中價(jià)格超高的數(shù)據(jù)(超過1,000萬)直接刪除。
三、多元線性回歸模型
(一)模型定義。多元線性回歸模型通常用來描述因變量y與p(p≥1)個(gè)自變量x1,x2,…,xp之間的線性相關(guān)關(guān)系,模型形式為:
y=?茁0+?茁1x1+…+?茁pxp+?著
其中,?茁0,?茁1,…,?茁p是回歸系數(shù),?著~N(0,?滓2)是隨機(jī)誤差。
(二)建立模型。本文借助R軟件中線性回歸函數(shù)lm()給出模型回歸系數(shù)的最小二乘估計(jì),并對(duì)回歸方程和回歸系數(shù)進(jìn)行顯著性檢驗(yàn),程序輸出結(jié)果見表1,從中看出檢驗(yàn)統(tǒng)計(jì)量F所對(duì)應(yīng)的p值為2.2×10-16,說明回歸方程是非常顯著的,但是對(duì)諸回歸系數(shù)的t檢驗(yàn)所對(duì)應(yīng)的p值顯示自變量Towards、KF不顯著,其余自變量和常數(shù)項(xiàng)顯著;判定系數(shù)R2等于0.8349,擬合程度較高。(表1)
下面,用R軟件中的逐步回歸函數(shù)step()對(duì)上面建立的線性回歸方程進(jìn)行變量篩選和優(yōu)化,程序輸出結(jié)果見表2所示。(表2)
結(jié)果顯示采用全部自變量作回歸(即
現(xiàn)用R軟件中函數(shù)summary()函數(shù)觀察Price關(guān)于Avep、Deco、HT(不包括Towards、KF變量)等11個(gè)變量的回歸模型的信息,并同樣做逐步回歸,結(jié)果如表3所示。(表3)
從表3中,看出檢驗(yàn)統(tǒng)計(jì)量F所對(duì)應(yīng)的p值幾乎為零,說明回歸方程是非常顯著的,對(duì)諸回歸系數(shù)的t檢驗(yàn)所對(duì)應(yīng)的p值顯示全部11個(gè)自變量和常數(shù)項(xiàng)均顯著;判定系數(shù)R2等于0.8349,模型擬合效果較好。
綜上所述,我們得到了較優(yōu)模型:
Price=-168+0.009849×Avep+2.99Deco+1.49×HT+1.754×HA+0.2396×TF-0.6414×HY-0.3608×Focus+0.3472×Visit-0.4947×Ad-2.587×HCY+2.01×NTS
從模型中可以看出,因變量Price與Avep、Deco、HT、HA、TF、Visit、NTS等7個(gè)自變量成正相關(guān)關(guān)系(區(qū)域均價(jià)上漲、或裝修程度越高、或住房面積越大、或戶型越好等必然會(huì)導(dǎo)致房?jī)r(jià)越高),因變量Price與Focus、Ad、HY、HCY等4個(gè)自變量成負(fù)相關(guān)關(guān)系(網(wǎng)絡(luò)關(guān)注度高(但無人買),或發(fā)售日期長(zhǎng),或使用年限長(zhǎng),或待售房產(chǎn)“滿五唯一”,會(huì)導(dǎo)致房?jī)r(jià)下降)。可見,本文所得到的房?jī)r(jià)預(yù)測(cè)模型與二手房交易的實(shí)際意義是相符合的。
四、模型的交叉驗(yàn)證及實(shí)際預(yù)測(cè)示例
用十折交叉驗(yàn)證法對(duì)模型預(yù)測(cè)結(jié)果做交叉驗(yàn)證,其平均標(biāo)準(zhǔn)化均方誤差(NMSE)為0.1659765,遠(yuǎn)小于1,模型交叉驗(yàn)證效果較好。
再隨機(jī)抽取鏈家二手網(wǎng)上已經(jīng)成交的10套房的房?jī)r(jià)與模型預(yù)測(cè)的房?jī)r(jià)作對(duì)比如表4所示。(表4)
預(yù)測(cè)模型使用說明:合肥某人有一房產(chǎn),一個(gè)月前在鏈家二手交易市場(chǎng)中發(fā)布房屋出售信息,信息如下:房屋地處政務(wù)區(qū),3室2廳,建筑面積為120平方米,簡(jiǎn)裝房,共2層,房屋使用2年,網(wǎng)絡(luò)關(guān)注有2人,0人參觀,房產(chǎn)證沒有滿五年,靠近地鐵站。將上述信息量化后帶入到模型中,計(jì)算出的房?jī)r(jià)為255.49萬元。于是買賣雙方可在255.49萬元這個(gè)參考價(jià)格進(jìn)行議價(jià),最終完成交易過程。
五、總結(jié)與評(píng)價(jià)
本文中最終得出了擬合度較高的房?jī)r(jià)預(yù)測(cè)模型,為合肥市二手房交易提供了一個(gè)有實(shí)用價(jià)值的房?jī)r(jià)參考定價(jià)工具,買賣雙方或中介公司只要將模型中所需的變量值帶入,就可得出相對(duì)應(yīng)的二手房?jī)r(jià),在這個(gè)參考房?jī)r(jià)上雙方可以商議具體房屋交易價(jià)格。
當(dāng)然,模型也存在著一些問題。根據(jù)經(jīng)驗(yàn),建立模型時(shí)去除的自變量Towards(房屋朝向)和KF(樓層處于哪段),在二手房交易中往往也是不能忽略的因素。另外,由于數(shù)據(jù)是從網(wǎng)絡(luò)收集到的,有的重要數(shù)據(jù)資料難于收集,比如是否為學(xué)區(qū)房、房屋建筑的安全系數(shù)等。所以,模型還可以結(jié)合實(shí)際數(shù)據(jù)作進(jìn)一步的優(yōu)化。
主要參考文獻(xiàn):
[1]中商情報(bào)網(wǎng).http://www.askci.com/news/dxf/20170119/
16085988495.shtml,2017.1.19.
[2]合肥鏈家網(wǎng).https://hf.lianjia.com/.
[3]南方財(cái)富網(wǎng).http://www.southmoney.com/paihangbang/201712/1834628.html,2017.12.
[4]費(fèi)宇.郭民之.陳貽娟.多元統(tǒng)計(jì)分析——基于R[M].北京.中國(guó)人民大學(xué)出版社,2014.
[5]郭會(huì)利.多元回歸分析的逐步回歸預(yù)測(cè)模型[J].考試周刊,2009(26).