牛 勇,趙 攀
(1.合肥學院 數學與物理系,安徽 合肥 230601;2.皖西學院 金融與數學學院,安徽 六安 237012)
近20年來,房地產業在我國迅速發展,已成為很多大中城市的支柱產業,在國民經濟發展中發揮非常重要的作用。在房地產行業運行發展過程中,涉及多個相關產業,如水泥、鋼材、勞動力等等。有資料統計顯示在我國GDP的占比中,房地產業對其直接貢獻率與間接貢獻率共計大約占15%[1],引領了相當一部分產業的發展,逐漸成為國民經濟的支柱產業。伴隨著房地產行業的蓬勃發展,國內各大城市房價持續走高,特別是北上廣等大城市的房價增速已大大超過普通居民的收入增長速度。居民購房壓力日趨增大,因而探尋影響房價變動的因素成為社會大眾關注的焦點,具有重大的現實意義。
目前,學界關于房地產價格影響因素分析已有一定的研究,如高霞利用因子分析和主成分分析方法對35個城市2004年商品住宅價格進行分析,結果顯示影響商品住宅價格因子有四個,分別為城市基礎設施和環境因子、規模因子、經濟因子以及區位因子[2]。肖磊通過30個省會城市的房地產截面數據對房價的影響因素進行分析,得出供應和需要才是影響房價的主要因素[3]。王勇利用2000—2009年武漢城市圈房地產實際數據,建立多元線性回歸模型,根據回歸系數的絕對值大小得出房地產開發投資完成額以及城鎮居民人均可支配收入是影響武漢商品住宅價格的主要因素[4]。羅玉波利用分位數回歸的方法得出不同的房屋屬性對與房價的影響隨著分位數水平的不同而不同,從而得到比一般均值回歸更全面的描述[5]。劉闖通過分析我國1997至2009近13年的房地產數據,利用計量經濟學相關知識進行建模,得出影響我國房價的聯立方程模型,并說明該模型的有效性[6]。金克鎮通過建立一般的線性回歸模型,得出常住人口數量、CPI、調控政策是影響商品房價格指數的主要因素[7]。范允奇對存在市場摩擦和投機時的房價運行特征進行二階段局部動態調整建模,并利用動態面板數據模型和遞歸分析方法分析了房價影響因素的區域差異和時序變化[8]。周畢文首先從需求、供給和環境三方面對北京商品房價先進行定性分析,再利用灰色關聯度定量分析方法定量分析影響住宅價格的影響因素,結果表明影響北京房價因素的重要程度由高到低分別為供給因素、需求因素、環境因素[9]。陳新峰在理論分析的基礎上,利用VAR模型分析得出國內生產總值、貨幣與準貨幣供應量、城鎮居民人均可支配收入、土地價格、房地產開發中外資利用額和房地產價格之間都存在長期的穩態關系[10]。H.G. Roh和C.F. Wu通過分析上海和首爾兩地1999至2009年數據,分別建立兩城市住房政策、住房價格、貸款利率和竣工住房面積的VAR模型,并相互對比得出定量分析結論[11]。
以上對與房地產價格影響因素的分析都是基于不同的角度,各有側重點,主要采用的方法是因子分析、線性回歸分析、層次分析法以及灰色關聯度模型法等,這些方法各有優缺點。總體來說在構建統計模型進行分析時,并非所有自變量都對響應變量有影響,因此變量選擇是不可忽視的問題。上述方法在建模前往往希望收集充分多的自變量,從而考慮的較全面。然而在實際問題中,特別是經濟數據,很多自變量指標往往有很強的相關性,從而使得模型出現多重共線性、過度擬合等統計問題,這些問題往往會給擬合或者預測帶來較大的誤差,影響統計推斷的精確性。早期的變量選擇方法主要采用逐步回歸,同時結合AIC、BIC等準則,取得較好的結果。但是,隨著科技的發展,數據量變得越來越大,雖然傳統的變量選擇方法仍有一定的實用性,但也有很多不足,比如計算的速度、算法的穩定性以及模型選擇的穩定性。為此,Tibshirani提出了Lasso方法,該方法通過添加懲罰項把協變量系數絕對值很小項壓縮成0,達到對模型進行同時的變量選擇和參數估計,而傳統的方法這兩步是分開進行的[12]。同時,它不僅克服傳統變量選擇和嶺估計的各種缺點,而且有大量的關于Lasso的算法,使用較為快速方便,因此Lasso方法被廣泛應用在現代回歸分析的各個領域。進一步,為使Lasso有更好的性質,Zou提出了Adaptive Lasso及相應的算法[13]。本文主要基于Adaptive Lasso的變量選擇方法,并選取適當的算法分析合肥市房地產價格影響因素,同時也給出了一般最小二乘方法、逐步回歸方法以及Lasso變量選擇方法的分析結果作為比較。本文從影響商品住宅價格的四個方面,即人口因素、收入因素、資金規模因素和物價水平因素角度入手,共選取八個指標:合肥市GDP、城鎮人口、城鎮居民可支配收入、商品住宅投資比重、商品住宅間缺口、商品零售價格指數、貸款利率、房地產開發投資為自變量,以每平方米商品住宅平均價格為因變量,分別利用上述四種統計方法進行建模分析,比較相關結果,定量分析影響合肥市住宅平均價格的因素,并試著預測房價走勢和提出相關建議。
Tibshirani于1996年在Nonnegative Garrote方法的基礎上提出了Least absolute shrinkage and selection operator(Lasso)方法[12],具體方法如下:
設響應變量Y和自變量X1,X2,…,Xp之間存在線性關系,即
Y=β0+β1X1+β2X2+…+βpXp+ε
(1)

則上述模型可記為:

(2)
其中誤差項ε滿足Eε=0,Cov(ε)=σ2I。在通常的高維問題中,總需要稀疏性假設,即模型系數β0,β1,β2,…,βp有許多系數為0,或者說自變量X1,X2,…,Xp中只有少數變量對響應變量Y有影響。Lasso方法就是從這些數據中找出那些模型系數為0的自變量,同時給出非0系數的估計,從而建立最終的稀疏模型。
為此,Tibshirani提出如下方法,即選擇使得式(3)達到最小的β:

(3)
這里‖.‖表示歐幾里得范數,λ∈[0,∞)是調節參數。Lasso函數(3)式對應有兩項,其中第一部分是傳統的控制模型擬合的優良性,而第二部分即為高維統計中常見的懲罰項。它的基本思想是把小的系數盡量往0壓縮,一旦某個系數壓縮成0,相應的自變量即被刪除。特別注意,這里調節參數λ的選取非常重要,λ選的越大,整個模型壓縮程度越大,從而傾向于刪除較多的自變量,導致最終模型中選取較少的變量。另外,在實際的算法中,式(3)的問題等價于下述問題:
min ‖y-xβ‖2
(4)

注意Lasso方法效果好壞的關鍵在于調節參數λ的選取,最初的想法是通過打格子點的方式,即在一組固定的λ點上計算參數估計值。但真正使得Lasso方法廣泛使用的算法是Efron提出的最小角回歸算法(Least angle regression,簡記 LARS)以及Friedman提出的坐標下降方法[14-15]。這里,LARS方法大致步驟如下:1)設所有的自變量系數為0,并從中選取一個與相應變量Y相關程度最高的,比如X1,然后沿著X1方向取最大的步長,直到有另一個自變量(比如X2)與當前的殘差有相同的相關性;2)沿著X1,X2的等角方向尋找最大的步長,直到第三個變量(比如X3)與當前的殘差有相同的相關性;依次類推直到第四個、第五個等自變量進人模型。這里我們注意到等角性使得它相對于逐步回歸中計算迭代的步長更容易計算,詳情參看Efron(2004)。另一種坐標下降法是沿著坐標軸的方向取下降,它的優點是雖然這里有p個參數,但是每次只是更新一個參數,其他p-1個參數是固定的,從而大大加快了計算速度。
雖然Lasso方法在高維數據分析中廣泛的運用,但它也有一些缺點,比如它不具備Fan(2001)提出的所謂Oracle性質,即無偏性、稀疏性和連續性[16]。對Lasso而言,它實際上是一種對嶺回歸的改進,利用懲罰函數是絕對值函數在零點處導數的奇異性,將一些不重要的變量系數壓縮成0的同時,也對重要變量的系數給予一定的壓縮,從而導致它不滿足無偏性的要求。因此Zou于2006年提出了Adaptive Lasso方法,從而具有所謂的Oracle性質。
該方法利用全模型下的最小二乘估計系數值計算不同變量的懲罰項,具體來說即系數絕對值大可能是真實模型中的變量,因而懲罰小,反之,系數絕對值小的可能不是重要自變量,因而懲罰大。基于這種思想,Adaptive Lasso的懲罰函數定義如下:
(5)

對式(5)的懲罰項部分進行二階泰勒展開,省略后面的高級無窮小近似可得:
緊接著利用牛頓-拉普森迭代方法進行計算,過程如下:


該方法相對而言計算較快、且算法較穩定,但是它的缺點是迭代中若某個回歸參數為0,該變量將永遠被排除在模型外。另外,算法的結果依賴于精度δ的選取,不同的δ可能導致模型的稀疏程度和參數估計結果有一定差異,具體見Fan和Li(2001)[16]。
國內外學者普遍認為影響商品價格的因素主要有以下四個方面:人口因素、收入因素、資金規模因素和物價水平因素。在我國現有的市場經濟體制下,均衡價格由市場的供需關系決定,而商品住宅房作為一種剛需商品,其價格主要受到房地產供求關系的影響。因此,本文將以上四個方面的因素重新歸納整理,按需求因素和供給因素進行分類。
1.需求因素
(1)城鎮人口
商品住宅的主要需求者是城鎮居民,因此人口數量直接影響一個地區對住房的需求量。人口越密集,相對而言就會存在更多的商品房潛在需求者,對商品房價格的上漲其推動作用。因此人口越多的地區,特別是一些省會大城市,人口流入多,從而導致商品住宅價格越容易上漲。同時,隨著我國城鎮化的持續推進使得大量農村人口向城市流入,加上我們國家傳統的“有房才有家”的觀念,極大的推動對商品住宅的需求。
(2)城鎮居民可支配收入
居民可支配收入被認為是消費開支的最重要的因素之一,正常情況下擁有更多的可支配收入的居民自然對商品房有更高的需求,因此城鎮居民人均可支配收入增加,就意味著居民商品房購買力增強,使房地產市場的需求量增加,在供給不變的情況下,導致房價上漲。雖然對于大多數居民而且,按揭貸款是主要的購房方式,但貸款的金額也是和它所抵押的產品及其收入密且相關的,貸款的多少和年限都取決于購買者的經濟能力。
(3)合肥市的地區生產總值GDP
房地產是我國的支柱產業,是國民經濟發展的晴雨表,與地區發展水平密切相關。地區生產總值,即所謂的GDP反映了一個地區某個階段的總體經濟發展水平。GDP越高,就為房地產業的發展提供良好的經濟環境,反過來,房地產業涉及許多行業,也會帶動建筑業、水泥業、鋼鐵業、勞動力需求等多個產業的發展,特別是提高了居民的收入水平,增強相應的購買力,為房地產的進一步發展提供動力。
(4)商品零售價格指數
零售價格指數是反映城鄉商品零售價格變動趨勢的一種經濟指數。它的調整變動直接影響到城鄉居民的生活支出和國家的財政收入,影響居民購買力和市場供需平衡,影響消費與積累的比例,因此可能對居民購買商品房有一定影響。
2.供給因素
(1)房地產開發投資
房地產開發投資是房地產業發展的基礎和源泉,直接關系到房地產的發展情況,是房地產業發展的原始動力。房地產開發投資越大,意味著房地產業吸收資金越多,發展速度越快,供給增加,在需求穩定的前提下,房價下降。反之,導致房價的上漲。
(2)商品住宅投資比重
對房地產投資額的多少可以反映出房地產市場供給力度的強弱,而商品住宅是房地產市場最重要的組成部分,比重越大,相對說明商品住宅的供應充足,有利于抑制房價的快速增長。總體而言,二者的比值直接反映了商品住宅的供應情況,很好地解釋了其對商品住宅價格的影響。
(3)商品住宅間缺口
該指標的含義是商品住宅的竣工面積與銷售面積之間的差值,它可以綜合反映一個地區商品住宅的供應水平以及需求水平,是探究商品住宅價格水平的關鍵因素。差值為正,說明供應大于需要,否則的話供不應求會導致房價的上漲。
(4)貸款利率
利率是政府宏觀調控的重要手段,對國民經濟有較大的影響。較高的利率會增加投資成本和房地產企業的開發成本,使消費者付出更多的利息,從而增加購房負擔,因此會抑制開發商開發新樓盤,抑制消費者購買能力,從而導致商品住宅價格的下跌。反之低利率會鼓勵開發商加大投資,鼓勵住宅投資者,從而使商品房價格上升。因此它的波動,對消費者有著直接影響,特別首套房利率上調對于剛需買房而言有很不利的影響。通常房屋按揭是長期貸款,因此本文使用5年期以上銀行貸款利率,研究其對商品住宅價格變動的影響。
本文選取合肥市2003至2018年近16年的商品房平均價格為研究對象,并根據上述定性分析選取“合肥市GDP(X1)”“城鎮人口(X2)”“城鎮居民可支配收入(X3)”“商品住宅投資比重(X4)”“商品住宅間缺口(X5)”“商品零售價格指數(X6)”“貸款利率(X7)為自變量”“房地產開發投資(X8)”為自變量進行,利用一般最小二乘方法、逐步回歸方法、Lasso 方法以及Adaptive Lasso方法進行綜合分析比較。整個過程采用R軟件來實現,所有數據均來自安徽統計年鑒、合肥統計年鑒和中經統計數據庫公布數據,具體如表1所示。

表1 合肥2003—2018年數據房地產業相關數據
數據來源:筆者整理。
近10多年來,房地產業在我國的經濟發展中起重要的作用,因此我們先簡單地看下房地產投資對于合肥生產總值GDP的拉動作用。

圖1 合肥生產總值GDP和房地產開發投資的線性擬合圖
從圖1可以看出,合肥生產總值GDP和房地產開發投資之間存在高度的線性關系,與實際情況房地產業是我國目前的重要支柱產業相吻合,即很多城市的經濟發展受到房地產業的嚴重制約,房地產行業的發展情況基本上代表了當地的經濟發展情況。
為了進行后續的基于Adaptive Lasso方法的線性擬合等方法,我們先探測下響應變量與各自變量直接的相關程度,即兩個變量的變動趨勢。如果兩個變量之間呈現相同的波動趨勢,即同時增大或者減小,則二者之間存在強相關性,反之相關性弱。相關性分析在經濟領域有廣泛的應用,在統計建模進行初步的相關性分析也是很必要的,可以初步探究響應變量和哪些自變量有相關性。

表2 商品房平均價格與各自變量的相關系數表
從表2中相關系數絕對值大小分析初步了解:商品房平均價格與合肥GDP、城鎮人口、城鎮居民可支配收入以及房地產開發投資都存在很強的正相關性,而與貸款利率之間存在較強的負相關性,并且與其他自變量在5%的置信水平下并不顯著。因此,簡單的相關系數給我們房價與這些因素之間關系的初步提示,有利于我們后續進一步的定量分析。
在上面的相關性分析基礎上,我們初步得出哪些自變量可能與響應變量有較大的相關性。進一步,我們先對比一般最小二乘方法和逐步回歸分析兩種方法的分析結果。
1.一般最小二乘方法
2.逐步回歸方法
基于AIC準則的逐步回歸方法是在一般最小二乘的基礎上添加了對自變量個數的懲罰機制,其本質是在偏差和方差直接尋找一個平衡。我們進行參數估計和變量選擇的標準是最小化AIC數值,該方法的顯著特點是最終選取的模型中的變量都是影響顯著的變量。由表3的后面兩列看出,最終選取的自變量是城鎮人口和貸款利率,這兩個變量在上面的方法中也選到。正如上面的分析,貸款利率對宏觀經濟的各個方面都有很大的影響,房地產行業也不例外。低利率意味著較為寬松的貨幣政策,從而刺激開發商的投資以及城鎮居民購買房產的意愿,反之意味收緊的貨幣政策,會影響開發商投資規模以及居民的購買能力,因此和商品住宅平均價格呈現負相關。而城鎮人口的持續增加,為房地產業提供源源不斷的潛在購買人群,因而和商品住宅平均價格呈現正相關。

表3 一般最小二乘方法和逐步回歸方法結果
3.基于Lasso和Adaptive Lasso方法的回歸分析
基于Lasso方法和Adaptive Lasso方法的變量選擇是近些年來在高維統計中廣泛應用的方法,它們都是通過添加懲罰項達到同時的變量選擇和參數估計,具體結果如下:
首先,我們看下基于最小角回歸算法下Lasso選擇變量的順序(表4)。

表4 LARS算法下Lasso方法的移動路徑
表4的意思是在LARS算法下,第一步選擇變量2(即城鎮人口),第二步選擇變量1(即合肥市GDP),依次類推。注意在第5步,LARS算法是刪除了變量1,而在第10步迭代結束又選入變量1,具體選擇路徑也可見圖2。

圖2 LARS算法的移動路徑圖
下面,我們給出具體的Lasso方法和Adaptive Lasso方法的計算結果。

表5 Lasso方法和Adaptive Lasso方法的計算結果
表5顯示Lasso方法和Adaptive Lasso方法的計算結果稍有差別,Lasso方法最終選取了7個自變量,而Adaptive Lasso方法少選商品零售價格指數。城鎮人口、城鎮居民可支配入、商品住宅投資比重、商品住宅間缺口、商品零售價格指數、房地產開發投資都對商品住宅平均價格有顯著的正向促進作用,而貸款利率對房價起負向作用。特別是貸款利率,對合肥商品住宅平均價格有很強的負向作用。
4.四種方法的比較
一般最小二乘方法、逐步回歸方法、Lasso方法和Adaptive Lasso方法的共同點是:城鎮人口對商品住宅平均價格有正向促進作用,主要在于人口是商品住宅的最終需要者,而城鎮人口顯然是城市商品房的主要需求者,它對住房價格的影響作用顯而易見。城鎮人口的多少決定了居民對商品房的需求大小,特別對與合肥這樣的省會城市而言,具有很強的聚集資源能力,隨著省內其他城市的人口不斷流入,安徽省下面的城市購買能力較強的人口都是合肥商品房的潛在購買者,為合肥房價的持續上漲提供了較強動力。另一個重要影響因素是貸款利率,在上面四種方法中都與房價成很強的負相關性。正如前面的分析,貸款利率對宏觀經濟的各個產業都有很大的影響,房地產行業更為明顯。
與其他三種方法相比,逐步回歸方法的結果差別最大,這種方法只選擇了城鎮人口和貸款利率兩個變量作為重要自變量。究其原因,主要在于逐步回歸的方法對數據較為敏感,且我們選取變量的門檻也較高,導致選入的自變量較少。這里顯著性水平高的變量即影響不顯著或者影響較小的變量都已刪除,因而可能存在過度刪減變量的問題,從而導致參數估計的偏差較大。Lasso方法和Adaptive Lasso方法的選擇結果較為接近,它們與一般的最小二乘比較刪除了合肥市GDP變量,可能是因為合肥市GDP變量所能解釋響應變量的信息已經包含在其他自變量中。Lasso方法、Adaptive Lasso方法的結果和一般最小二乘方法結果相比,回歸系數做了一定的修正,且能夠達到一般最小二乘方法不能完成的變量選擇的效果。總體而言,Lasso方法和Adaptive Lasso方法既可以進行變量選擇,又不至于刪除過多的自變量,主要在于這兩種方法只刪除顯著沒有影響的變量,而把那些有一定相關程度的自變量保留下來,從而使得最后的估計結果不至于偏差太大,克服了一般最小二乘方法不能進行變量選擇和逐步回歸過度刪減變量的缺點。
通過上述四種方法的定量分析可以看出,影響合肥商品住宅平均價格的因素中,城鎮人口和貸款利率是比較重要的兩個因素。城鎮人口與房價呈正相關,人口越多,潛在購房人口就越多,是合肥市商品住宅價格持續上漲的重要動力;而貸款利率作為國家的宏觀調控手段,對社會經濟各個方面都有很大的影響,高利率必然增加房地產開發商的投資成本以及購房居民的購買成本和按揭壓力,因而必然和商品住宅價格呈現某種負相關性。另一方面,從Lasso方法的結果看,城鎮人口、城鎮居民可支配入、商品住宅投資比重、商品住宅間缺口、商品零售價格指數、房地產開發投資都對商品住宅平均價格這六個自變量都有顯著的正向促進作用,而貸款利率對房價起負向作用。從經濟學原理也容易解釋,很顯然這些自變量都可以歸結為前面討論的房地產供應和需求兩個大的方面內容。相對一般的最小二乘而言,Lasso方法刪除的自變量都是非常不顯著的,不像逐步回歸那樣過度刪減變量,從而盡可能地減小模型偏差。而這里的Adaptive Lasso方法相對于Lasso方法相比,做了一點修正,僅僅多刪除一個商品零售價格指數變量,其他的系數稍做修正,使得不顯著的變量更容易刪除,顯著變量系數被壓縮的更小,從而減小最終選取模型的偏差。
總的來說,房地產業是合肥經濟平穩發展的支柱產業之一,如何保持房地產業健康持續發展尤為重要,而保持房價的平穩顯然是其核心問題。特別是2013年17號文件(新國五條)堅決遏制投機投資性購房以來,國家的宏觀調控政策手段更多、力度更大,涉及范圍更廣。從定量分析結果看,適當地減少合肥市人口的流入以及提高利率都有一定抑制房價過快增長的作用。但畢竟合肥是安徽的省會,地處江淮之間,距離長三角較近,同時也是皖江城市帶的核心城市,具有很大的發展前景,近些年房價持續增長也是必然的。另一方面,我們也應注意到住房畢竟是人民生活的剛需,房價過快增長不利于合肥本身經濟的發展、吸引高層次人才來肥工作以及社會的穩定性。正如習近平所言:“堅持房子是用來住的、不是用來炒的定位”,因此我們提出如下政策建議:1)政府應加大房地產市場的監管力度,打擊投機炒房行為;2)合理控制城鎮人口數量,區別化的放貸政策以抑制投機,但為了滿足人民群眾的剛需,首套房依然實行優惠政策以保障基本民生;3)平衡房地產市場的供求關系,合理調配土地資源和商品住宅供給,堅決遏制房價的快速上漲。相信在政府強有力的監管下,既可以保證人民群眾的基本住房需求,也能控制大量的房地產投機行為,在保證經濟快速發展的同時,使得合肥房地產業能持續平穩的發展。