莊虹莉,李立婷,林雨婷,劉藝輝,溫永仙
(福建農林大學 計算機與信息學院,福建 福州 350002)
基于網絡搜索數據的福州市商品房價格指數預測模型研究
莊虹莉,李立婷,林雨婷,劉藝輝,溫永仙
(福建農林大學 計算機與信息學院,福建 福州 350002)
文章以百度搜索引擎上的關鍵詞指數為數據基礎,首先通過指標平穩性檢驗與時差相關性分析從初始關鍵詞庫中選取出14個關鍵詞作為解釋變量指標,其次建立基于懲罰函數的變量選擇(Elastic N et、SCA D和G roup Bridge)對福州市商品房價格指數進行預測,再者基于四種不同誤差指標,運用綜合評判分析法對懲罰函數的變量選擇、多元線性回歸分析、偏最小二乘回歸分析、隨機森林的預測精度進行綜合分析,最終確定G roup Bridge為福州市商品房價格指數的最佳預測模型。
隨機森林;Elastic N et;SCA D;G roup Bridge;綜合評判分析法
隨著互聯網的飛速發展,大數據時代降臨,人們獲取信息的渠道變得更加寬廣,尤其是搜索引擎在人們生活中扮演者不可或缺的角色。房地產交易過程也不例外,人們通過搜索引擎了解最新的經濟形勢與政策,從而做出合理的消費決策,所以說搜索引擎在消費者、開發商以及政府中起到橋梁性作用。所以基于網絡搜索數據對福州市的商品房價格指數進行預測模型分析具有一定的研究價值。通過建立一系列合理的模型對網絡搜索數據進行深入分析,最終得到預測福州市商品房同比價格指數的最優模型,實現在一定程度上對商品房同比價格指數的預測,解決房價相關信息的時滯性問題,同時也為相關部門的調控工作提供理論支持。
目前國內學者基于網絡搜索數據(主要是百度指數)在房地產價格、商品零售價格等領域都有所研究,主要研究方法以定量分析為主。例如董倩[1]等就是基于百度指數對北京等16大中城市的新房價格與二手房價格建立6種預測模型(線性回歸、隨機森林等),得到各城市房價的最優預測模型;姜文杰[2]等就是基于百度指數對我國大中城市分別建立ARMA模型與自回歸分布滯后模型,然后比較兩種模型的預測效果,解決房價相關信息的時滯性問題;劉偉江[3]等就是基于谷歌指數采用時差相關分析方法選取與商品價格相關性較高的關鍵詞,然后再利用回歸模型進行價格指數預測。
最早利用網絡搜索數據資源開拓全新的研究領域是美國的 Ginsberg J[4],他們團隊利用 Google搜索指數成功預測流感發展趨勢,大致估計流感的定期發病率;接著是 Askita與Zimmermann[5]同樣基于網絡搜索數據成功預測出失業率的變化趨勢等。
本文基于懲罰函數的變量選擇對網絡搜索數據進行深入的研究,借助四種不同的誤差指標與傳統的預測模型進行對比,最終得到預測福州市商品房同比價格指數的最優模型。
回歸是傳統的預測模型,即通過得到解釋變量的參數估計實現預測,而懲罰函數的變量選擇既能實現參數估計又能實現變量選擇,即既能實現預測又能降低模型的復雜度。
對于線性回歸模型:

其中ε~N(0,σ2)的隨機誤差項,β是回歸系數,y為連續的響應變量。傳統的對線性回歸模型的參數估計是最小二乘,則β的最小二乘估計為:

但是最小二乘估計也存在不足之處:
(1)對于高維數據(n<p)或當解釋變量存在多重共線性時,難以實現對β的估計。
(2)最小二乘無法實現變量選擇,這將導致模型過于復雜。
懲罰函數的變量選擇思想在于:在最小二乘或極大似然函數的基礎上加入懲罰函數項得到新的目標函數,然后通過最小化或者最大化目標函數得到參數估計值。其實就是將不顯著變量的系數壓縮為零而把該變量剔除,對顯著變量進行很小或不壓縮而保留在模型中,最終實現模型的變量選擇和參數估計。
在最小二乘估計的基礎上引入不同的懲罰項,就可以得到不同的懲罰函數變量選擇方法。這里選擇代表性的幾個懲罰方法進行研究:單變量選擇方法(SCAD)、高度相關數據的變量選擇(Elastic Net)和雙層變量選擇方法(Group Bridge)。
1.SCAD。SCAD是實現單變量的選擇方法,由Fan和Li[6]在Lasso基礎上發展的一種非凹的懲罰函數,其定義如下:

其中,pλ(|βj| )是SCAD懲罰項,定義如下:

其中,α>2為調整參數,λ>0為罰參數。Fan指出α=3.7時,其估計效果最好。
SCAD懲罰會把與被解釋變量不相關的解釋變量所對應的系數壓縮為0,其他一些變量系數朝0壓縮,當變量系數很大時則基本保持不變,使得最后得到的估計量滿足:無偏性、稀疏性和連續性,連續性使得結果更為穩定。
2.Elastic Net。Elastic Net是Zhou和Hastic[7]在嶺回歸和Lasso的基礎上提出的新的變量選擇方法,是處理高維高度相關數據的變量選擇方法,解釋變量間通常具有群組效應,即高度相關的預測變量的系數應該相等或是接近相等。其定義如下:

(3)式是嶺回歸懲罰項和Lasso懲罰項的一個凸組合。其中α為罰參數,當α=0時,上式為Lasso回歸;當α=1時,上式為嶺回歸。因此Elastic Net回歸結合了嶺回歸和Lasso回歸的優點,既能消除變量間的多重共線性,又能進行變量選擇,還能處理群組效應。
3.Group Bridge。雙層變量選擇方法的獨特之處:篩選變量時考慮了變量的分組情況,不僅能夠篩選出重要分組,而且能夠在組內篩選出重要的單個變量。Huang等[8]提出雙層變量選擇可以看成是組內懲罰和組間懲罰的一種復合函數,即對第j組變量的懲罰項表示為:

其中,pouter是組間懲罰,pinner為組內懲罰。
Breheny和Huang提出,只需在組內和組間都選擇實現單個變量選擇的懲罰函數,例如Lasso、SCAD、MCP懲罰等,就能實現組間和組內的變量選擇[9]。由此得到了Group Bridge[9]變量選擇方法,它是組內進行Lasso懲罰,組間進行Bridge懲罰。
Group Bridge變量選擇方法的基本定義為:假設已知分有J組變量,分別為A1,A2,…,AJ,令βAJ=(βj)j∈Aj為 β相應變量構成的子向量,則 Group Bridge的定義如下:

其中,λ>0是罰參數,常數cj為βAJ的調整參數,一般選擇 cj∝|Aj|1-γ,γ為 Bridge的指標,當 0<γ<1時,式(4)可同時實現單變量和組變量的選擇。
4.罰參數的選擇。懲罰函數的變量選擇中罰參數對模型的精度至關重要,合適的罰參數能夠有效的提高預測精度和降低模型的復雜度。本文通過10折交叉驗證[10](10-fold Cross-Validation)實現罰參數的選擇。
本文通過基于懲罰函數的變量選擇對網絡搜索數據進行深入的研究,借助四種不同的誤差指標與傳統的預測模型進行對比,最后通過綜合評判得到預測福州市商品房同比價格指數的最優模型。
(一)數據準備
1.研究對象
由于福州市實屬二線城市,屬于經濟水平較高、房地產交易活動相對活躍的地級市省會,購房者對于房地產信息的收集渠道主要還是以網絡搜索為主(在我國主要以百度搜索引擎為主),搜索引擎上的關鍵詞指數體現了購房者的關注點,所以本文基于網絡搜索數據前提下對福州市的商品房價格的預測分析具有一定的價值性與實用性。
2.數據來源
本文的研究對象之一:福州市的商品房價格指數數據來源于國家統計局(http://www.stats.gov. cn/)每個月所公布的關于“70個大中城市住宅銷售價格變動情況”的報告內容。本文主要搜集福州市從2012年1月至2015年12月總計48個月的新建商品住宅月度價格指數(包括環比指數、同比指數、定基指數,本文主要對同比價格指數進行研究)。
本文的另一研究對象:關鍵詞搜索量數據主要來源于百度指數(http://index.baidu.com/),百度搜索指數能綜合反映該關鍵詞在過去一天用戶與媒體對其的關注度,是以海量網民的搜索數據為基礎的數據分享平臺,主要的功能模塊可分為:趨勢研究、需求圖譜、輿情管家、人群畫像等。本文主要通過趨勢研究這一模塊(以整體趨勢為主)來獲取關鍵詞的搜索量(按每日搜索量統計)。
3.數據預處理-初始關鍵詞的選取
(1)從定性方面分析。由圖1的理論框架可看出,分別能從主體因素與非主體因素兩方面進行關鍵詞的初步選取,從主體因素(房地產市場供求關系、房地產經濟交易活動以及與房地產相關聯的指標等)分析考慮,最終通過人為選取出“福州房價、福州房地產、戶型、建材”這4個作為主體因素的基準關鍵詞;同樣從非主體因素(宏觀經濟形勢、與房地產密切相關的調控政策等)分析得到:“房貸利率、公積金、買房政策”3個作為非主體因素的基準關鍵詞。

圖1 基于網絡搜索數據對商品房價格指數預測模型進行研究的理論框架
(2)從定量方面分析。通過以上定性分析得到的7個基準關鍵詞,首先利用百度搜索引擎的關鍵詞推薦技術(其原理是可查詢與指定關鍵詞相關度較高的詞匯)對基準關鍵詞范圍進行適當擴展,得到與7個基準關鍵詞相關的關鍵詞58個,總計65個;接著以百度指數為標準對這65個關鍵詞進一步篩選,將在研究時間范圍內數據量相對較少以及出現重復的關鍵詞一一剔除,最后通過定量分析,確定“福州房地產、住房公積金、房貸利率”等48個指標作為初始關鍵詞,構建成一個關鍵詞庫。這48個指標的具體變量名見表1。

表1 48個指標所對應的關鍵詞
(二)模型準備
由于本文的最終目的是對福州市的商品房價格指數的預測模型進行比較分析,所以從關鍵詞庫里的解釋變量選取解釋變量指標這一環節至關重要,不僅需要考慮與商品房同比價格指數相關度,還需考慮到兩者間的時差關系。時差關系主要包括領先、同步與滯后三個階段,只有與基準指標處于領先或同步的指標才能在預測活動中起到相關作用,具有一定的研究價值。對于時差關系判斷本文選擇的是時差相關分析法,它可以較完整體現兩個變量間的時差性與相關性。而只有平穩時間序列才可以進行時差相關分析,所以在進行時差相關分析之前要進行平穩性檢驗,對于非平穩序列進行差分處理將其轉化為平穩序列。
1.指標選取——平穩性檢驗[11]。首先將所有變量的時間序列都畫出序列圖,然后進行ADF檢驗,而對于非平穩序列進行差分處理,直至使之成為平穩序列。

圖2“福州房地產”平穩檢驗前后序列圖
具體檢驗結果為:所有變量的時間序列都是經過二次差分后將其轉化為平穩序列。
2.時差相關分析。時差相關分析具體實現公式如下:

由于本文主要研究對象是福州市商品房同比價格指數,所以將其作為基準指標,其余解釋變量作為檢驗指標,利用SPSS軟件實現時差相關分析,在22個領先或同步指標中選取相關系數在0.55以上的變量(14個)作為預測模型中的解釋變量,具體如表2所示:

表2 相關系數大于0.55的領先或同步解釋變量
經過指標平穩性檢驗與時差相關分析,最終確定14個解釋變量作為以下預測模型中的解釋變量指標,其中公積金、房貸利率與政策屬于非主體因素,而房價信息與戶型屬于主體因素,也就是說時差相關分析選取出的指標是具有典型性的,在很大程度上代表了廣大購房消費者所關注的方面,所以將這14個指標當成預測模型的解釋變量具有客觀性與科學性。
在這14個關鍵詞指標中,有將近60%成分是屬于公積金這一因素范疇的,結合公積金原始搜索量數據,可直觀看出福州市民在購房交易中會把關注點集中在公積金及其相關因素上,接著才是房貸利率、調控政策以及戶型這些較為重要的因素上。
(三)懲罰函數的變量選擇方法
懲罰函數的變量選擇方法是將某些解釋變量的系數壓縮為0,以犧牲偏差為代價而提高預測精度。因此本文采用懲罰的變量選擇方法對這14個解釋變量進一步降維。為了評價模型的優劣,將前35個樣本作為訓練集,后13個樣本作為測試集,通過實現對測試集的預測,定量評價模型的優良。
借助R語言的包實現對懲罰函數的變量選擇方法的參數估計和變量選擇,通過求解得到三種懲罰函數的變量選擇的回歸方程為:

從三個懲罰函數的變量選擇模型的回歸方程中,得到公積金貸款利率、住房公積金提取條件、福州房地產信息網,這三個關鍵詞應該是影響福州市商品房價格指數的比較重要的因子,也包含了房地產業交易活動所考慮的大部分綜合因素,所以能較全面反映出福州市商品房價格指數變化,說明懲罰函數的變量選擇方法在顯著變量篩選功能上的效果不錯。
為了與其他傳統的預測模型進行比較,分別對后13個樣本進行預測,預測的結果詳見表3。其中多元線性回歸、偏最小二乘、隨機森林是常用的回歸預測模型,前兩者是參數估計領域,而隨機森林是非參數估計領域且能夠實現變量選擇,因此采用這三種方法與懲罰函數的變量選擇方法進行對比。

表3 預測結果比較
(四)預測精度綜合分析
1.求解誤差指標。為了直觀的能夠從數值上衡量以上六種模型的預測精度與穩定性,本文針對誤差進行分析,選用平均絕對誤差(MAE)、平均相對誤差(MRE)、均方根誤差(RMSE)、均方百分比誤差(MSPE)這四種誤差指標對測試集的預測結果進行評價。分別計算出六種模型的四種誤差指標如表4所示。

表4 各模型誤差指標分析表
通過表4數據可看出懲罰函數的變量選擇中的SCAD和GB均表現出優良的性質,四種誤差都相對較小,但是為了更加直觀的顯示出結果,在這里進一步采用基于四種誤差指標的綜合評判分析法,對這六種模型的擬合度與穩定性進行權衡與評定。
2.綜合評判分析法[12]。綜合評判法是一種采用多個評價指標對目標方案從定性與定量兩個方面進行綜合評判的方法。其基本原理是通過對所建立的評價因素進行相關處理得到一些可以反映目標方案優劣性的評價指標,從而得出目標方案的優劣性比較結果。評判結果集里的評價值代表模型的優越性,評價值越大,說明該模型的性能越好。借助MATLAB求解得到綜合評判結果集:
C1=[0.174 0.284 0.125 0.151 0.916 0.999]
由綜合評判的結果集可得到本次綜合評判中各個預測模型的優屬度,就從這四個評價指標分析,可較直觀看出GB和SCAD模型的預測精度極高,分別為0.999和0.916,遠比其他的四種模型大的多,因此將懲罰函數的變量選擇方法應用到網絡搜索數據,能夠得到較高精度的預測模型。由于本文采用的網絡搜索數據中的解釋變量具有明顯的分組,即分成6組(比如將與公積金相關的變量看成一組),因此適用于分組變量選擇的GB比單變量選擇的SCAD擁有更高的預測精度,而且選用變量數更全。因此將GB作為網絡搜索數據福州市商品房價格指數的最佳預測模型。
(一)關鍵詞指標結果分析
首先通過時差相關分析選取的關鍵詞指標有14個,其中有9個(將近60%比例)是屬于“公積金”這一因素范疇的,有兩個指標是屬于“福州房價信息”,“房貸”、“政策”與“戶型”分別占有一個指標。而對于多元線性回歸分析與偏最小二乘回歸兩種模型并不能實現變量選擇;隨機森林通過得到因子的重要性得分能夠實現變量的選擇;懲罰函數的變量選擇方法能夠實現變量選擇(大幅度的降低模型的復雜度)并實現參數估計,對于Elastic Net選擇出的關鍵詞指標總計 4個,其中“公積金”范疇有3個指標,另一個屬于“福州房價信息”;SCAD選擇出的關鍵詞指標總計3個,其中“公積金”范疇有2個指標,另一個屬于“福州房價信息”;Group Bridge選擇出的關鍵詞指標總計 6個,其中“公積金”范疇有4個指標,另外屬于“福州房價信息”和“契稅政策”,涉及更多類型的變量,因此這里的預測精度更高。
通過以上分析,不難發現這六種模型對于關鍵詞指標的選取具有很高的相似度,說明通過不同的預測模型研究可以分析出福州市的購房者對于“公積金”及其相關因素的關注度相當高,對于“福州房價信息”、“房貸”與“政策”這些因素關注度也比較高,而對于“建材”與“戶型”對買房因素關注度相對較低。因此通過預測模型中的關鍵詞指標可以直觀看出福州市民所關注的方面,政府與相關部門可以從關注點出發,基于最佳預測模型的研究基礎,采取合理的措施,維持房地產業健康發展。
(二)預測模型結果分析
1.從預測精度分析。本文對于六種模型的預測精度分析采用的是針對四種誤差指標進行綜合評判分析,得到Group Bridge的預測精度較高,SCAD次之,均比其他四種模型的精度高得多。
2.從模型復雜度分析。多元線性回歸模型與最小二乘回歸分析這兩種預測模型無法實現變量的選擇目標,僅能得到14個因子的參數估計,進一步用于預測;而對于懲罰函數的變量選擇就具有顯著變量篩選的功能,所以在一定程度上減少了工作量且選取出的解釋變量數遠比其他兩種模型解釋變量數量來得少,關鍵是還能達到一個較好的預測效果。
綜上所述,六種模型各有優缺點,針對不同的研究對象,可能適用不同的預測模型。本文綜合考慮預測精度、模型復雜度,最終將GB作為預測福州市商品房價格指數的最佳模型。
大數據背景下,充分利用網絡數據資源挖掘出相關重要信息來分析解決一些實際問題是現在乃至未來的重要研究趨勢。本文研究的創新之處在于利用關鍵詞搜索指數對福州市的商品房價格指數進行預測與分析,具體表現為以下幾個方面:
其一,本文利用關鍵詞的百度指數這一網絡數據資源來反映福州市商品房價格指數的變化趨勢,該網絡數據資源在一定程度上能較為全面反映購房消費者的即時狀態與消費心理,同時網絡數據這一虛擬化資源能在購房消費者與房地產業兩者間起到橋梁作用,能將兩者的此時形勢與狀態及時傳達給對方。所以本文所利用的數據資源能較為全面反映在大數據背景下福州房地產業的交易形勢。
其二,本文主要是將懲罰函數的變量選擇運用到網絡搜索數據,對福州市商品房價指數進行預測,為了評價該方法的好壞,進一步與傳統解決網絡搜索數據的方法(多元線性回歸分析、偏最小二乘回歸分析、隨機森林)進行對比。
其三,本文所運用的預測精度分析方法-綜合評判分析法具有一定的科學性與全面性,從定量方面上較為準確闡釋模型的性能優劣,具有較高的可信度。
[1]董倩,孫娜娜,李偉.基于網絡搜索數據的房地產價格預測[J].統計研究,2014,31(10):81-88.
[2]姜文杰,2016.基于百度指數的房地產價格相關性研究[J].統計與決策(2):90-93.
[3]劉偉江,2014.基于網絡關鍵詞搜索量的商品零售價格指數預測研究[J].制度經濟學研究(4):153-169.
[4]Ginsberg J,Mohebbi M H,PateI R s,et a1.Detecting influenza epidemics using search engine Query data[J].Nature,2009,457:1012-1014.
[5]Askitas N.,Zimmermann K.F,Google Econometrics and unemploymentForecasting[C].working Paper,2009:107-120.
[6]Fan J,Li R.Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties[J].Journal of the American Statistical Association,2001,96(456):1348-1360.
[7]Hui Z,Trevor H.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society,2005,67(2):301-320.
[8]Huang J,Breheny P,Ma S.A Selective Review of Group Selection in High-Dimensional Models[J].Statistical Science,2012,27(4):481-499.
[9]Breheny P,Huang J.Penalized methods for bi-level variable selection [J].Statistics and its interface,2009,2(3):369-380.
[10]高少龍.幾種變量選擇方法的模擬研究和實證分析[D].山東大學,2014:8-10.
[11]賈杰林,李健,吳舜澤.水環境趨勢預警指標體系的構建與時差分析.中國水污染控制戰略與政策創新研討會論文集[C].中國環境科學學會,2010:44-51.
[12]宋俊杰.三峽流域中長期徑流預報模型精度評定綜合分析及優化方法研究[D].華中科技大學,2013:15-32.
(責任編輯:D 校對:T)
F299.233
A
1004-2768(2017)02-0105-07
2016-11-25
國家自然基金資助項目“禾谷類作物胚乳性狀多QTL定位統計方法研究”(31171448);國家自然基金資助項目“基于高維數據和全基因組標記的數量性狀基因定位方法研究”(31571558);福建農林大學數學建模實訓室(111ZS1503)
莊虹莉(1990-),女,福建農林大學計算機與信息學院碩士研究生,研究方向:數理統計及應用;李立婷(1993-),女,福建農林大學計算機與信息學院碩士研究生,研究方向:數理統計及應用;林雨婷(1992-),女,福建農林大學計算機與信息學院碩士研究生,研究方向:數理統計及應用;劉藝輝,男,福建農林大學計算機與信息學院,研究方向:數理統計及應用;溫永仙(1966-),女,福建農林大學計算機與信息學院教授,研究方向:數理統計及應用。溫永仙為通訊作者。