彭博韜 彭禮燁 賈奕輝



摘要:近期,國(guó)家出臺(tái)針對(duì)海南的經(jīng)濟(jì)利好政策,建立了海南自貿(mào)區(qū)與自貿(mào)港,海南省主要城市的經(jīng)濟(jì)也隨之提升,房?jī)r(jià)也迅速提高。海南省政府隨即出臺(tái)了相應(yīng)房?jī)r(jià)調(diào)控政策。房?jī)r(jià)是民生的重要指標(biāo),本文通過(guò)搜集過(guò)往數(shù)據(jù)并仔細(xì)研究相關(guān)背景,建立基于主成分分析的支持向量機(jī)模型,對(duì)海南房?jī)r(jià)問(wèn)題進(jìn)行分析,及未來(lái)短期價(jià)格的預(yù)測(cè)。
關(guān)鍵詞:主成分分析,支持向量機(jī),商品住宅價(jià)格預(yù)測(cè)
隨著國(guó)家對(duì)海南省出臺(tái)的一系列相關(guān)促進(jìn)其經(jīng)濟(jì)發(fā)展的重大利好政策,海南省的經(jīng)濟(jì)不斷提升,海南省的旅游業(yè)迅速發(fā)展,海南省的房?jī)r(jià)也不斷攀升。
1影響海南省房?jī)r(jià)的指標(biāo)分析
本文選取了影響海南省(主要為海口、三亞市)房地產(chǎn)價(jià)格的11個(gè)指標(biāo),如表1.所示,結(jié)合在海南省相關(guān)網(wǎng)站以及年鑒上搜集到這11個(gè)指標(biāo)的歷史數(shù)據(jù),對(duì)這11個(gè)指標(biāo)兩兩進(jìn)行相關(guān)性分析。由于這11個(gè)指標(biāo)的歷史數(shù)據(jù)分布不明,故本文采用Spearman相關(guān)分析方法來(lái)得出指標(biāo)之間的相關(guān)程度。SPSS提供了Spearman分析功能,通過(guò)其輸出的相關(guān)性表并結(jié)合相關(guān)程度對(duì)應(yīng)表即得出指標(biāo)之間的相關(guān)程度。
1.1 相關(guān)性分析
Spearman相關(guān)檢驗(yàn)法是從量變量x與y是否具有同步性(例如同時(shí)增加)來(lái)檢驗(yàn)量變量之間是否存在相關(guān)性[1]。對(duì)于n對(duì)觀察數(shù)據(jù)(xi,yi)(i=1,2,...,n),按照每個(gè)變量的n個(gè)數(shù)據(jù)的大小次序,分別由小到大編上等級(jí)(秩次),對(duì)重復(fù)數(shù)據(jù)取平均等級(jí),再檢驗(yàn)兩個(gè)變量的等級(jí)或秩之間是否相關(guān)[1]。
設(shè)Ri和Qi分別表示xi和yi的秩次,則Spearman秩相關(guān)系數(shù)定義為:
當(dāng)相同秩次較多時(shí),計(jì)算校正的秩相關(guān)系數(shù)應(yīng)該采用下式:
式中, mx和my的計(jì)算公式,均為 ? ? ? ? ? ? ? 。在計(jì)算mx時(shí), mi為變量x的相同秩次數(shù);在計(jì)算my時(shí),mi為變量y的相同秩次數(shù)。
SPSS輸出的相關(guān)性表中,Sig. (雙尾)值小于0.01說(shuō)明兩個(gè)指標(biāo)之間時(shí)相關(guān)的,結(jié)合參照相關(guān)程度對(duì)應(yīng)表可得11項(xiàng)指標(biāo)數(shù)據(jù)之間的相關(guān)程度結(jié)果如表2. 所示.
結(jié)果顯示,進(jìn)一步得出房?jī)r(jià)與所選指標(biāo)之間都有較強(qiáng)的相關(guān)性。
1.2 主成分分析法降維
為了防止指標(biāo)維度過(guò)高致使在高維空間出現(xiàn)維度災(zāi)難的情況,我們采用PCA(Principal Components analysis,主成分分析法)對(duì)指標(biāo)進(jìn)行合理降維,使較少指標(biāo)能表現(xiàn)出豐富的數(shù)據(jù)信息,并且能夠較好地處理數(shù)據(jù)之間的冗雜信息。
基于眾多影響海南省商品住宅價(jià)格的變量及其取值,從中提取出比較全面地反映海南省房?jī)r(jià)水平的若干個(gè)公共因素Cj和系數(shù)nij,其中Cj表示基于若干影響海南省商品住宅價(jià)格指標(biāo)變量抽象化的公共因子,而nij反映了公共因子對(duì)影響海南省房?jī)r(jià)水平的指標(biāo)變量的影響能力。
對(duì)于一個(gè)包含n個(gè)變量的影響海南省房?jī)r(jià)指標(biāo)數(shù)據(jù)集,現(xiàn)在需要抽象化出能夠充分反映這n個(gè)變量?jī)?nèi)涵的若干個(gè)公共因子,則可以進(jìn)行以下假設(shè):
首先,假設(shè)n個(gè)指標(biāo)變量依次為X1、X2、……、Xm,其最終的公共因子為 C1、C2、……,即Cj,那么對(duì)于第i個(gè)變量Xj,可以表示全體預(yù)設(shè)公共因子Cj共同作用的結(jié)果。即可以描述為如式(1)所示的方程[1]:
其中,Xi是指影響海南省房?jī)r(jià)指標(biāo)數(shù)據(jù)集中的第i 個(gè)變量,Ei則是數(shù)據(jù)集中指標(biāo)的數(shù)值與計(jì)算值(即期望值)的差。Cj是未知的公共屬性,而nij是針對(duì)變量Xj在第j個(gè)公共因素Cj上的系數(shù)。這個(gè)公共因素的系數(shù)nij反映了此公共屬性對(duì)變量Xi的影響力,稱為因素載荷。
對(duì)于數(shù)據(jù)集中的每個(gè)待分析變量Xi,都能獲得一個(gè)形如式(1)的方程式。因此,對(duì)于整個(gè)影響海南省房?jī)r(jià)指標(biāo)數(shù)據(jù)集,就能獲得一個(gè)關(guān)于公共因子系數(shù)的矩陣。利用這個(gè)公共因子矩陣,可以分析各個(gè)公共因子對(duì)所有影響海南省房?jī)r(jià)指e標(biāo)變量的總貢獻(xiàn),找到貢獻(xiàn)量比較大的公共因子,用它們來(lái)描述海南省房?jī)r(jià)水平的絕大多數(shù)性質(zhì)。
2 基于PCA的SVM模型的建立與求解
2.1模型的建立
支持向量機(jī)方法(Support Vector Machine)是基于統(tǒng)計(jì)學(xué)習(xí)理論中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化和VC維理論的一種機(jī)器學(xué)習(xí)方法,由于SVM具有很好的處理小樣本的能力,并且能夠有效降低過(guò)擬合的程度,處理非線性問(wèn)題,其預(yù)測(cè)效果在國(guó)際上引發(fā)了極大關(guān)注[1]。
SVM回歸實(shí)際上是一種先行約束的凸二次規(guī)劃優(yōu)化的求解問(wèn)題,基于Mercer核展開定理,通過(guò)非線性映射ψ,把控件樣本數(shù)據(jù)映射到高維空間G中,在高維空間G中引入不敏感損失函數(shù),定義最優(yōu)線性回歸超平面,把尋找最優(yōu)線性回歸超平面的算法歸結(jié)為求解一個(gè)凸約束條件下的凸二次規(guī)劃問(wèn)題,因此所得解為全局唯一最優(yōu)解[1]。
設(shè)定樣本數(shù)據(jù) ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ,其中yi為期望值,n為樣本量。SVM用y=g(x)=(ω·φ(x)+b)來(lái)估計(jì)函數(shù),其中φ(x)是輸入空間到高維特征空間的非線性映射, ω,b是系數(shù)。回歸支持向量機(jī)(SVR)的原始最優(yōu)化問(wèn)題是:
在支持向量的訓(xùn)練過(guò)程中,尤其是非線性可分的情況下,樣本內(nèi)積的計(jì)算是一項(xiàng)非常耗費(fèi)時(shí)力的工作。使用核函數(shù)可以將非線性可分的樣本數(shù)據(jù)在高維空間內(nèi)轉(zhuǎn)化為線性可分。本文模型使用的核函數(shù)如下:
核函數(shù)的選擇對(duì)于SVM的性能具有很大的作用,考慮到樣本數(shù)和提取出的樣本數(shù)個(gè)數(shù),本文選取如上的高斯核函數(shù),這是一種泛化能力強(qiáng)的,常用核函數(shù)。
2.2 模型的結(jié)果與檢驗(yàn)
核函數(shù)的選擇對(duì)于SVM的性能具有很大的作用,考慮到樣本數(shù)和提取出的樣本數(shù)個(gè)為了測(cè)試所建立數(shù)學(xué)模型的預(yù)測(cè)能力,我們需要對(duì)模型進(jìn)行數(shù)據(jù)集上的預(yù)測(cè)能力檢驗(yàn),即將數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集,為了簡(jiǎn)化方法,我們采用傳統(tǒng)的留出法進(jìn)行檢驗(yàn)。
由于所搜集的數(shù)據(jù)量較小,我們隨機(jī)的將61個(gè)樣本劃分為約為9:1,即用6個(gè)樣本進(jìn)行模型的測(cè)試。
得到訓(xùn)練的預(yù)測(cè)結(jié)果和真實(shí)房?jī)r(jià)對(duì)比情況,如下所示:
其中,藍(lán)色的數(shù)據(jù)集1為真實(shí)房?jī)r(jià),而紅色的數(shù)據(jù)集2為預(yù)測(cè)值。
3結(jié)論與分析
由模型結(jié)果及檢驗(yàn)可知,所建立的數(shù)學(xué)模型在預(yù)測(cè)結(jié)果上接近于真實(shí)值,具有較好的預(yù)測(cè)能力與穩(wěn)定性,很好地預(yù)測(cè)了房屋的價(jià)格變化。
參考文獻(xiàn):
[1]李 航,統(tǒng)計(jì)學(xué)習(xí)方法,北京:清華大學(xué)出版社,2012年