徐暉 張濤
摘要:支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的基礎(chǔ)上發(fā)展起來的一種新的機(jī)器學(xué)習(xí)方法。本文利用SVM對(duì)商品房的幾種主要價(jià)格因素?cái)?shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)習(xí),并且針對(duì)SVM學(xué)習(xí)過程中計(jì)算量巨大的問題,提出一種對(duì)核函數(shù)加權(quán)的方式來提高其學(xué)習(xí)效率,并針對(duì)不同因素調(diào)整其學(xué)習(xí)權(quán)重,有效提高了模型的學(xué)習(xí)速度和推廣能力。SVM以統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),具有簡(jiǎn)潔的數(shù)學(xué)形式、直觀的幾何解釋和好的泛化能力等優(yōu)點(diǎn)。研究證明,SVM的預(yù)測(cè)結(jié)果準(zhǔn)確,使用方便,是一種優(yōu)良的商品房?jī)r(jià)格建模方法。
關(guān)鍵詞:商品房;支持向量機(jī);權(quán)重;建模
中圖分類號(hào):F293.3
支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力。支持向量機(jī)利用了核函數(shù),巧妙地把低維空間的非線性函數(shù)映射為高維空間的線性函數(shù),避免了“維數(shù)災(zāi)難”問題,使得算法復(fù)雜度與樣本維數(shù)無關(guān),非常適合于處理非線性問題。選擇適合的核函數(shù)在解決某一給定的問題時(shí)起著重要的作用。核函數(shù)是通過描述樣本相似性的內(nèi)積來定義的,而內(nèi)積是根據(jù)樣本的所有特征計(jì)算的。這些特征與分類的相關(guān)性各不相同,一些次要特征同等占用著核函數(shù)的計(jì)算資源,從而影響分類器的分類效率。找到一個(gè)方法科學(xué)合理地評(píng)價(jià)樣本集合對(duì)于學(xué)習(xí)的重要性是十分必要的。統(tǒng)計(jì)商品房?jī)r(jià)格的各種組成因素的數(shù)據(jù),建立樣本庫,按照各種因素對(duì)商品房?jī)r(jià)格的影響程度設(shè)定權(quán)重,利用SVM對(duì)樣本庫進(jìn)行學(xué)習(xí),建立商品房?jī)r(jià)格預(yù)測(cè)模型,可以對(duì)地區(qū)的房?jī)r(jià)進(jìn)行科學(xué)的預(yù)測(cè)和指導(dǎo),同時(shí)對(duì)處于觀望中的購房者提供可靠的參考信息。
一、決定商品房?jī)r(jià)格的因素
對(duì)房?jī)r(jià)的組成因素進(jìn)行客觀合理的分析是SVM學(xué)習(xí)建模的前提條件。經(jīng)過大量的市場(chǎng)調(diào)查和經(jīng)濟(jì)學(xué)角度的綜合分析,本文SVM學(xué)習(xí)的價(jià)格因素樣本庫包括以下4點(diǎn):
(一)房屋造價(jià)。商品房的價(jià)格組成首先要考慮其成本價(jià),對(duì)于房屋來說,就是其建筑成本以及土地成本,即買一塊地皮的價(jià)錢和從這塊地上將房子蓋起來的費(fèi)用,其中也包含人工和材料的費(fèi)用。這是決定房?jī)r(jià)的基礎(chǔ)。房屋的造價(jià)直接影響了商品住房的成本,因此,理論上該變量和商品住房的價(jià)格呈正相關(guān)。
(二)地區(qū)人均國內(nèi)生產(chǎn)總值。通常是指一定時(shí)期內(nèi),一個(gè)國家或地區(qū)的經(jīng)濟(jì)中所生產(chǎn)出的全部最終產(chǎn)品和提供勞務(wù)的市場(chǎng)價(jià)值的總值。在經(jīng)濟(jì)學(xué)中,常用GDP來衡量該國或地區(qū)的經(jīng)濟(jì)。發(fā)展綜合水平通用的指標(biāo),商品住房?jī)r(jià)格與當(dāng)?shù)氐慕?jīng)濟(jì)發(fā)展水平有著密切的聯(lián)系。從理論上說,一個(gè)地區(qū)的經(jīng)濟(jì)越發(fā)達(dá),商品住房的價(jià)格越高,即兩者之間應(yīng)該呈正相關(guān)。
(三)人均可支配收入。這一指標(biāo)代表一個(gè)地區(qū)的居民的經(jīng)濟(jì)實(shí)力。人均可支配收入越多,人們提高生活質(zhì)量和進(jìn)行投資的欲望和能力就越強(qiáng)。房屋相對(duì)于其他商品而言,具有保值性和增值性,因而人們用大量的資金進(jìn)行投資,促使房屋價(jià)格上升。從理論上說,該變量和房?jī)r(jià)存在正相關(guān)性。
(四)人口密度。人口密度是單位面積土地上居住的人口數(shù)。由于土地資源的稀缺性,單位面積土地上的人口數(shù)越多,對(duì)土地的需求就越大,從而推動(dòng)房屋價(jià)格的上漲。從理論上說,人口密度與房?jī)r(jià)呈現(xiàn)正相關(guān)性。
房?jī)r(jià)主要是受以上因素交互作用影響的,但是各種因素對(duì)房?jī)r(jià)的影響程度各有不同,本文將對(duì)其進(jìn)行分析量化,給出一個(gè)能夠直接表達(dá)出影響程度的權(quán)重值。
二、支持向量機(jī)與核函數(shù)
支持向量機(jī)是在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的基礎(chǔ)上發(fā)展起來的一種新的機(jī)器學(xué)習(xí)方法。假設(shè)存在樣本集,n為輸入維數(shù),學(xué)習(xí)的目標(biāo)就是找到一個(gè)超平面將這兩類樣本完全分開。
通過采用不同的核函數(shù)可以對(duì)高維的輸入空間進(jìn)行有效的降維,如圖1所示。即在構(gòu)造判別函數(shù)時(shí)先在輸入空間比較向量,然后再對(duì)結(jié)果進(jìn)行非線性變換。核函數(shù)是滿足Mercer條件的任意對(duì)稱函數(shù),所以對(duì)于這種非線性變換沒有具體形式,而是由核函數(shù)直接實(shí)現(xiàn)算法的線性化。這樣,大量的工作就可以在輸入空間中完成,而不需要在高維特征空間中進(jìn)行。本文選用徑向基核函數(shù):
式中為核寬度,反映了邊界封閉包含的半徑。
三、權(quán)值支持向量機(jī)
(一)權(quán)計(jì)算規(guī)則
支持向量機(jī)方法最初是針對(duì)二類分類問題提出的,先按照規(guī)則A將樣本集C分類,形成了兩個(gè)類 (類 和類)的中心式和心,如圖2所示。
類的任一元素xi的發(fā)生和類的任一元素yj的發(fā)生之間存在一定關(guān)系,我們用量化的數(shù)字wi對(duì)其進(jìn)行描述。一般情況下, wi滿足0≤wi≤1。可以量化本集中每種商品房?jī)r(jià)格因素對(duì)其影響力度的大小,具有最高權(quán)重的是給定特征集合中具有最高區(qū)分度的特征,亦即對(duì)分類貢獻(xiàn)最大的特征,即wi越大,相關(guān)性越強(qiáng)。
對(duì)于樣本集中的兩樣本點(diǎn)xi和yj,在一般意義下,其點(diǎn)積xi.yj的值是通過計(jì)算兩點(diǎn)的歐氏距離而得到的。引入權(quán)重之后,擬用兩個(gè)樣本點(diǎn)的集交互熵來調(diào)節(jié)歐氏距離。
(二)SVM學(xué)習(xí)權(quán)重wi的量化
本文的樣本庫包括房屋造價(jià)、地區(qū)人均國內(nèi)生產(chǎn)總值、人均可支配收入和人口密度。房屋造價(jià)可謂和房屋價(jià)格息息相關(guān),對(duì)其具有直接觸動(dòng)的作用,所以權(quán)重最高定位0.9,地區(qū)人均國內(nèi)生產(chǎn)總值和人均可支配收入從某種程度上體現(xiàn)了市場(chǎng)的購買能力,間接地影響著房?jī)r(jià),權(quán)值定為0.8,而人口密度的大小對(duì)市場(chǎng)的供求關(guān)系有一定的影響,但是沒有前兩種因素的影響大,權(quán)值定為0.7。
(三) 實(shí)例分析
本文采用某省會(huì)城市2001—2010年的相關(guān)因素統(tǒng)計(jì)數(shù)據(jù)作為BP網(wǎng)絡(luò)的學(xué)習(xí)數(shù)據(jù)。如表1所示。
完成訓(xùn)練后,如圖3所示,2001—2007年的數(shù)據(jù)誤差逐步拉大,最大相對(duì)誤差大于1900。據(jù)分析,造成這種現(xiàn)象的主要原因包括以下幾方面:首先,政府的激勵(lì)措施,如2007年應(yīng)對(duì)全球經(jīng)濟(jì)危機(jī)的購房補(bǔ)貼激勵(lì),造成房?jī)r(jià)的全面升高;其次,由于交通更為便捷,省會(huì)城市的聚集效應(yīng)放大,許多不在省會(huì)城市工作的人,在此購置房產(chǎn),讓老人、孩子定居在此,推高了房?jī)r(jià);最重要的是投資、投機(jī)、通脹預(yù)期下購房保值增值等因素的影響。由于這些因素在統(tǒng)計(jì)數(shù)據(jù)中難以反映,造成實(shí)際數(shù)據(jù)與模型曲線的偏離。可以認(rèn)為,這種偏離不完全是市場(chǎng)規(guī)律的作用,在某種程度上反映出商品住宅泡沫化的趨勢(shì)。2007—2010年的數(shù)據(jù)誤差逐步縮小,雖然沒有明顯的縮小,但是這種差距從某種程度上得到了有效的遏止。其主要原因在于,2007年以后國家和地方政府分別推出了各項(xiàng)措施,控制房?jī)r(jià)進(jìn)一步走高的趨勢(shì)。
四、結(jié)論
本文按照組成商品房?jī)r(jià)格不同因素設(shè)定其學(xué)習(xí)權(quán)值,利用權(quán)核函數(shù)支持向量機(jī)對(duì)人均國內(nèi)生產(chǎn)總值、房屋造價(jià)、人均可支配收入、人口密度等統(tǒng)計(jì)數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,擬合商品住宅價(jià)格。商品房?jī)r(jià)格的學(xué)習(xí)網(wǎng)絡(luò)模型計(jì)算出市場(chǎng)實(shí)際價(jià)格與理論價(jià)格的差距,從某種程度上反映出了商品住宅泡沫化的程度,能夠給購房者提供一定的參考依據(jù)。實(shí)驗(yàn)結(jié)果表明,SVM的預(yù)測(cè)結(jié)果準(zhǔn)確,使用方便,是一種優(yōu)良的商品房?jī)r(jià)格建模方法。
參考文獻(xiàn):
[1] Lin C F, Wang S D. Fuzzy Support Vector Machines[J]. IEEE Transactions on Neural Networks, 2002, 13(2):464-471.
[2] Lee Y J, Mangasarian O L. SSVM: A Smooth Support Vector Machines[R]. Proceedings of the First SIAM International Conference on Data Mining, 2001.
[3] 周水生,周利華. 訓(xùn)練支持向量機(jī)的低維Newton算法系統(tǒng)[J].工程與電子技術(shù),2004, 26(9): 1315-1318.
[4] 蔣正科,向鑫.城市商品住宅價(jià)格的影響因素研究[J]. 價(jià)值工程,2008(10):147-149.
[5]孔煜,魏鋒,任宏.城市住宅價(jià)格的宏觀影響因素[J].統(tǒng)計(jì)觀察, 2010(6):85-85.
[6]呂紅軍,王要武,姚兵.房?jī)r(jià)增長時(shí)期商品房需求調(diào)控模型研究[J].哈爾濱工程大學(xué)學(xué)報(bào). 2008(10):1116-1121.
[7]張翔, 肖小玲, 徐光枯.基于樣本之間緊密度的模糊支持向量機(jī)方法[J].軟件學(xué)報(bào),2006, 17(5): 951-958.
(編輯:張小玲)