李澤 付偉翔


摘要:本文基于因子分析法對長春市的住宅小區進行水平評級。從房天下、安居客等網站采集到關于房子、小區的具體信息。再將信息導入excel中,使用excel相關函數對數據進行刪除(刪除缺失60%以上的指標,刪除重要指標缺失三個及三個以上的小區)、合并,得到關于小區及其參數的信息。經過手動查找填補缺失的參數數據,再使用spss中的線性插補填補剩余空缺。將小區各指標數據標準化使之在同一量綱下。應用因子分析法對小區的參數指標進行降維,得到因子及因子得分,將因子與因子得分相乘再相加可得到小區分數。應用k-均值聚類法對小區進行分類,小區的分類結果,即小區的級別。
關鍵詞:小區評級;因子分析;k-means聚類
本項目擬使用客觀的科學方法對長春市與吉林市各區的住宅小區進行評級,收集居民住宅小區的房價、戶型、綠化率、容積率、物業費用等小區本身信息,使用線性插補法填補缺失數據,運用因子分析等方法對影響居民住宅小區分級的各種因素進行分析,給出各個住宅小區的綜合評價指數,使用k均值聚類法對住宅小區進行聚類,得到住宅小區的評級結果,對購房租房者提供科學客觀的參考指導。
1指標體系的構建
1.1數據的采集
從房天下、安居客、五八同城、諸葛找房、房產超市、趕集網等網站收集數據。
1.2數據的預處理
1.2.1剔除指標。剔除缺失率在60%以上的指標。
1.2.2指標的轉化。由于存在房屋指標而本文是對小區進行評級所以需要將房屋指標轉化為小區指標。將同一小區的房屋指標的平均值作為該小區的指標。再與小區的指標合并,得到了指標齊全的數據。
1.2.3小區的刪除。存在著一些小區缺失過多重要指標,將缺失指標三個及以上的小區刪除。
1.2.4數據的填補。運用線性插補方法對缺失數據進行填補。將以有數據進行擬合處理找到線性函數,計算對應缺失值。部分如下圖。
1.2.5數據的標準化。由于價格、面積、室、廳在不同維度上的特征尺度不一致,所以需要對上面四分數據進行標準化處理,使得不同類型的指標在同一量綱下。套用公式:。
1.3指標構建
2因子分析
2.1檢驗是否適用因子分析法
在運用因子分析法進行統計分析前,需要對標準化后的指標進行檢驗,其目的是判斷該研究對象是否適合運用因子分析法進行研究。本文采用 KMO 及 Bartlett 球度檢驗。
通過 SPSS 軟件分析發現,KMO 的值為 0.672>0.5,Bartlett球度檢驗的近似卡方值是2187.109,自由度是 55,顯著性是0.000。表明各變量間存在著相關性,所選指標適合進行因子分析。
2.2因子提取
使用主成分分析法對數據降維。在累計方差貢獻率在80%左右情況下提取因子。通過主成分分析法提取主因子,計算出提取因子的總方差解釋分析,由表可以得出,模型從11個因子中提取七個因子,特征值分別為2.998、1.387、1.118、1.035、0.991、0.923、0.859,提取的七個主因子的累計貢獻率達到84.653%,覆蓋了大部分信息,能夠反映出小區的綜合素質水平。
2.3解釋因子
因子1解釋為小區的結構。因子2解釋為小區的規模。因子3解釋為小區的價格。因子4解釋為小區的密度。因子5解釋為小區的服務。因子6解釋為小區的裝修情況。因子7解釋為小區的自然環境。
2.4計算因子得分
對于每個因子,把系數和對應的指標名稱相乘后再求和,可以得到最終的因子得分公式,利用它就能夠對所有樣本進行因子評分。得到公因子得分矩陣,再與對取得的7個公因子的得分進行加權求和就可以對學生進行綜合評分。這7個因子的權數可取方差貢獻值。
設各指標為X1、X2…Xm,
成分得分系數矩陣為,方差貢獻值矩陣為,各因子得分為,n為因子數,m為指標數
小區分數為
設總價為X1、均價為X2、面積為X3、室為X4、廳為X5、總樓層為X6、裝修狀態為X7、房子數量為X8、綠化率為X9、容積率為X10、物業費為X11。
由上兩表可知第一類的聚類中心是86.96949428,有36個小區;第二類的聚類中心是20.49633943,有284個小區;第三類的聚類中心是-19.25131403,有785個小區;
結論
通過因子分析及聚類,我們得出結論——長春市在售一級小區有36個、二級小區有284個、三級小區有465個。
參考文獻:
[1]王杰,閆軍,徐旦.基于因子分析法的“一帶一路”沿線省市物流能力比較研究*[J].科技與創新,2019(04):26-30.
[2]張少杰,林紅.“金磚五國”服務業國際競爭力評價與比較研究[J].中國軟科學,2016(01):154-164.
[3]王湃,南玉范.SPSS在區域科技綜合實力評價中的應用[J].中國管理信息化,2006,9(11):86-87.
作者簡介:
李澤(1990— ),男,漢族,吉林省通化市輝南縣人,本科,研究方向:計算數學。