





摘?要:堅持“房住不炒”原則,建立“租購并舉”的住房制度,是保持房地產市場平穩健康發展的重要舉措。文章利用LightGBM模型和XGBoost模型對月租金進行預測,結果顯示LightGBM模型的建模效果最好,并且預測后系統會自動計算得分,可靠性更高。同時發現影響住房月租金的關鍵因素主要包括房屋面積、小區所在商圈位置、房屋距離地鐵的距離、房屋所在建筑的總樓層數和小區房屋出租數量等。
關鍵詞:XGBoost模型;LightGBM模型;住房租金
中圖分類號:F274????文獻標識碼:A?文章編號:1005-6432(2023)10-0143-04
DOI:10.13939/j.cnki.zgsc.2023.10.143
1?引言
據北京市統計年鑒數據顯示,北京市常住人口為2170.5萬人,其中租住人口738萬,占比為34%。北京市常住外來人口約22.6萬人,占常住人口的37.9%,其中大多數通過租賃住房解決居住問題。住房租賃市場將在我國社會經濟的發展中扮演重要角色,住房租金問題也一直是研究人員關注的焦點。現有研究文獻主要集中關注住房租賃制度和租金影響因素。在房屋租賃的相關研究中,魏凌、成立[1]提出中國房屋租賃市場將長期保持多元市場結構,市場經濟之公平與效率原則彼此分離。劉芮[2]指出中國房屋租賃制度存在承租人之優先購買權無法提現以及房屋租賃合同期限限制等短板。邵挺[3]在分析中國房屋租賃市場現狀之基礎上,指出出租房源供求不匹配、機構化發展不完善、市場秩序混亂、立法遲滯等困境,并提出建立完善相關配套制度和政策的建議。
伴隨城市化進程的推進,房價的飛漲和租賃住房賣方市場的到來也是必經之路。合理的租金價格對保護住房市場和國民經濟的發展具有特殊的影響。因此,胡曉龍、邱知奕[4]深入分析目標群體住房短板問題與原因,以優化解決方法。預測出租房屋租金的常用方法有多元回歸[5-6]、主成分分析和時間序列模型[7]。大數據時代下可利用平臺對事件數據進行密度采樣,精確獲取事件全局數據。并采取批處理方式集中計算或流處理方式實時計算,通過對歷史數據的分析進行預測分析。文章選擇了LightGBM與XGBoost模型[8-11],在處理回歸任務數據的預測模型上具有優勢,通過爬取的租房市場數據與此兩種算法模型,幫助租賃雙方深層次挖掘出影響房屋租金的關鍵要素。
2?模型建立
文章使用Pearson相關系數和隨機森林進行特征提取,并運用LightGBM模型、XGBoost模型對數據進行分析,最后以均方根誤差作為評價標準。相關系數可以定量客觀地表達變量之間的相關程度,易于操作和使用。因此,在特征選取時將考慮這種方法。
2.1?LightGBM模型
LightGBM是一個開源、快速、高效的基于決策樹算法的提升框架,支持高效的并行訓練。梯度提升(Gradient?Boosting)思想是:一次性迭代變量,迭代過程中,逐一增加子模型,并保證損失函數不斷減小。
梯度提升決策樹GBDT擁有梯度提升(GB)和決策樹(DT)的功能特性,具有訓練效果好、不易過擬合等優點。LightGBM模型是GBDT的一種,用于處理海量數據問題。
2.2?XGBoost模型
XGBoost兼具線性規模求解器和樹學習算法,是對GBDT算法的改進,效率更高。步驟如下:
給定數據集D={(x,?y):?i=1,?2,?…,?n,?x∈R,?y∈R},其中n為樣本個數,每個樣本有P個特征。假設給定k個回歸樹,x表示第i個數據點的特征向量,f是一個回歸樹,F是回歸樹的集合空間,模型可表示為:
y—i=∑Kk=1fk(xi)fk∈F(1)
目標函數定義如下:
Obj=∑ni=1l(yi,?i)+∑Kk=1Ω(fk)(2)
式中,?i為預測值,?yi為真實值;?Ω(fk)表示第k棵樹的正則項,??Ω(fk)=γT+12w2,?T、?ω、?γ、?λ分別為樹葉子節點數、葉子權重值、懲罰系數、權重懲罰系數。
2.3?住房租金預測建模分析
首先對租房數據進行預處理,然后使用Python語言建立XGBoost、LightGBM兩模型機器學習算法進行網格搜索,最后通過準確度預測的相較確定最優預測模型。
2.4?模型評價標準
實驗采用均方根誤差(RMSE)來度量預測模型的精確度,RMSE計算結果越小,預測越精準。假設N為樣本個數,Xobs,?i為第i個樣本實際值,Xmodel,i為第i個樣本預測值,定義:
RMSE=1N∑ni=1(Xobs,?i-Xmodel,?i)2(3)
3?數據預處理與變量選擇
文章研究從微觀角度分析影響房屋租賃價格的因素,并分析各個影響因素與租價間的關系。選擇北京鏈家網來取一個地方4個月基本信息和房屋租賃價格等相關房屋租賃數據。
將數據集結構化后使用移動平均法處理缺失值較少的樣本。數據分為訓練集和測試集。訓練集為收集前3個月的數據,共193736項。測試集為收集第4個月的數據。與訓練集相較,測試集增加了一個“id”字段和沒有“月租”的字段,其他字段和訓練集并無不同,共57284項。
在租房月租金預測問題中給出了15個特征和1個標簽值(月租金),對于給定的特征進行詳盡的數據分析,為下一步研究奠定基礎。訓練集數據的缺失情況如表2所示。
從表2可以看出,房屋裝修檔次缺失值最多,缺失率高達91.231%。所在區級行政單位和所在商圈的缺失值為0.023%與0.016%,相對較少。此外,表中列出的7個特征都沒有缺失數據。為了保證數據質量,需要進行數據清洗,而對于測試集處理方法相同。
3.1?無效數據的去除
可以看出訓練集與測試集分別測試了17個特征值。其中,居住近況和裝修水平存在大量信息缺席,需要剔除。雖然分類變量住房方向并無數據丟失,但分析表明租金影響不大,機器學習處理更復雜,故文章選擇排除。
3.2?補足缺失值與異常值刪除
文章提供了房屋表面、房間數量、錯誤數量和浴室數量之間關系的間接信息。文章使用決策樹來執行值,到目前為止,對于17個特征值,文章僅保留了15個用于分析。數據驗證和分析表明:存在違反規則的異常值,文章根據現有了解進行排除。
對于數據,若去掉明顯變量,分析的流程將無法顯示。文章把數據樣本含M1、M2特征與否作為判別依據,將原始數據集切分為5個數據集:數據集①剔除M1、M2特征;數據集②剔除M1、保留M2特征缺失的數據;數據集③保留M1特征缺失、M2特征不缺失的數據;數據集④保留M1不缺失、M2缺失的數據;數據集⑤保留M1、M2特征都不缺失的數據。
4?計算過程與結果分析
4.1?準備工作
本研究的實驗代碼基于Jupyter?Notebook平臺通過Python語言分析并建模。主要針對使用模型的內置函數提取特征重要性,影響租金的主要特征可借此確定。
4.2?模型的特征重要度百分比
4.3?隨機森林
表6中分數代表隨機森林各個特征的相對顯著性水平。由于在提取特征時能夠看到每個特征的相對狀態,故只能判斷重要性而無法判斷該特征是否無效。通過分別展示特征大于0.1與因子大于0.05的特征以形成和比較結果的優劣。提取已知變量后,分別建立LightGBM模型和XGBoost模型,最終結果如表7所示。
根據特征提取、模型選擇的方法不同,進行組合之后,文章共建立了12個模型,結果如表7所示,其中得分為對模型優劣之評價標準。可發現LightGBM模型得分皆高于XGBoost模型,該得分為提交預測結果之后系統自動計算而得到,高度可信。
5?結論
通過收集信息可發現特征M1、M3是影響租金的主要因素;在數據集④和包含M3特征(裝修水平、朝向方位、居住狀況、出租方式)的數據集中共有5個特征沒有顯示,由于M3沒有顯示該因子的主要特征,且在數據集③中,該數據集包含M1:房屋附近的地鐵線路和房屋距離地鐵的距離,均位于前列,說明關于地鐵的M1特征也是影響租金的關鍵因素。XGBoost最低均方根誤差可達到1.8503;LightGBM最低均方根誤差可達到1.608。同時通過對三個預測模型中特征重要度排序,識別出面積因素和地段因素最重要,由此看來LightGBM模型在對房屋租賃影響因素的預測與評估中數據擬合效果比XGBoost模型更貼切。使用機器學習方法預測住房收入旨在減少非必要經濟損失,進一步改善住房市場的健康狀況。
參考文獻:
[1]魏凌,成立.我國住房租賃制度的發展與變革[J].城鄉建設,2019(15):14-17.
[2]劉芮.論中國住房租賃制度之改革[J].法學論壇,2019,34(1):136-143.
[3]邵挺.中國住房租賃市場發展困境與政策突破[J].國際城市規劃,2020,35(6):16-22.
[4]胡曉龍,邱知奕.大城市中、低收入高校畢業生租房影響因素指標體系研究[J].南京農業大學學報(社會科學版),2014,14(3):98-104.
[5]熊遠南.基于改進灰色-多元回歸組合預測模型的燃煤電廠智慧水務研究[J].化工進展,2020,39(S2):393-400.
[6]俞藝融.基于多元線性回歸的房屋租賃價格基本影響因素研究——以上海市房屋租賃市場為例[J].產業創新研究,2021(20):79-81.
[7]商立群,王守鵬.改進主成分分析法在火電機組綜合評價中的應用[J].電網技術,2014,38(7):1928-1933.
[8]謝勇,項薇,季孟忠,等.基于XGBoost和LightGBM算法預測住房月租金的應用分析[J].計算機應用與軟件,2019,36(9):151-155,191.
[9]張英婕,王洪強,徐愉.一線城市房屋租賃價格影響因素研究——以上海市中心城區為例[J].價格理論與實踐,2020(11):72-75.
[10]陳熙,張曉博.基于LightGBM的住房租金預測分析[J].產業與科技論壇,2020,19(6):103-105.
[11]王芳杰,王福建,王雨晨,等.基于LightGBM算法的公交行程時間預測[J].交通運輸系統工程與信息,2019,19(2):116-121.
[基金項目]北方工業大學毓優人才項目(項目編號:107051360022XN708)。
[作者簡介]胡國華(1999—),男,漢族,北京人,研究方向:數理統計、隨機過程。