999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成LightGBM 和貝葉斯優化策略的房價智能評估模型

2020-09-29 06:57:04許國良李萬林李家浩王志愿雒江濤
計算機應用 2020年9期
關鍵詞:特征優化模型

顧 桐,許國良,李萬林,李家浩,王志愿,雒江濤

(1.重慶郵電大學通信與信息工程學院,重慶 400065;2.重慶郵電大學電子信息與網絡工程研究院,重慶 400065)

0 引言

黨的十九大報告中明確提出:要推動互聯網、大數據、人工智能與實體經濟的深度融合。房地產作為影響實體經濟的關鍵因素,在實體經濟發展中發揮著至關重要的作用。伴隨著房地產市場化的推進以及市場經濟體制的發展,房地產市場對房價評估的需求迅速增長。房價評估有利于房地產市場的決策過程,進而推動經濟效益和社會效益的提升。

近年來,國內外學者針對房價評估問題展開了大量研究。例如:Liu 等[1]提出了一種基于數據挖掘的雙支持向量機模型,用于評估二手房的價格。Phan 等[2]提出了基于逐步回歸和支持向量機(Support Vector Machine,SVM)相結合的房價評估方法。Feng 等[3]通過構建多層級模型和人工神經網絡(Artificial Neural Network,ANN)的方法對房價進行評估。Mukhlishin 等[4]比較了模糊邏輯、ANN 和K近鄰算法(KNearest Neighbor,KNN)在房價評估中的應用。Lu等[5]提出了一種基于Lasso 和梯度提升回歸的混合模型用于評估房價。王昕睿[6]通過加權求和的方式融合梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)、隨機森林和反向傳播(Back Propagation,BP)神經網絡,并以多層級的集成策略實現房價評估。劉燕云[7]分別構建隨機森林、SVM、Boosting 等單一評估模型,然后采用Stacking 算法組合各模型。實驗表明,Stacking算法不僅降低了評估的誤差,還提升了模型的泛化能力。陳敏等[8]建立了一種神經網絡分級模型,用于二手房價格的評估。王海泉[9]通過多元線性回歸、神經網絡和隨機森林分別對房價進行評估。李恒凱等[10]融合地理信息系統(Geographic Information System,GIS)和BP神經網絡對房價進行評估,結果表明模型具有較高的精度。

然而,這些房價評估方法采用單一的模型或者經過簡單融合的集成模型,泛化性能較差;考慮的因素也不全面,忽略了特征選擇和參數組合對模型的影響,模型精度有限。

針對上述問題,本文從多源數據的角度出發,提出一種集成LightGBM(Light Gradient Boosting Machine)模型,并利用貝葉斯優化算法優化模型,從而對房價作出更加準確的評估。

本文的主要工作如下:

1)構建房價特征集,針對序列前向選擇法的不足導致的特征冗余問題,提出一種融入Pearson 相關系數的序列前向選擇法,可以有效避免冗余特征,篩選出最優特征子集。

2)提出一種集成LightGBM 模型,通過Bagging 集成策略增強模型的泛化能力,并針對Bagging集成中采樣比例的劃分和個體學習器數量的選取等組合計算問題,利用貝葉斯優化算法得出最優解,從而提升模型性能。

1 特征選擇與模型構建

1.1 特征選擇

多源數據中往往包含了高維度的特征,不能直接用于模型的訓練,因此需要對原始數據集進行特征選擇。特征選擇不僅可以防止模型過擬合,降低模型的泛化誤差;還可以減少訓練時間,降低模型開發成本,減少硬件資源損耗。

本文基于Pearson 相關系數與序列前向選擇法選擇最優特征子集。首先利用Pearson 相關系數過濾掉相關性較大的冗余特征,其計算過程如下:

其中:r(θi,ηi)表示特征θi與特征ηi之間的相關系數:分別表示特征θi和特征ηi的均值。相關系數的絕對值越大,兩者的線性關聯程度越強,當>0.8時,表示兩個特征之間有極強的線性相關性[11],則需要過濾掉冗余特征。

基于上述方法過濾掉冗余部分后,得到新的特征集合Y={y1,y2,…,yn},接下來的目標就是尋找最優的特征子集Y*。本文利用序列前向選擇法選擇特征子集。其算法具體描述為,特征子集Yk從空集開始,每次從特征集合中選擇一個特征y加入特征子集Yk,最終使得特征函數J(Y*)達到最優。序列前向選擇法流程描述如算法1所示。

算法1 序列前向選擇法。

輸入:特征集合Y={y1,y2,…,yn};

輸出:最優特征子集Y*。

1)初始化特征子集Y0=?和迭代次數k=0。

2)每次迭代加入一個新特征Yk+1=Yk+y,并計算特征函數

4)輸出最優特征子集Y*,迭代結束。

1.2 模型構建

集成學習(Ensemble learning)可以有效地提高模型的泛化能力,因此逐漸成為機器學習的研究熱點,并被稱為當前機器學習的研究方向之首[12]。

集成學習一般采用某種結合策略,構建并融合多個基學習器來完成學習任務[13]。按照基學習器的類型異同,集成學習通常分為同質集成和異質集成兩大類[14]。在此基礎上衍生出了各種集成方法。

Breiman[15]提出了一種Bagging 的集成方法。該方法的主要思想是通過自助法(Bootstrap)從訓練集中抽取N個訓練子集,然后對這N個訓練子集進行訓練可以生成N個基學習器,最終結果由這N個基學習器投票或平均的方式得出,這樣不僅提高了模型學習的精度,而且還可以降低過擬合的風險。

在Bagging 的框架下,以決策樹作為基學習器的隨機森林[16]應運而生。由于隨機森林在學習任務中展現出的良好性能,且能夠容忍一定的異常數據和噪聲,在信息技術、生物醫學、經濟管理學等諸多領域有著廣泛的應用[17]。

本文借鑒隨機森林的思想,提出一種基于貝葉斯優化的集成LightGBM 模型。首先通過Bagging 方法集成多個LightGBM,再結合貝葉斯優化算法優化模型,最后通過加權平均的方式獲得最終輸出。其實現方式如圖1所示。

圖1 集成LightGBM模型Fig.1 Ensemble LightGBM model

針對多個基學習器的集成問題,本文采用softmax 函數為基學習器賦權,通過加權平均獲得最終結果。

softmax 函數通過歸一化的方式,使每一個元素的取值都在(0,1)區間,且元素和為1,它能夠凸顯其中較大的元素,即為更準確的學習器賦予更大的權值。設第i個基學習器的輸出結果的百分誤差在10%以內的比例占gi,則n個基學習器獲得的權值可分別表示為Si:

2 LightGBM原理

LightGBM 是微軟提出的一款開源的基于決策樹的梯度提升框架,作為Gradient Boosting 的改進版本,具有準確率高、訓練效率高、支持并行和GPU、使用內存小以及可以處理大規模數據[18]等優點。

2.1 Gradient Boosting

根據基學習器生成方式的不同,集成學習可以分為并行學習和串行學習。作為串行學習中最典型的代表,Boosting算法又可分為Adaboost 和Gradient Boosting,它們的主要區別在于前者通過增加錯分數據點的權重來提升模型,而后者通過計算負梯度來提升模型。

Gradient Boosting 的核心思想是利用損失函數的負梯度在當前模型f(x)=fj-1(x)的值近似替代殘差。設訓練樣本為i(i=1,2,…,n),迭代次數為j(j=1,2,…,m),損失函數為L(yi,f(xi)),則負梯度rij的計算公式如下:

使用基學習器hj(x)擬合損失函數的負梯度r,求出使損失函數最小的最佳擬合值rj:

Gradient Boosting 在每輪迭代都會生成一個基學習器,通過多輪迭代,最終的強學習器F(x)是由每輪產生的基學習器通過線性相加的方式求得:

2.2 改進策略

作為一款改進的輕量級Gradient Boosting 算法,LightGBM的核心思想是:直方圖算法、帶深度限制的葉子生長策略、直接支持類別特征、直方圖特征優化、多線程優化、Cache命中率優化。前兩個特點有效地控制了模型的復雜度,實現了算法的輕量化,因此是本文尤其關注的。

直方圖算法是通過把連續的浮點型特征離散化成L個整數,以構造一個寬度為L的直方圖。遍歷數據時,根據離散化后的值作為索引在直方圖中累積統計量,當遍歷一次數據后,直方圖累積了需要的統計量,然后從直方圖的離散值中,尋找最優的分裂點。

傳統的葉子生長策略對于同一層的葉子可以同時進行分裂,實際上很多葉子的分裂增益較低,沒有必要分裂,這樣帶來了很多不必要的開銷。對此LightGBM 使用一種更加高效的葉子生長策略:每次從當前所有葉子中尋找分裂增益最大的一個葉子進行分裂,并設置一個最大深度限制。在保證高效的同時又防止了模型過擬合。

3 貝葉斯優化

貝葉斯優化算法是一種高效的優化算法,已經證明在一系列具有挑戰性的優化問題上優于其他先進的優化算法。在數學上,可以統一將此問題描述為求解未知目標函數的全局最優解[19]:

其中:x表示待優化的參數;X表示待優化的參數集合;f(x)表示目標函數。

在執行貝葉斯優化算法時有兩個關鍵步驟。首先,必須選擇一個先驗函數來表示被優化函數的分布假設。為此,選擇高斯過程,因為它具有靈活性和易處理性;其次,必須構建一個采集函數,用于從模型后驗分布中確定下一個需要評估的點。

3.1 高斯過程

高斯過程是多維高斯分布在無限維隨機過程上的擴展。它是通過均值函數和協方差函數定義的。

通過評估均值和協方差矩陣,可以從聯合后驗分布中對函數值f*進行采樣[20]。

3.2 采樣函數

通過采樣函數確定下一個需要評估的點,可以減少迭代次數,降低評估成本。通常,對于采樣點的選擇從利用(exploitation)和探索(exploration)兩個方面考慮。exploitation就是根據當前的最優解,在其周圍搜索,從而找到全局最優解;exploration 就是盡力探索未評估過的樣本點,避免陷入局部最優解。

常用的采樣函數有:EI(Expected Improvement)函數、POI(Probability of Improvement)函數以及UCB(Upper Confidence Bound)函數。本次實驗選取UCB 函數作為采樣函數,其數學表達式為:

其中μ(x)和δ(x)分別是采用高斯過程所得到的目標函數聯合后驗分布的均值和協方差。從式(17)可以看出,通過調節參數ε的大小,可以用來平衡采樣點的選擇[21]。

4 實驗與結果分析

4.1 實驗數據集

為驗證模型的普適性和在真實場景中的準確性,本次實驗分別使用了公開房價數據集和真實房價數據集。

公開房價數據集選取美國加州房價數據集,數據包含10個字段,其字段含義和數據類型如表1所示。

表1 加州房價數據集Tab.1 California house price dataset

真實房價數據集來源于房產交易數據、地圖軟件應用程序接口(Application Program Interface,API)數據、公共交通數據以及城市地理信息數據,字段包括建筑面積、建筑年代、所處樓層、總樓層、戶型、裝修、物業費、停車位、容積率、綠化率、梯戶比、經緯度、交通便捷程度、到中央商務區(Central Business District,CBD)距離、生活設施配套和教育配套,如表2所示。

表2 真實房價數據集Tab.2 Real house price dataset

4.2 數據處理

在海量的原始數據中,存在著大批有缺失、有異常的數據,嚴重地影響到對數據潛在價值的挖掘。

一方面需要填充缺失值,過濾異常值。例如對于建筑面積、建筑年代、所處樓層等數據的部分缺失,用插值法進行填充;刪除不合常理的極大或極小的異常數據等。另一方面是要使數據更平滑,從而讓數據更好地適應模型。例如對房價數據乘以對數函數,使得數據近似服從正態分布。

此外,由于實驗數據具有多維度,因此需要對數據進行規范化,目的是消除不同數據之間取值范圍和量綱的影響,其公式如下所示:

其中:d表示特征數據;μ表示數據的均值;δ表示數據的方差。

4.3 評價指標

為了合理評價模型的綜合性能,本文分別構建對數平均絕對誤差(Mean Absolute Logarithmic Error,MALE)和對數均方根誤差(Root Mean Square Logarithmic Error,RMSLE)作為模型的綜合評價指標。MALE 能更好地反映觀測值誤差的實際情況,RMSLE 用來衡量觀測值和真實值之間的偏差,兩者的研究目的不同,但是計算過程相似,公式定義為:

其中:pi表示實際的房價:表示模型輸出的房價。

4.4 模型對比

將集成LightGBM 模型與當前公開研究中提及的經典模型進行對比實驗,下面對各個模型進行簡要介紹。

線性回歸 利用線性預測函數,對自變量和因變量進行建模的一種回歸分析。當只有一個自變量時稱為一元線性回歸,當自變量大于一個時稱為多元線性回歸。

多項式回歸 利用多項式的回歸分析方法,對自變量和因變量進行建模,通過增加自變量的高次項對因變量進行擬合,能夠解決一些非線性問題。

K近鄰 計算該樣本與所有訓練樣本的距離,然后找出與它最接近的k個樣本,將樣本分到離它最接近的樣本所屬的類中。

BP 神經網絡 利用誤差反向傳播算法訓練的多層前饋神經網絡,是目前應用最廣泛的神經網絡模型之一。

支持向量機 通過尋找一個超平面來對樣本進行分割,它不僅能正確地對每一個樣本進行分類,并要使每一類樣本中離超平面最近的樣本與超平面之間的距離盡可能遠。

隨機森林 利用隨機有放回采樣得到的樣本訓練多棵決策樹,決策樹的每個節點在訓練時只用了樣本無放回抽樣的部分特征,最后用這些決策樹的預測結果進行投票或平均。

本次實驗選取加州房價數據集和真實房價數據集作為訓練集,對各類模型進行訓練,結果如表3所示。

表3 各類模型對比結果Tab.3 Comparison results of various models

不難看出,本文提出的集成LightGBM 模型性能明顯優于KNN、SVM 這類單一模型,隨機森林、LightGBM 這類集成模型,以及BP 神經網絡這類深度學習模型,進一步驗證了集成學習在機器學習中展現的優越性。

4.5 參數敏感性測試

由于基學習器的個數和采樣比例決定著集成效果的好壞,因此在加州房價數據集上對模型的參數組合問題作敏感性測試,參數取值如表4所示。

表4 參數敏感性測試取值Tab.4 Values of parameter sensitivity test

本次實驗選取均方誤差作為評價標準,均方誤差越小,算法準確率越高。由表4 可得,共有50 種參數組合。若隨著參數組合變動,均方誤差一直處于上下波動狀態,則認為模型對參數敏感;若均方誤差在某個參數組合之后趨于平穩,則認為模型對參數不敏感。測試結果如圖2所示。

圖2 參數敏感性測試Fig.2 Parameter sensitivity test

經過50 種參數組合模型依然無法達到最優,由此證實,參數的優劣極大地影響了模型性能。

4.6 參數優化

在真實房價數據集的基礎上,分別使用網格搜索法和貝葉斯優化算法,對采樣比例和基學習器數量進行優化。設采樣比例在0.5~0.9,基學習器數量在10~100,結果如表5所示。

表5 模型優化結果Tab.5 Model optimization results

顯然,貝葉斯優化在更少的迭代次數中獲得更優的結果,在參數組合尋優問題上優于傳統的網格搜索,能夠在實際的應用中減少時間開銷,提升模型性能。

4.7 預測結果

基于本文提出的模型在真實場景下對房價進行智能評估,將真實房價數據集按照9∶1 的比例隨機分為訓練集和測試集,其輸出結果與真實房價的擬合曲線如圖3所示。

從圖3 可以看出,上述構建的集成學習模型輸出的房價與實際的房價能夠較為準確地擬合。

與此同時,為了更加真實地反映輸出結果的可信度,本文通過百分誤差來衡量輸出值與真實值之間的偏差,其計算過程如下:

其中:E表示百分誤差;pi表示實際的房價表示輸出的房價。

圖3 模型輸出結果與真實值的擬合曲線Fig.3 Fitted curve between model output and real value

將本文構建的集成模型與子模型進行可信度分析。定義如下:輸出結果與實際房價的百分誤差在10%以內,具有較高的可信度;輸出結果與實際房價的百分誤差在10%~20%,可信度中等;輸出結果與實際房價的百分誤差在20%以上,可信度較低。分析結果如圖4所示。

圖4 可信度分析Fig.4 Reliability analysis

對于可信度較高的輸出結果,在實際的應用中能夠準確地反映房價,具有很高的應用價值;可信度中等的輸出結果,在一定程度上也能夠作為房價的參考。由圖4 可得,本文提出的基于貝葉斯優化的集成LightGBM 模型(BO-集成LGB),較LightGBM 模型(LGB)在精度上提升3.15 個百分點,其96.46%的輸出結果都能在真實場景中發揮它的價值,進一步體現了該模型在評估準確性上的優勢。

綜合上述分析證明,采用集成學習和貝葉斯優化算法對LightGBM 的改進是有效的,能夠較為準確地評估房價,在實際的房價評估中具有一定的指導意義。

5 結語

隨著信息技術的飛速發展,大數據、人工智能為企業、社會、甚至是國家帶來了前所未有的機遇。本文在多源數據的基礎上,提出了一種基于貝葉斯優化的集成LightGBM 模型。實驗表明,所提模型準確率優于KNN、SVM 這類單一模型,隨機森林、LightGBM 這類集成模型,以及BP 神經網絡這類深度學習模型,房價評估結果也與實際值比較接近,進而體現了數據挖掘的意義,實現了海量數據的價值。

房地產市場的特殊性,時間、人文、經濟環境等因素也會不同程度地影響房價。在未來的工作中,將結合我國的基本國情,對影響房價的指標進一步細化,充分提取潛在的影響因子,使評估結果更加準確。

猜你喜歡
特征優化模型
一半模型
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
主站蜘蛛池模板: 国产福利免费视频| 欧美成人午夜影院| 国产精品成人免费综合| 国产第一福利影院| 亚洲午夜国产精品无卡| 久久婷婷综合色一区二区| 久久a毛片| 男人的天堂久久精品激情| 四虎成人精品在永久免费| 国产精品.com| 不卡的在线视频免费观看| 亚洲黄网视频| 免费又黄又爽又猛大片午夜| 手机精品视频在线观看免费| 亚洲欧洲一区二区三区| 久996视频精品免费观看| 欧美日韩国产系列在线观看| 狠狠色综合网| 国产精品白浆在线播放| 亚洲日本www| 亚洲无码视频图片| 免费国产无遮挡又黄又爽| 91亚洲精选| 女人毛片a级大学毛片免费| 91精品专区| 国产日韩欧美一区二区三区在线| 亚洲美女久久| 免费国产好深啊好涨好硬视频| 国产日本欧美亚洲精品视| 亚洲丝袜第一页| 国产91在线|中文| 国产成人8x视频一区二区| 精品国产中文一级毛片在线看| 久久99蜜桃精品久久久久小说| 国产69精品久久久久孕妇大杂乱| 亚洲va欧美va国产综合下载| 日本精品视频一区二区| 伊人91在线| 国产高清又黄又嫩的免费视频网站| 热这里只有精品国产热门精品| 中文成人无码国产亚洲| 午夜日韩久久影院| 国产日本一区二区三区| 亚洲欧美日韩中文字幕在线| 欧美成人精品一级在线观看| 538国产在线| 中文字幕在线视频免费| 91小视频在线播放| 国产在线视频自拍| 亚洲伊人电影| 99久久国产自偷自偷免费一区| 国产一级裸网站| 色综合婷婷| 九九热精品视频在线| 日本午夜精品一本在线观看| 天天躁狠狠躁| 免费一级全黄少妇性色生活片| 老司机午夜精品网站在线观看| 欧美啪啪视频免码| 欧美成人在线免费| AV无码无在线观看免费| 亚洲毛片网站| 国产精品久久久久鬼色| 中文字幕在线永久在线视频2020| 国产幂在线无码精品| 久久久久亚洲AV成人网站软件| 亚洲美女视频一区| 日韩av电影一区二区三区四区| 亚洲精品大秀视频| 精品剧情v国产在线观看| 亚洲国产天堂久久综合| 麻豆国产精品视频| 免费高清自慰一区二区三区| 亚洲成a人在线播放www| 日本爱爱精品一区二区| 国产一级在线观看www色| 日本爱爱精品一区二区| 精品天海翼一区二区| 毛片免费高清免费| 欧美亚洲国产精品第一页| 亚洲久悠悠色悠在线播放| 在线国产综合一区二区三区|