周海龍





摘要:本文借鑒國內外房地產評估經驗[1],在依據特征價格理論前提下,將高校建筑的房屋價格和房屋特征作為空氣質量的特征變量,運用機器學習中的隨機森林算法,建立空氣質量的特征變量與空氣質量之間內在的映射關系,預測出校區的空氣質量。以部分高校為例進行實驗,預測得到了較高的準確性,實驗結果驗證了預測方法的可行性和穩定性,在對高校校區空氣質量預測的所有方法中屬于創新實踐。
關鍵詞:空氣質量;機器學習;高校;預測方法
引言:近年來,高校在建造校區時,更加重視建筑的地理環境,尤其傾向于地理位置空氣質量較好的校區,因為室內新風直接來源于室外,室外空氣質量決定著室內空氣品質的好壞[2]。所以準確預測高校校區的空氣質量對師生非常重要。
1、氣質量的特征變量選取
本文結合國內學者對于使用特征價格理論選取特征變量的概括與總結,以及需要解決的具體問題即對高校校區的空氣質量預測,選取13個房屋特征作為空氣質量的特征變量,以下為選取的特征變量及其含義,如表1所示。
為了便于運用機器學習分類算法構建出預測模型,需要將特征變量和高校校區的空氣質量采用綜合性指標法、虛擬變量法和5點Likert量化表等方法進行量化。對于有原始數值的,明確其數值單位,總價單位為萬元,建筑面積單位為平方米,內室數的單位為間,物業管理費的單位為元/平方米,公交線路為校區周邊500米內公交線路的條數,地鐵站為校區周邊1000米內地鐵站個數。住宅附近有大學時,臨近大學賦值為1,否則賦值為0。住宅的朝向為南、西南和東南方向時將賦值為1,其余為0。裝修:豪華裝修賦值為4,精裝修賦值為3,普通裝修賦值為2,毛胚房賦值為1。運動設施:建筑周圍是否有活動中心、會所、健身設施、游泳池、籃球場、網球場、羽毛球場,每有1項加1,最大數為7。生活配套:校區附近1000米范圍是否有餐館、超市、郵局、銀行、醫院、幼兒園、小學、中學,每有1項加1,最大數為7。將校區周邊自然環境、停車位以及校區的空氣質量劃分為5個等級,其Likert量化表如表2所示。
2、應用機器學習算法預測高校校區空氣質量的研究
實驗采用的數據是通過機器嗅覺實驗室自有的傳感器陣列到各個大學校區內采集得到的。從原始數據中選取298個數據作為樣本數據,其包括總價、建筑面積、內室數、朝向、裝修、停車位、周邊環境、物業管理費、運動設施、生活配套、臨近大學、公交線路、地鐵站共13個特征變量和空氣質量,表3給出了樣本數據的部分數據集樣例。
通過大量的實驗,得到隨機森林分類模型的最優參數:OOB作為準確率的驗證方法(oob_score=True),樹的個數為500(n_estimators=500),隨機選擇的特征變量的個數為log213(max_features="log2"),采用有放回的抽樣方法(bootstrap=True)。最后用測試樣本對此分類模型進行測試,運行100次,可以得到隨機森林算法對校區的空氣質量預測的準確率,如圖1所示。
最高準確率為87%,平均準確率為86%,方差為0.00003。由此可知,隨機森林算法對校區空氣質量的預測不僅準確率較高而且穩定性較好。
總之,基于計算機領域的機器學習分類算法、房地產領域的城市高校校區以及環保領域的空氣質量評價三者的結合。運用現在被人們廣泛關注的數據挖掘思想和技術,采用分類性能較好的機器學習算法(隨機森林),準確預測出高校校區的空氣質量。并用實驗證明了此方法的可行性和穩定性,可以滿足師生在關注校區空氣質量時的實際需求。這將是未來預測空氣質量的新技術趨勢。
參考文獻:
[1]孟棟.樊重俊.李旭東,等.混沌遺傳神經網絡在空氣質量預測中的應用[J].安全與環境學報,2014,14(04):246-250.
[2]寇利.城市街區建筑物附近空氣質量的研究[D].上海:東華大學,2008.
[3]彭巖,王萬森,王旭仁,等.基于機器學習的風險預測方法研究[J].計算機科學,2009,36(4):205-210.
[4]寇利.城市街區建筑物附近空氣質量的研究[D].上海:東華大學,2008.
[5]楊沐晞.基于隨機森林模型的二手房價格評估研究[D].湖南:中南大學,2012.
[6]彭巖,王萬森,王旭仁,等.基于機器學習的風險預測方法研究[J].計算機科學,2009,36(4):205-210.