999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

上海寫字樓租金預測探究

2018-12-20 08:10:16李貞良曹布陽
軟件 2018年11期
關鍵詞:模型

李貞良,曹布陽

?

上海寫字樓租金預測探究

李貞良,曹布陽

(同濟大學 軟件學院,上海 201804)

本課題研究的問題核心點是如何有效地利用寫字樓內部及周邊環境的時空數據來對寫字樓的整體規劃進行評估,由于規劃的優劣在一定的程度上能在租金高低上反映出來,我們將著重于通過對寫字樓的租金預測,對寫字樓及周邊地塊規劃進行評價和建議。文章從數據獲取、數據處理、影響因素分析、建模分析多個方面進行介紹。本文也探討把此方法推廣到對于一般商業地塊的分析中去的可能性。

商業地產;預測;機器學習;數控數據

0 引言

人近些年來,隨著經濟的高速增長和第三產業的蓬勃發展,商業寫字樓已經成為了國民經濟發展的重要力量和主要空間形式。寫字樓對企業來說,與企業共生共榮,實力企業入駐高端寫字樓,好的寫字樓也能幫助企業發展[1]。對于城市經濟來說,寫字樓承接了城市的經濟發展面貌。正如國貿商務區之于北京,天河商務區之于廣州,陸家嘴之于上海[2-3]。在一定程度上,寫字樓可以視為城市經濟地位的風向標。這些寫字樓代表著城市的鮮明形象,同時也逐漸成為城市經濟發展的一個重要載體,蘊藏著巨大的經濟能量,創造著豐富的物質財富,見證著城市的日益繁榮發展。

隨著新寫字樓的規劃和建設,投資回報率會擺到議事日程上。自然地,開發商和管理人員會十分關心幾個問題:一旦寫字樓開發之后,出租率和空置率大概是多少?采取什么樣的設施配備,可以讓租金提高?或者采用何種方案,才能使得整體經濟效益最大化?

因此設想,如果能夠在規劃期內,根據建筑指標和以及周邊時空數據提前預估寫字樓樓房的大致出租情況包括可能的租金,那么會在在很大程度上為決策者和規劃者提供堅實的決策依據,不僅能提升經濟利益和社會效應,同時還能幫助開發商和管理者及時調整寫字樓的規劃戰略和決策[4-5]。受此啟發,本文結合上海及其他地區眾多寫字樓盤數據,基于其本身及周邊時空數據提出了對寫字樓規劃評估和租金預測的相關研究。

在房屋售價和租金的預測方面,回歸預測的場景十分適合與當下熱門的機器學習相結合,而機器學習算法經過若干年的演化和改良,已經分化出了較多實際的應用場景[6]。在這些場景中,眾多算法在回歸和預測方面也有著效果出眾的實際運用,如較為常用且成熟決策樹,隨機森林,支持向量機等等[7-9]。這些算法對于不同的數據量、數據特征、具體場景都會有不同的預測表現,因此需要根據自身的情況來對算法對比和調整。例如比較知名的“波士頓房價預測”案例[10],利用了UCI公開的波士頓房價數據集進行建模預測,該數據集于1978年開始統計,共506個數據點,涵蓋了麻省波士頓地區不同的郊區房屋14種特征的信息。案例將房價數據分析與機器學習相結合,建立了一個簡單的基于房屋配置的房價預測模型,并利用該模型對一些新配置房屋進行了具有參考價值的定價評估。

作為在寫字樓租金預測方面的實際應用,除了理論基礎,還需要進行數據收集與清洗、影響因子分析和選擇、算法選擇與調參優化等一系列的工作,探索出一條科學可行的方案路線。

本文通過“研究方法”、“計算實驗”、“結果分析”等章節來介紹這一方案路線。在“研究方法”這一章節中,步驟分為了“數據收集清洗”、“數據相關性分析”和“建模分析”;在研究方法確立后,“計算實驗”章節介紹了實驗相關過程和數據;最終在“結果分析”章節中對實驗結果進行了歸納和總結。

1 數據收集

本研究為數據驅動型的,故需要一定數量的相關數據支撐我們的研究。在前期的數據準備階段,所收集的數據主要分為兩類:寫字樓租金信息和寫字樓配套屬性數據。

由于租金信息的波動性和不確定性,受市場變化影響較大,因此需要找到一個數據更新及時、數據量充足,同時準確度較高的數據來源。在多方面對比之后,決定從目前比較主流的一些寫字樓出租網站上獲取數據。由于當下租賃網站的發展迅速,企業商戶和個人越來越重視線上的租賃渠道,相比線下租賃,線上網站十分便捷且信息公開。同時,對于我們的研究課題而言,租賃網站有如下幾個優點:

(1)數據更新及時,可以拿到實時變動下最新的寫字樓出租信息;

(2)寫字樓覆蓋較廣,在設定了上海市范圍之后幾乎所有有出租信息的寫字樓都能獲取到相應 數據;

(3)由于直接的供需關系,價格相對貼近真實的成交租金,數據較為可信。

另外,對于一些大型的租賃網站來說,網站上還展示了寫字樓的一些配套屬性數據,如建筑等級,建成時間,物業費,地理位置等等。通過對該類網站上的數據進行獲取之后即可同時獲取租金信息和一些寫字樓基本的數據,能夠較為高效地擴充所需數據和屬性。

在對租賃網站的選擇上做了進一步的調研和分析之后,在眾多主流網站中,我們選擇了安居客(https://sh.xzl.anjuke.com/loupan/)的寫字樓樓盤數據作為參考,通過所開發的爬蟲工具,可以獲得有關的寫字樓出租的信息,例如某一寫字樓的網頁展示數據如圖1。

從上面所列出的眾多屬性中,我們可以獲取到諸如建筑等級、電梯數量、物業費、車位數等對租金大小可能產生影響的屬性信息,以幫助我們進行模型分析。

同時,針對最重要的租金信息,在調研之后發現,如果使用單一出租廣告的租價或是部分信息平均值來進行代表的話,很容易因為信息發布人的隨意標價或是為了吸引客戶過低標價的行為導致數據不準確,因此需要找到一個具有充足數據且做了平均租金處理的數據來源,消除個別特異租金造成的誤差和影響。比較幸運的是,有另外一個網站:好租網(https://www.haozu.com/sh/zuxiezilou/)基于每個寫字樓所有目前的出租信息提供了平均租金,結合此網站所提供的信息,我們可以獲得更為精準的寫字樓的租金數據。其統計方式如圖2。

數據獲?。罕菊n題所有數據獲取方式均為到相關網站進行自動化的數據爬取,限于篇幅,同時爬取過程也不是本研究課題的重點,故省略數據抓取的詳細步驟。

除了基礎屬性,地理位置作為一項十分重要的空間屬性,能夠在很大程度上決定寫字樓的租金高低[11]。但是關于一個寫字樓的地理位置和區位情況較難量化,因此我們采取了對于寫字樓周邊的不同種類POI(Point of Interest)數量及類型進行加權計算,近似代替一個寫字樓的地理位置熱度。例如,根據寫字樓周邊一定范圍內的地鐵、酒店、停車場、商場和醫院等POI數量加權后得到一個地理位置特征值,作為空間屬性的量化指標。

對于寫字樓周邊的POI數據可以通過百度地圖POI接口批量檢索后獲得。

有了基礎屬性,空間位置屬性,平均租金之后可以通過寫字樓名稱將寫字樓所有信息關聯起來:寫字樓名稱-平均租金(好租網)-基礎屬性(安居客)-空間位置/POI數量(百度地圖POI)。

圖2 好租網寫字樓租金情況網頁展示

數據錄入需要進行數據的清洗。過程大致如下:

(1)將字符類型的字段量化后轉為數值類型,如建筑等級:甲乙丙級,將其對應為數值的3、2、1。

(2)出現屬性值為空(爬取時網站上缺少該屬性)的情況時,如果該屬性為空的樣本數占總體樣本超過15%,則在所有樣本中刪除該屬性,該屬性不加入模型分析;如果超過5%,則去除缺少該屬性的樣本;如比例在5%及以下,缺失該屬性的樣本對整體影響不大,則將缺失該屬性的樣本中該屬性值置位0。

(3)對數值異常進行處理,如租金超過50元/m2×天,等于0元/m2×天的樣本,都當做異常直接去除整條樣本。盡可能排除噪音點和異常點對模型的干擾。

2 相關性分析

在數據收集階段,我們收集到很多寫字樓相關屬性,這些屬性是主觀判斷下認為的寫字樓租金的影響因素。但是在這些屬性中,也有影響力的高低之分。因此我們應該在最終的預測模型中進行不同屬性權重的分配。

上文中說到,使用寫字樓周邊不同POI數據進行總和計算,以此來近似代替寫字樓的周邊區位、便利性、以及通勤優勢等。但是不同類別的POI其實對于寫字樓租金的影響也是不同的,從直觀上我們可以做出猜測,對于辦公寫字樓來說,對周邊的公園和醫院等數量不是十分敏感;同時寫字樓周邊的商店數量對其租金的影響,遠遠沒有寫字樓短距離內的地鐵站和地鐵線路數量對租金的影響大。因此,對于寫字樓的區位優勢我們不能簡單用POI加和代表,而是需要對不同POI設置權重,建立模型進行計算。

要計算每種POI的權重,就需要分析每種POI和租金信息之間的相關性。

在數據收集過程中,我們獲取了寫字樓周邊的以下幾類POI數量:酒店數量(hotel)、醫院數量(hospital),商場數量(mall),公園數量(park),商店數量(store)以及地鐵站以及站內所含線路之數量(underground)。

根據每種POI數量和其對應的寫字樓平均租金,作出可視化的數據分布圖。

圖3 寫字樓周邊各POI數量與租金的相關性分析

根據經驗可以得出,寫字樓周邊POI數量應該和寫字樓租金成一定線性關系,例如周邊便利店、商場越多,代表地區越繁華,寫字樓租金就越高;而周邊通勤的地鐵線路數量越多,代表交通越便利,則租金也會越高。而根據圖像顯示,也可以看出POI數量和租金成一定的正比關系。因此作出相關性的假設:每類POI數量和租金保持大致的線性關系,即:POI數量增多時,相應的租金也會有所增加。

因此,要找到這個線性關系(根據經驗判斷),我們將對對數據點進行線性回歸。線性回歸方式采用最小二乘法,即假設擬合直線形如:

其中,X代表每類poi的數量,Y代表租金。a,b為該擬合直線的系數。

最終擬合結果如圖4。

我們最終的目標是找到該類POI與租金的相關性強弱。從上圖中我們可以分析得知,如果一個POI和租金十分相關的話,那么點分布應該更靠近擬合的直線(圖中紅線);相反的,如果POI與租金相關性較弱或是沒有直接相關性,那么點分布應該更加離散。

評估數據點到直線的離散程度可以使用每個點到擬合直線的距離平均值來評估,這個距離平均值即是回歸分析常用的評價指標:均方誤差MSE(Mean Squared Error)。

圖4 線性關系下各POI數量與租金的擬合直線

通過計算,得到各個屬性數據點到回歸直線的均方誤差MSE如下:

表1 各屬性MSE表

Tab.1 MSE attributes

根據MSE越大相關性越小的原則,得到MSE與相關性的反比關系。根據以上特點,我們可以定義一個描述某一寫字樓區位優勢和地理位置熱度的量化指標,令其為f(x),則該量化指標計算方式如下:

其中n表示上述6類POI中的第幾類。

由上述表達式我們可以得到一個由多個POI共同影響的寫字樓區位優勢綜合評價。有了這一量化指標,我們就可以將寫字樓的區位優勢作為一個租金的影響因子,投入模型進行分析。

3 建模分析

對其余屬性影響權重的確定,本質上就是對于寫字樓所有相關數據和其租金進行回歸分析,建立輸入(各項屬性值)和輸出(租金)之間的關系。對這樣典型的回歸問題來說需要選擇一個合理的自學習回歸模型,也就是在大量數據中通過訓練自動調整參數的機器學習模型。

在模型選擇上,采用了當下回歸預測問題廣泛采用,同時效果較好的“支持向量機”-SVM(Support Vector Machine)[12]。選擇SVM有以下一些理由:

(1)在本問題中,收集到的寫字樓屬性較多,在高維的特征空間中SVM比其他回歸算法表現 更好。

(2)SVM能夠處理非線性特征的相互作用。

(3)因為本課題收集的寫字樓數據均來自網絡,可以預想有部分數據其實是不準確的,容易成為噪音點。該類噪音點因為屬性較多也較復雜,不容易在數據清洗階段識別出來去除,因此需要模型 有較好的抗噪音能力。而SVM相比其他回歸模型有較強的魯棒性,模型建立后的泛化能力也更好。

(4)由于SVM是借助二次規劃來求解支持向量,而求解二次規劃需要大量的存儲和計算,因此SVM計算效率是較為低下的,在大量訓練數據面前比較吃力。但是在該課題中,網站上上海寫字樓數量有限,數據總量不大,樣本數不超過1000個,因此帶來的運算代價在可接受范圍內。

4 計算實驗

SVM能夠解決分類和回歸問題,在本課題中主要使用支持向量機回歸SVR(Support Vector Regression),也就是找到一個回歸平面,讓一個集合中所有樣本點到該平面的距離最近。

進行回歸訓練時,需要將數據分為訓練集和測試集。在前文提到的數據收集處理階段我們對入庫的寫字樓數據進行過清洗,包括對數據格式進行統一規范,對一些租金、屬性值超出正常范圍的數據進行去除。最終剩下有效數據量為890條。我們對有效數據進行訓練集和測試集劃分:95%數據作為訓練集,5%數據作為測試集。

在訓練數據中,每一個樣本輸入包含的屬性有:

表2 樣本屬性表

Tab.2 Sample data attributes

在進行SVR訓練時,需要調整參數達到最優效果,在根據數據特點和訓練結果進行調整之后,得到一個回歸模型。SVR具體參數設置如表3。

帶入測試集數據之后,得到一組預測的寫字樓租金。與測試集實際的租金對比效果如圖5。

將每個預測租金點和實際租金點繪成折線圖進行直觀的效果對比,如圖6。

為了驗證SVR模型的有效性,以及針對本課題數據特點擁有的獨特優越性,還用相同的訓練集和測試集數據用其他模型進行了預測對比。例如在進行效果對比時使用了“決策樹回歸”來進行模型訓練和預測。在決策樹回歸過程中經過數次嘗試得到最佳參數設置:調整訓練最大深度(max_depth),即建立樹時從根節點到葉子節點的路徑長度,將值設置為5。決策樹回歸模型的最終訓練結果如圖7。

表3 SVR參數設置表

Tab.3 Parameter settings for SVR

圖7 決策樹回歸模型預測租金與真實租金進行柱形圖對比

對應的折線圖如下:

圖8 決策樹回歸模型預測租金與真實租金進行折線圖對比

同時計算SVR模型和決策樹回歸模型下,預測集和測試集租金之前的差距。我們依然使用均方誤差:MSE來評估:

表3 SVR和決策樹回歸預測結果均方誤差表

Tab.3 MSE for DecisionTree Regression and SVR

通過圖形和MSE指標都可以看出,同樣在調整參數之后SVR模型預測效果優于決策樹回歸。

5 結果分析

簡單從結果上來分析的話可以看到,在一些租金值較為極端的情況下預測效果較為保守。在一些租金較高點或者較低點預測不夠準確,分析如下:

(1)數據訓練樣本不夠:目前在數據清洗之后上海寫字樓有效數據還不足900條,對于成熟可靠的模型來說來遠遠不足。之后可嘗試其他地區的寫字樓樓盤,擴充訓練集。

(2)數據本身質量不足:一些寫字樓發布人可能對發布的寫字樓租金隨意標價。為了吸引瀏覽量刻意降低或者抬高標價,導致能夠獲取到的標價和真實成交價格有差距,最終模型訓練效果不夠好。同時,對于寫字樓其他屬性來說也有可能存在部分錯誤信息,影響了訓練結果。課題數據來源過于依靠網絡平臺,包括寫字樓各項數據,POI數據等都來自網站爬取或者網絡查詢,數據質量不可控。之后可以尋找更加正規或官方的渠道,盡量讓各個樣本的屬性接近真實值。

(3)寫字樓的現有屬性利用不足:例如不同種類的POI數據,只是用來簡單的進行加權和,對于本身POI價值來說挖掘不夠。例如地鐵站數目其實可以極大影響到寫字樓租金價格,但是在計算時只是簡化成一種普通的POI指標,作為POI加權和的一部分。同時,一些寫字樓的入駐企業信息也有收集,但是因為量化較困難在此次課題中沒有作為屬性加入訓練。

(4)影響租金的屬性收集不全:例如對于寫字樓的空間屬性來說,簡單使用一些POI指標進行加權和來代表其實是不準確的,并不能完美的反映一個寫字樓地理位置熱度信息。除了POI外,地理信息還包括了寫字樓周邊通勤,交通流量以及高峰擁堵程度等。同時,寫字樓租金還會受整個產業園區的整體租金水平、綠化、物業等等因素影響,這些屬性在本課題中都沒能收集加以考慮。

但是總體上來說,模型對于不同樣本之間的預測結果與真實值保持了一致的變化趨勢。同時,預測結果在一定范圍內是可靠的,可以作為寫字樓開發商和出租方租金定價的范圍參考。

6 總結

作為本課題來說,旨在嘗試一種方便、快捷并且智能化的地產分析評估方式,用自動化爬取的數據獲取方式代替傳統的實地走訪或是人工收集錄入,同時在能力范圍內盡可能地去擴充寫字樓的維度信息,將這部分維度信息作為影響其租金定價的影響因子,最終通過機器學習等一系列智能化的建模分析方法來對影響因子與租金間的因果關系用模型進行了歸納和描述,最終達到了預測估計的效果和目的。在文章中我們嘗試了一個數據來源公開且方便獲取、預測結果有參考價值的寫字樓租金學習、預測的技術方案。今后也可以在此基礎上繼續打磨,對上述不足之處作出改進,嘗試對模型參數進行調優,并嘗試更多的機器學習模型并作出結果對比,分析利弊,把寫字樓預測模型做得更加健壯和并獲得更為精確的結果,產生更大的實用價值。

[1] 葛大永. CBD寫字樓城市經濟價值探討[J]. 科技信息, 2009(33): 674-675.

[2] 陳曉婷. 上海甲級寫字樓市場淺析[J]. 才智, 2010(12): 31.

[3] 中華寫字樓網. 2016年上海甲級寫字樓市場年度報告[J/OL]. (2017-5-16) http: //news.officese.com/2017-5-1/153226. html.

[4] 章輝. 如何確定旅店的出租率?[J]. 商業經濟文薈, 1985, (01): 55-56.

[5] 茹茜. 提高我國社區商業街出租率的對策[J]. 內江科技, 2011, 32(09): 142+85.

[6] Glaeser E L, Nathanson C G. An extrapolative model of house price dynamics[J]. Journal of Financial Economics, 2017.

[7] 張寅. 用于回歸預測的高斯過程模型研究[D].河北工業大學, 2014.

[8] Chi Zhang, Haikun Wei, Xin Zhao, Tianhong Liu, Kanjian Zhang. A Gaussian process regression based hybrid approach for short-term wind speed prediction[J]. Energy Conversion and Management, 2016.

[9] 張偉, 熊偉麗, 徐保國. 基于實時學習的高斯過程回歸多模型融合建模[J]. 信息與控制, 2015, 44(04): 487-492+498.

[10] Boston Home Prices Prediction and Evaluation[J/OL]. https: //www.ritchieng.com/machine-learning-project-boston-home-prices/

[11] 龔健雅, 李小龍, 吳華意. 實時GIS時空數據模型[J]. 測繪學報, 2014, 43(03): 226-232+275.

[12] Yueming QI. GA-SVR Prediction of Failure Depth of Coal Seam Floor Based on Small Sample Data[A]. CBEES. Proceedings of 2013 2nd International Conference on Geological and Environmental Sciences (ICGES 2013)[C]. CBEES: 2013: 7.

Research on Rent Prediction of Shanghai Office Building

LI Zhen-liang, CAO Bu-yang

(School of Software Engineering, Tongji University, Shanghai 210044, China)

The concept of the research is how to effectively use the office buildings’ time and spacial data to evaluate the construction plan of buildings. Since the quality of the construction plan can be approximately reflected in the rent price level, we can focus on evaluation and suggestion for construction plan of these office buildings through rent prediction. The article introduced the research steps of data acquisition, data processing, influencing factor analysis and modeling analysis. This article also explored the approach to apply these research steps and prediction model to the analysis of general commercial estates.

Commercial estate; Prediction; Machine learning; CNC data

TP181

A

10.3969/j.issn.1003-6970.2018.11.036

李貞良(1993-),男,研究生,主要研究方向:機器學習與大數據;曹布陽(1958-),男,教授,主要研究方向:機器學習與大數據。

李貞良,曹布陽. 上海寫字樓租金預測探究[J]. 軟件,2018,39(11):170-177

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产亚洲欧美另类一区二区| 亚洲无码视频图片| 国产地址二永久伊甸园| 四虎影视永久在线精品| 久久黄色毛片| 亚洲国产亚综合在线区| 国产丝袜无码一区二区视频| 欧美色香蕉| 日韩欧美网址| 99资源在线| 99热国产这里只有精品无卡顿"| 91亚洲免费视频| 亚洲欧美在线综合一区二区三区 | 国产91麻豆免费观看| 爆操波多野结衣| www欧美在线观看| 日韩欧美国产综合| 美女无遮挡免费视频网站| 久久久久久久久亚洲精品| 精品欧美一区二区三区久久久| a级毛片视频免费观看| 波多野结衣第一页| 色婷婷成人| 91年精品国产福利线观看久久| 97se亚洲| 伊人久久福利中文字幕| 成人国产免费| 亚洲天堂首页| 尤物成AV人片在线观看| 无码人妻热线精品视频| AV无码无在线观看免费| jijzzizz老师出水喷水喷出| 国产精品免费电影| 亚洲精品国产成人7777| 国产成人h在线观看网站站| 亚洲高清在线天堂精品| 91色爱欧美精品www| 爆乳熟妇一区二区三区| 日本免费福利视频| 伊人无码视屏| 欧美亚洲国产日韩电影在线| 欧美人与性动交a欧美精品| 久久成人免费| 国产一级精品毛片基地| 69av免费视频| 99一级毛片| 高h视频在线| 久久国产精品影院| 波多野结衣亚洲一区| 欧美第二区| 三上悠亚一区二区| 91探花在线观看国产最新| 欧美不卡二区| 午夜国产精品视频黄| 91麻豆久久久| 亚洲视频影院| 四虎在线高清无码| 青草视频免费在线观看| 国产午夜无码专区喷水| 国产麻豆精品在线观看| 免费人成黄页在线观看国产| 国产日本视频91| 亚洲精品欧美重口| 五月婷婷丁香综合| 亚洲一区色| 3344在线观看无码| 国产视频入口| 国产成人综合久久精品尤物| 毛片免费网址| 伊人久热这里只有精品视频99| 国产美女无遮挡免费视频网站| 2020精品极品国产色在线观看| 亚洲国产中文欧美在线人成大黄瓜 | 欧美精品成人| 亚洲无限乱码| 欧美一区中文字幕| 色窝窝免费一区二区三区| 国产欧美日韩专区发布| 青青操视频免费观看| www.99在线观看| 国产日韩久久久久无码精品| 精品国产成人高清在线|