999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

影響區域房價的客觀因素挖掘分析

2019-11-12 05:01:52張智鵬鄭大慶
計算機應用與軟件 2019年11期
關鍵詞:區域情境影響

張智鵬 鄭大慶,2

1(復旦大學計算機科學技術學院 上海 200433)2(上海財經大學信息管理與工程學院 上海 200433)

0 引 言

房價一直被國人廣泛關注,因為這個問題是個廣受關注,而又一直沒有得到良好解決的社會問題。而關于房價預測也成為了全世界各個國家政府、市場與人民關注的熱點話題。在完全市場環境下,房價由需求和供給共同決定,但是由于在當前的社會,房屋既具有居住效用,又兼具投資效用[1],使房價問題的研究非常復雜,預測長期房價成為一個不可能完成的任務。

基于這樣的現狀,本文把影響房價的因素分為兩個方面:首先是政府的宏觀政策層面的影響因素,包括貨幣政策、稅收政策和土地供應等對房價的影響;其次是基于特征的房價預測(Hedonic pricing)[2]。房屋特征包括兩個方面:中觀層面的區位因素對房價的影響,包括地理位置的優越性和周邊的公共設施的便利程度等;房屋本身的因素對房價的影響,例如樓層、采光、朝向等。宏觀政策具有不可預見性的特點,屬于典型的外部沖擊,其對房價的影響非常復雜,所以研究房屋特征對房價的影響成為越來越重要的趨勢[3]。而房屋本身的個體異質性對房價影響的現實意義有限。在房價預測中,最有借鑒意義、比較可行的問題歸結為區位因素對房價的影響,即區域房價的預測。

本研究的目的是尋找區域平均房價與城市中社會情境要素之間的關聯性。在具體的案例研究中,我們以北京市居民居住住房作為研究對象,應用梯度提升決策樹(Gradient Boosting Decision Tree)模型來挖掘其特征空間中的非線性關系,并且達到92%的擬合程度,優于常見的基準算法。此外,通過特征排序,我們也找到一些影響區域房價的重要因素,包括住戶區包含的住宅數量,住戶區周邊的出租車流量、公共設施、學校、購物服務、地鐵線路、生活服務等。這讓房價研究從數據挖掘的角度找到合理的依據,避免單純從直覺判斷。

本文主要貢獻點如下:

(1) 本研究將多源、異構的城市基礎數據進行融合,采用機器學習的方法,尋找影響區域房價的客觀因素。這種研究思路利用了把分散的數據進行融合、提高預測效果的大數據思維方式。

(2) 利用基于學習模型的特征排序,通過GBDT模型選擇影響房價變化的客觀因素中重要的因素,進而探究對某區域房價影響最大的相應屬性。

(3) 工程化實驗過程,設計房價預測界面,模擬實驗思路進行人機交互,持續獲取房價與客觀屬性的信息。

1 相關工作

區域房價的研究屬于城市計算的范疇,近些年有越來越多的研究開始關注城市計算,不少學者也通過城市大數據找到了城市中很多潛藏的規律,并以此幫助城市建設者們進行決策。例如,可以通過機器學習來解決區域功能識別[4]和共享單車的放置[5]問題,通過探究POI數據和地理信息數據預測人的流動性[4,6]等。種種研究都表明城市大數據之間存在著廣泛的相關性,而這些相關性為城市的持續智能化提供了信息線索。

房價方面的研究方興未艾,少數從計算機技術出發的房價研究工作切入點都不盡相同。文獻[7]通過網絡查詢數據對房價規律做研究,認為網絡搜索的數據可以反映搜索者的關注,因此去尋求住房價格指數與網絡搜索數據之間的相關性,對不同經濟層次的兩個區域(北京和蘭州)進行比較分析。文獻[8]則利用非參數隱流形模型探究房價構成,利用洛杉磯的一個房屋信息數據集,分成兩個訓練組。第一個是一個參數化模型,預測影響房價的“內在”因素。第二個是一個非參數模型。房屋的預測價格是其內在價格和期望值的乘積。對這兩個訓練組進行訓練,同時使用EM算法估計參數。最終,他們認為房價取決于不可測量的一些因素,如房子的特點、對鄰里的可取性等。文獻[9]通過對不同房型房價產生影響的因素做分析,對6組影響變量做回歸分析,最后認為人均收入的影響最明顯。文獻[10]則通過神經網絡做房價預測,他們采用兩種算法來預測新加坡的房地產市場,即人工神經網絡(ANN)模型與自回歸移動平均(ARIMA)模型,通過兩者比較發現更優的模型是神經網絡模型,并用此模型預測未來的公寓價格指數(CPI)。文獻[11]使用經典時間序列分析方法預測上海房價指數。文獻[12]采用兩種建模方法,多層次模型和人工神經網絡來模擬房價。并將這些方法和標準Hedonic價格模型在預測準確性、捕獲位置信息的能力以及解釋力方面進行了比較。文獻[13]使用延遲神經網絡模型來預測新加坡的公共住房價格,具體用來估計新加坡房屋發展局(HDB)的房屋轉售價格指數(RPI)的趨勢,最終他們找到九個獨立的經濟和人口變量。結果表明,延遲神經網絡模型能夠產生良好的擬合預測。文獻[14]則開發了一種基于多任務學習的回歸方法來預測房地產DOM指數,他們選擇從異構的房地產相關數據中全面考察多個因素,這給予了我們全面考察與房價相關數據的思路。文獻[15]開發了一套在線住房選址可視分析系統ReACH,將價格、面積、臥室數量等要素包括在內的同時,也重點考慮了在地理決策中占據重要地位的地標位置可達性(Reachability),他們關于人機交互系統的開發也給予了我們設計人機交互界面的思路。以上方案都針對房價的不同層面進行研究,所采用的數據挖掘算法也不盡相同,基本上都是規律挖掘,對實際情況的檢驗方面都沒有很詳細的闡述。

與以上研究相比,本文將重點聚焦在短時間段的區域房價上。首先,為了避免不同房屋特性對于房價的影響,本文關注小區的平均住宅價格的變化,以及其價值背后的原因;另外,短時間指的是某一天內,在這個時間段上任何主觀因素對于房價的影響都不會持續很久,真正對區域平均房價產生影響的更多來自于住戶區周邊的客觀因素。通過對這些客觀因素的挖掘,對住戶區平均房價進行精準畫像。這樣選擇的實際意義就在于能夠從社會情境的角度,幫助區域房屋定價找到一個客觀標準。

具體上,我們以廣受關注的北京市居民居住住房作為研究對象,利用其作為國際化大城市而擁有的豐富社會情境要素和充足的住房數據,可被用于訓練和驗證。實驗表明其擬合程度達到0.92上下。同時也發現住戶區包含的住宅數量,住戶區周邊的出租車人流數量、公共設施、學校、購物服務、地鐵線路、生活服務等是對住戶區房價有明顯影響的因素。此外,在完成關聯關系挖掘之后,本文也將實驗過程工程化,設計和開發了住戶區房價的人機交互,力求實驗結果能在現實生活中得到有效利用。

2 方法設計

2.1 問題描述

本文方法的總流程框架如圖1所示。

圖1 流程框架

(1) 針對具體位置,統計其所處環境的社會情境,具體的社會情境要素是指當地住房數目、游客數量、城市基礎設施、以及在一定半徑內的地鐵線路的數量等。將這些異構數據進行數據清洗和預處理,得到其社會情境要素。

(2) 尋找社會情境和具體房價之間的相關性,建立一個預測模型。同時,找出影響預測的變量,即影響房價變化的客觀因素。

(3) 系統實現實驗規律,設計人機交互界面,用戶通過訪問界面來得到某區域內的房價預測,以及支撐這樣價格的客觀背景因素。

2.2 社會情境

本文的目標是挖掘社會情境和房價之間的關系,因此選取居民住戶區在半徑為1公里的圓形區域作為目標地點,統計其區域住宅價格、戶數、出租車上下車數量、POI等,在范圍為2公里的區域內統計其所包含的地鐵線路。1公里的范圍基本可認定為步行可達區域,而2公里范圍的地鐵路線可為該區域提供軌道交通服務。根據這些因素與房價之間的關系,揭示每個變量對房價變化的影響。圖1展示了區域平均房價預測與分析的流程圖,其中基于GBDT的特征排序旨在找到影響房價的變量,從而在客觀因素上提供房價變化的原因。主要社會情境要素的詳細定義如下:

(1) 人群流量 利用出租車GPS軌跡,我們可以找到反映人群流動的起始-目的地(OD)流,這對于房價預測是很重要的,因為訪問者的數量可以體現一個住戶區的熱鬧程度。在這里,讓OCVi和DCVi代表進入住戶區i和離開住戶區i的人群流動數目,作為兩個變量。

(2) 住宅數量 住戶區包含的戶數體現了該住戶區的疏密程度,同時也反映了周邊地區的人口。通常一個區域所包含的住戶數,與小區的規劃、規模、定位、檔次都有關系。因此,我們統計了住戶區i的住宅數量HNi。

(3) 區域功能 眾所周知,一個區域所包含的各類基礎設施體現了該區域的功能屬性,而一些重要的功能屬性會影響該區域內的房價變化。例如,包含學校的區域就會形成“學區房”,即使周邊基礎設施一致,通常情況下“學區房”的價格也會高一些。在這里,我們利用“BoW”模型來表征每個地區的城市功能,在1公里的范圍內計算不同類別的POI的分布。對于住戶區i,將其范圍內的POI表示成矢量形式:

(1)

表1 POI的21個種類

續表1

(4) 地鐵線路 地鐵線路對于房價的影響在大城市中越來越重要,因為地鐵的準時和無延遲性,使得地鐵已經成為大多數上班族上下班出行的方式,考慮到每個地鐵站根據不同地鐵連線而產生的多條出行路線,因此有:

ROUi=METN·METi

(2)

式中:ROUi代表區域i可通行路線;METN代表區域內地鐵站數;METi代表某地鐵站路線數。這樣既包括了影響人們出行的地鐵站的個數,也將其出行選擇可能性包含在內。

2.3 數據處理

? 去除噪音數據 噪音數據有以下兩個特征:(1) 數據本身沒有意義或意義模糊;(2) 噪音數據離差(樣本值與樣本空間均值的差的絕對值)過大。噪音數據對實驗造成很大的誤差,因此,設定判決門限去除無意義或意義模糊的噪音數據。

首先,針對現實意義中為錯誤的數據進行過濾,如區域平均房屋價格小于1 000、各屬性數據為負等。對數據進行遍歷,剔除錯誤樣本。

另外,針對離差過大的數據,利用隨機采樣一致性的方法進行過濾[16]。利用隨機抽取數據建立一個帶參數的模型,不斷迭代其余數據在此模型上的誤差,并最小化誤差,將誤差大的樣本點進行剔除。

? 數據標準化 多模態數據所處的參考系不同,數據的屬性取值范圍也是千差萬別。若要實現多模態的數據綜合分析,則要將異構數據放到同樣的參考系中,對數據進行標準化。本實驗采用線性標準化手段處理數據,如下:

(3)

式中:n是樣本個數。

2.4 關聯挖掘

本文統計了北京大部分小區的平均房價,鑒于單獨房屋的價格對于社會情境要素的關聯性比較小,因為其更多的會受到房屋本身的影響,比如樓層、格局等等。而整個小區的平均價格能夠降低房屋本身因素的影響,因此本文用HPi代表住戶區i的平均房價。

根據以上社會情境因素統計(具體見表2),本文將住戶區i的社會情境要素整理成以下矢量:

SCi=[OCVi,DCVi,HNi,Fi,ROUi]

社會情境要素SCi與房價HPi的關聯關系如下,其中p代表住戶區的數量。

表2 輸入與輸出

3 實 驗

3.1 實驗模型

實驗通過異構數據的整合,對房價進行模型訓練,并用交叉驗證的方法進行評估,這里我們利用梯度提升決策樹GBDT。梯度提升決策樹是Gradient Boost框架下使用較多的一種模型,在梯度提升決策樹中,其基本學習器是分類回歸樹CART。GBDT采用加法模型(即基函數的線性組合),以及不斷減小訓練過程產生的殘差來達到將數據的回歸,比較適合本實驗這種多維數據的處理。具體算法如下:

算法1GBDT

輸入:訓練集樣本D={(x1,y1), (x2,y2), …,(xm,ym)},最大迭代次數T,損失函數L

輸出:強學習器f(x)

1) 初始化弱學習器:

(4)

2) 對迭代輪數t=1,2,…,T:

(1) 對樣本i=1,2,…,m,計算負梯度;

(2) 利用(xi,Tti)(i=1,2,…,m),擬合一棵CART回歸樹,得到第t棵回歸樹,其對應的葉子結點區域為Rtj,j=1,2,…,J。其中J為回歸樹t的葉子結點的個數;

(3) 對葉子區域j=1,2,…,J,計算最佳擬合值:

(5)

(4) 更新強學習器:

(6)

(3) 得到強學習器f(x):

(7)

3.2 性能評價指標

本實驗為房價模型的回歸分析,對于回歸模型的效果選擇相關系數R2作為實驗的評價指標,R2可以度量樣本是否能夠通過模型被很好地擬合。R2越大表示被解釋變量中的信息由解釋變量解釋的比例就越大,反之相反。具體指標如下:

(8)

同時,通過1-MAPE來表征準確率,用來衡量模型預測結果的好壞,具體如下:

(9)

3.3 數 據

本實驗的數據包括北京POI數據(來自http://map.baidu.com/)、北京住房信息數據(來自http://www1.fang.com/)、2014年6月份出租車軌跡數據(考慮個別月份因節假日會出現實際場景下的異常情況,以6月為例可以最大程度地避免異常數據對準確率的影響)、北京地鐵站線數據,具體內容如表3所示。

表3 數據情況

3.4 實例研究

本實驗選擇北京市居民住房作為研究對象,原因在于像北京這種大城市的住房價格一直是社會關注的重點,并且作為國際化大城市其擁有足夠的社會情境要素,能夠更方便地挖掘出社會情境要素對于房價的影響,同時北京市的房屋數量巨大,可用于訓練和驗證的數據比較豐富,更適合作為實驗對象。

實驗設置了五迭驗證(5-fold CV)。具體為將數據分成五份,其中四份作為訓練數據,一份作為驗證;以10作為步長在[0,1 000]的范圍內進行網格搜索,選擇最好的迭代次數;并以均方差作為損失函數對GBDT模型進行訓練,實驗結果的擬合程度R2達到92%。

基于學習模型的特征排序,可以在訓練的模型中找到影響因變量變化的重要特征,特征和響應變量之間的關系是非線性的,因此我們利用基于樹的方法進行特征排序。根據GBDT的特征排序,我們提取了影響房價變化的最重要的七種因素,分別為:住宅數量,出租車下車數量、公共設施、學校、購物服務、地鐵線路、生活服務。

根據實驗結果,我們可以得知區域的平均房價確實會受到其周邊社會情境要素的影響,并且關聯程度很高。當然,能夠實現關聯關系相對應的前提是房價不會受到較大沖擊,譬如政策性調整或者經濟形勢變化等。本文用GBDT模型進行訓練取得較好的效果也表明對于這種復雜規模的數據,集合弱分類器來縮小誤差是有成效的。另一方面,通過GBDT模型的特征排序,我們也可以得知對于區域房價起重要影響的因素是哪些,這樣從客觀的角度給房價的估值提供了新的理由;而在事實層面上,以上挖掘出來的社會情境要素也具有可解釋性。

3.5 與基準算法的比較

根據數據維度高,信息量大的情況,本實驗選擇了四種能夠良好應對多維回歸擬合的機器學習算法,具體為支持向量回歸(SVR)、多元線性回歸、AdaBoost回歸、貝葉斯嶺回歸,具體指標如圖2、圖3所示。

圖2 準確率

圖3 相關系數R2

(1) 準確率方面 在準確率上幾種經典的回歸模型都有較好的表現,其中多元線性回歸、AdaBoost回歸、貝葉斯嶺回歸的準確率都達到80%以上,而支持向量回歸的表現差強人意,這里GBDT的效果最為優秀,達到94.6%的準確率。

(2) 相關性方面 相關系數代表模型在擬合數據時的相關程度,也是判斷模型訓練效果的重要指標。實驗結果表明多元線性回歸與貝葉斯嶺回歸的相關系數維持在60%~70%之間,而AdaBoost回歸的相關系數在75%左右。支持向量回歸的表現仍然不好,其變量的擬合效果不佳。而GBDT的相關系數達到92%,證明其模型的擬合程度較強,模型的泛化能力突出。

根據對比分析,我們發現無論是通過最小二乘法最小化誤差平方和尋找最佳函數的多元線性回歸,或是帶二范式懲罰參數的貝葉斯嶺回歸,結果都不太理想。而同樣作為boosting方法(通過給樣本設置不同的權值,每輪迭代調整權值機型訓練),GBDT與AdaBoost表現也有差異,具體來說Adaboost通過增加被錯誤分類的樣本的權值,分類器依賴于錯誤率;GBDT也是迭代,但其使用了前向分布算法,并且弱學習器限定了只能使用CART回歸樹模型,在迭代思路GBDT也和Adaboost有所不同,這都對結果產生影響。

4 系統實現

4.1 實驗工程化

對于區域平均房價這種與人民生活息息相關的話題,需要我們在實踐中進行探索和檢驗。之前的很多對于房價的研究都基于過去的知識、經驗、背景挖掘規律,真正體現在當下的反饋凸顯不足。而目前很多研究都開始加入人機交互的工作,有的是實現數據的調研,有的是利用大家的計算能力統籌處理一個任務。例如文獻[17]提出利用人機交互實現對腰痛的研究。為了利用實驗的結果給現實中用戶提供服務,本文設計了一個人機交互界面,用戶通過界面使用模型,得到他們關注的房產周圍的有價值信息,在實際情況中使用本實驗所挖掘的規律,進行真實場景的預測。

4.2 人機交互

具體人機交互的實現方式如下:用戶在經緯度輸入框輸入其需要預測或分析房價的地點坐標,或者在地圖上通過單擊鼠標選擇其預測位置經緯度,如圖4所示。系統會根據用戶選擇的地區,將經緯度發送給后臺預測模型。通過已經訓練好的模型,計算該區域存在的客觀社會情境要素,并返回經緯度對應點所屬相關區域內的預測房價,同時將一些當地重要信息反饋給用戶,實現區域平均房價的預測和重點信息的采集工作。

圖4 人機交互界面

5 結 語

本文探討了區域平均房價與周圍社會情境之間的關系,統計了二十余種與房價相關的社會情境要素,利用機器學習中的GBDT進行預測,最終模型的擬合程度達到92%左右。這說明了一個區域的平均房價確實受到該區域的社會情境信息的影響,這種復雜的影響關系可以為房屋建設、投資、買賣的人提供參考。并且本文也基于學習模型的特征排序,通過GBDT模型選擇影響房價變化的客觀因素中重要的因素,我們發現了像北京這種國際化的大都市,其區域房價對住戶區包含的住宅數量,住戶區周邊的出租車人流數量,公共設施、學校、購物服務、地鐵線路、生活服務等因素比較敏感,這些因素也是影響北京區域房價的一些關鍵因素。

在本研究中,我們探索了北京房價的變化原因,但在不同城市、相同城市的不同歷史階段,沒有通用的模型能處理所有房價變化的情況。本文所用的GBDT算法在數據集上準確率高,但對于不同類型的城市,社會情境中的每個變量如何影響著區域房價的變化可能遵循不同的規律。因此,有必要為每個特定的城市類型訓練對應的預測模型。本研究是把非結構化數據應用到區域房價研究的一次嘗試,未來會融合更多方面的數據、提出更加通用的算法完成進一步研究。

猜你喜歡
區域情境影響
情境引領追問促深
不同情境中的水
是什么影響了滑動摩擦力的大小
哪些顧慮影響擔當?
當代陜西(2021年2期)2021-03-29 07:41:24
護患情境會話
特定情境,感人至深
擴鏈劑聯用對PETG擴鏈反應與流變性能的影響
中國塑料(2016年3期)2016-06-15 20:30:00
關于四色猜想
分區域
基于嚴重區域的多PCC點暫降頻次估計
電測與儀表(2015年5期)2015-04-09 11:30:52
主站蜘蛛池模板: 久久黄色毛片| 美女国内精品自产拍在线播放| 亚洲第一国产综合| 毛片手机在线看| 深夜福利视频一区二区| 亚洲热线99精品视频| yjizz国产在线视频网| 54pao国产成人免费视频| 天天干伊人| 久久美女精品| 欧美日本激情| aaa国产一级毛片| 国产好痛疼轻点好爽的视频| 四虎永久免费在线| 精品国产免费第一区二区三区日韩| 国产亚洲视频中文字幕视频| 天堂亚洲网| 亚洲人成亚洲精品| 欧美国产在线一区| 久久婷婷六月| 亚洲欧美成人影院| 欧美精品色视频| 亚洲国产AV无码综合原创| 久久 午夜福利 张柏芝| 99精品视频播放| 亚洲九九视频| 亚洲欧美人成电影在线观看| 国产高清在线观看| 亚洲国产午夜精华无码福利| 无码一区中文字幕| 国产最新无码专区在线| 欧美激情福利| 欧美啪啪一区| 久久久国产精品免费视频| 亚洲欧美在线精品一区二区| 亚洲人成网18禁| 国产资源免费观看| 国产丰满大乳无码免费播放| 日本三级黄在线观看| 亚洲人成网址| 波多野结衣中文字幕久久| а∨天堂一区中文字幕| 在线观看av永久| 美女亚洲一区| 在线精品亚洲一区二区古装| 国产女人18毛片水真多1| 日韩国产一区二区三区无码| 看国产一级毛片| 国产后式a一视频| 国产第四页| 久久国产精品77777| 71pao成人国产永久免费视频| 亚洲色图欧美| 免费一级α片在线观看| 精品国产一区二区三区在线观看| 亚欧美国产综合| 尤物成AV人片在线观看| 日韩精品中文字幕一区三区| 久久中文字幕不卡一二区| 第九色区aⅴ天堂久久香| 日韩人妻少妇一区二区| 高清色本在线www| 乱人伦中文视频在线观看免费| 99精品高清在线播放| 一本大道香蕉中文日本不卡高清二区 | 久久精品国产国语对白| 免费精品一区二区h| 午夜啪啪网| 亚洲人精品亚洲人成在线| 伊人色综合久久天天| 美女无遮挡免费视频网站| 美女黄网十八禁免费看| 亚洲视频四区| 亚洲AV无码乱码在线观看代蜜桃| 久久99国产乱子伦精品免| 欧美精品v日韩精品v国产精品| 欧美另类精品一区二区三区| 在线毛片网站| 亚洲男人在线天堂| 亚洲国产综合自在线另类| 欧美人人干| 九九热免费在线视频|