潘巍 晉松


摘? ?要:文章對房地產估價方法進行分析,研究房地產價格時變性的估價系統,并提出一種新型的房地產動態估價系統的設計方案,在方案中將分布式爬蟲技術和基于回歸的增量學習方法相結合,為構建房地產動態估價系統奠定了良好的基礎。
關鍵詞:房地產估價;動態估價;分布式爬蟲;增量學習
1? ? 房地產估價方法的研究現狀
房地產估價方法的研究起源于歐美國家,并應用到銀行和信托等金融機構的抵押貸款和房屋貸款中,但在中國起步較晚,因近年來房產交易的火爆使得房地產估價成為必要的金融行業避險手段。近年來,在黨中央國務院為防止房產過熱和保持健康合理的房地產市場秩序,下發了一系列的個人房屋貸款政策。得到合理的房產價格,將對金融機構的運營的風險產生巨大的影響并產生極其深遠的意義。現有的機器學習方法,如模糊修正方法、神經網絡、SVM等都沒有考慮到房地產數據的時變性,無法對房地產數據進行動態估價。
2? ? 房地產動態估價系統的數據需求
房地產動態估價系統是為銀行房地產評估師研制的一款對房地產價格預測分析的系統,使其在對房地產進行估價時得到有效的參考。房產抵押貸款中的房產價格隨時間和市場供求關系的動態變化而變化,從而房地產動態估價系統使銀行評估師評估出的房產價格更符合當前市場的價格。
2.1? 系統數據構成
數據采集是本項目的重要組成部分,其為系統提供外部數據的接口,是信息系統與外部世界的橋梁。數據采集將外部相關的房產數據采集到數據采集服務器上,然后在采集服務器中實現數據存儲、數據整合和數據備份功能,最終將整合后的數據寫人數據庫服務器,以備房地產估價算法所用。
2.2? 系統數據來源
對于房產數據的來源,本系統中數據采集系統主要通過人工采集、購買和Web數據3種方式進行數據采集。人工采集的數據是通過工作人員到實際的房產地去調研而得到的房產數據。購買數據是指從房地產經紀公司購買的交易數據。Web數據主要是指存在于Internet上的房產交易信息數據,如安居網、58同城網上提供的房產交易數據。
3? ? 房地產動態估價系統的設計
3.1? 房地產動態估價系統的業務數據流程設計
根據系統數據需求,我們可以得到系統的業務數據流圖。本系統的工作流程:首先管理員通過配置分布式網絡爬蟲系統分配任務,每個爬蟲節點收到任務后連接Internet上的URL地址進行HTML數據的采集,采集完成后將爬取的HTML數據進行網頁分析處理(正則表達式來匹配HTML數據),得到整理提煉后的信息,將這些信息存儲到指定格式的TXT文件中,然后將TXT文件傳輸到數據采集服務器中;其次通過數據暫存服務器中的TXT數據進行入庫操作,并且也可以對人工數據進行數據導入到數據庫,將其裝入到系統的數據庫中;之后將系統的數據庫的數據進行數據清理和數據集成處理并建立數據倉庫的數據集市,最后通過房地產估價系統中的算法來得到最終的結果,并展現給最終用戶。
3.2? 房地產動態估價系統的功能模塊設計
房地產動態估價系統的功能模塊(見圖1)。本系統分為數據采集子系統和房地產估價子系統。數據采集子系統是采用分布式網絡爬蟲來實現采集HTML格式的房產數據,人工數據導入是系統自動將購買和調研得到的房產數據導入到數據庫中,而采集數據導入是將采集來的Web數據寫入到數據庫中。
在房產估價子系統中主要包括數據查詢、數據清洗、數據變換、數據去噪和價格預測等核心模塊。數據查詢模塊是用戶給出查詢的條件,在數據集市中選取出符合詢的條件的記錄,在其上進行房地產價格回歸預測得到最終的房地產價格的結果。數據清洗是對數據進行去除二義性的操作。數據去噪模塊采用DBCAN聚類算法對數據進行去噪處理[1]。數據變換模塊首先將不同格式的數據屬性值變換成統一的呈現格式,在此基礎上對數據進行規范化處理。價格預測是負責隨市場供求關系和時間變化的房地產數據回歸預測算法的核心模塊,它實現房地產估價的時變,本系統采用了LS-SVM的增量學習方法[2-3]。
數據采集子系統可劃分為兩個部分:爬行節點模塊和控制節點模塊,如圖2所示。其中設備管理模塊、任務分配模塊、節點通信模塊實現了分布式網絡爬蟲中控制爬蟲節點的運行和任務下發。爬蟲節點模塊由接受任務模塊、HTML頁面數據采集模塊和數據上傳模塊組成,是爬蟲節點的核心部分,它直接與控制節點進行通信。任務分配模塊是指,在本項目的分布式網絡爬蟲系統工作時,由于是所有節點協同工作,因此很容易訪問到重復的URL頁面,同時將龐大的爬行任務分配給爬蟲系統,需要保證每個節點的負載平衡。首先任務分配模塊將采集任務寫入數據庫中的站點任務表,然后節點通信模塊由采集站點任務表中的信息來下發任務給爬蟲節點,之后爬蟲節點接到任務后進行HTML頁面采集,最后爬蟲節點將采集到的房產數據通過數據上傳模塊將數據FTP到數據庫服務器。
控制節點在爬行系統中不參與爬行過程,它主要負責整個系統管理工作,該節點對爬行節點信息維護主要是通過設備管理模塊來完成的。它可動態地調整爬行節點的數量,使得系統具有良好的可擴展性。
[參考文獻]
[1]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008(1):48-61.
[2]夏文靜,陳耿,范麗亞.八種最小二乘SVM型學習算法的優勢比較[J].聊城大學學報(自然科學版),2016(2):33-41.
[3]張浩然,汪曉東.回歸最小二乘支持向量機的增量和在線式學習算法[J].計算機學報,2006(3):400-406.