莊 艷 于志勇
[摘要]在論述數據倉庫、數據挖掘和決策支持系統技術和框架的基礎上,根據房地管理的實際需求,整合各類信息,建立了數據倉庫,運用數據挖掘工具從大量的、不完全的、有噪音的數據中發現有用信息,為領導決策提供輔助支持。
[關鍵詞]數據倉庫 數據挖掘
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0120070-01
目前,土地管理、商品房、二手房管理、廉租住房、經濟適用房、限價商品房配售已經納入系統管理,但在統計分析、決策支持、市場預測、保障資格確認等方面仍存在諸多不足,無法在土地供應、保障性住房比例、資金補貼等方面為領導決策提供宏觀數據支持。因此,建立一套基于數據挖掘房地管理決策支持系統勢在必行。
一、決策支持系統框架
決策支持系統是通過對數據的收集、管理、分析以及轉化,使數據成為可用的信息,從而獲得必要的洞察力和理解力,更好的輔助決策和指導行動[1]。一個充足、真實、時效性強的數據集合是實現決策支持的基礎,無論計算機應用技術和系統設計展現形式如何提升,數據永遠是信息化管理的核心和根本。所以房地管理決策支持系統的建立首先要求建立完整的信息化體系以長久獲得規范的數據集合,這包括數據結構、用戶權限管理、數字安全認證、數據交換等標準。將已有系統按照統一的標準管理體系進行改造后,整合到房地管理電子政務基礎平臺,新系統按照統一的標準管理體系在房地管理電子政務基礎平臺進行建設,基礎數據、管理數據、業務數據、成果數據集中匯總至數據中心統一管理,并以此作為數據挖掘的原始數據。根據研究的主題,通過科學的數據抽取、整理等方法重組數據,形成數據倉庫。數據倉庫就是一個面向主題的、集成的、相對穩定的、反映歷史變化的、用于支持管理決策的數據集合[2]。目前DB2、ORACLE等數據庫系統已經可以高效地實現數據的錄入、查詢、統計等功能,數據挖掘作為深層次的數據分析方法,通過統計方法與數據挖掘有機的結合可以人機交互的從海量數據中發現隱藏于其后的規律或數據間的關系,預測未來的發展趨勢,沙中淘金,解決“數據爆炸但知識貧乏”的現象,并建立圖文并茂、直觀形象的分析結果展示,發揮決策支持系統的最大效能。

二、數據挖掘過程
(一)確定業務對象。數據挖掘的最后結論是不可預測的,但要研究的主題必須是明確清晰。在房地管理中可用于輔助預測下一年住房需求量、供求比例;各年齡段人群對商品房、保障性住房的需求量和價格承受力;決策判斷某塊土地是應以招牌掛方式出讓還是以劃撥方式出讓;一個新開樓盤中商品房、限價房的比例等,隨著數據的積累和業務開展的深入,研究主題可以廣泛擴展。
(二)數據準備。數據挖掘工作大部分的工作量是在數據準備上,數據的分散、標準的不一致是系統實現技術解決難點。
1.數據的選擇。由于房地資源業務面廣、涉及數據量大且關聯性強,需要搜索所有與業務對象有關的內部和外部數據信息,作為數據挖掘的原始數據,根據研究的主題,從中選擇出適用的數據。從管理類別上,房地管理數據信息基本分為土地數據、房屋交易數據、住房保障數據、房地產項目數據、開發企業與中介資質備案數據、基礎數據六類,其中每一類又包含多個數據庫,比如基礎數據就包括土地利用現狀數據、土地利用規劃數據、土地開發整理數據、基本農田數據、農用地分等數據、城鎮地籍數據、基準地價數據、土地利用遙感監測數據、數字正射影像圖、三維空間數據等。
2.數據的預處理與轉換。房地管理涉及的部門較多,且各部門信息化發展進度不一致,導致業務系統和數據庫建設分散,數據具有多源性、多維性、類型多樣性、空間拓撲特征、層次性與關聯性、動態性和海量等特點[3],數據質量參差不齊。特別是在地形地貌、測繪等空間圖形數據方面異構情況嚴重,不僅數據有Mapengine、ARCGIS、MAPGIS、AUTOCAD多種格式,坐標表示也有本地坐標、北京54經緯度坐標、西安80直角坐標三種方式,1:500到1:5萬多種比例尺并存。這就必須對數據質量進行研究,按照統一的標準對數據進行噪聲清洗,保證數據的全面性、準確性、有效性,才能實現數據的無障礙應用,建立一個真正適合挖掘算法的分析模型。
(三)數據挖掘。選擇合適的算法,開展數據挖掘。數據挖掘的算法很多。要根據研究問題的不同選擇相應的算法,比如:預測下一年住房需求情況可以采用決策樹算法或時序算法,購房人員分類預測可以采用關聯算法和聚類算法,涉及到三維數據時會用到空間聚類算法。要強調的是,各種算法并非獨立應用的,經常是圍繞主題,通過多種算法的綜合協調應用才達到理想的效果。同時數據挖掘也是一門交叉學科,注重多種發現策略和技術的集成及多學科間的相互滲透。它的產生也不是為了替代傳統的統計分析技術,相反,它是統計分析方法學的延伸和擴展[4]。
(四)結果分析與知識同化。對主題分析結果進行展示,并切實輔助各級領導決策。將依托三維數字城市模型,以空間定位與平面圖表相結合的方式使結果展示更直觀、易懂,并以強調對象生命周期的方式,跟蹤每個對象的
變化軌跡。
三、數據挖掘需要的人員
不同專長的人員是數據挖掘實現的另一個必備條件,他們在數據挖掘分步實現過程中發揮巨大效能。這包括業務分析人員、數據分析人員、數據管理人員。隨著軟件工程的發展和應用廣泛,越來越多的人發現,系統的實現最大難點往往不在算法本身,而是即懂技術又懂業務人才太少,業務人員與編程人員總是溝通不暢。
四、結束語
本文將數據挖掘,這種新的商業信息處理技術引入了房地管理當中,圍繞解決城市低收入家庭住房困難和土地保護將我局長期分散的土地、房產、測繪、住房保障數據積聚到一起,解決了“數據爆炸但知識貧乏”的問題,在政府關注住房產業向關注民生住房轉變時,為領導決策提供有力支持。
參考文獻:
[1]劉維維,電信行業中基于數據倉庫和數據挖掘技術的決策支持系統,中國科技信息,2006(7).
[2]洪沙、向芳,數據挖掘與決策支持系統,科學咨詢,2008(7).
[3]文斌、張文廣、張學峰、陳輝,國土資源數據分析及其整合與集成,國土資源信息化,2008(5).
[4]http://www.stcsm.gov.cn,上海科技.
作者簡介:
莊艷,女,山東青島人,中國海洋大學在讀研究生,青島市房地產交易中心、青島市房地產信息技術中心工程師,主要研究方向:計算機技術。