楊慧慧 梁艷
摘要:基于社會海量的數據分析的需求、人工智能與機器學習、統計學等理論的應用等數據挖掘誕生發展的理論挑戰,數據挖掘技術應用而生。該文結合數據挖掘的相關理論知識,通過數據挖掘在實際中的應用,分析探討了數據挖掘中存在的問題及研究方向。本文基于Clementine的數據挖掘技術對住房意向影響因素進行分析,主要利用Modeler的基本分析對住房狀況調查應用分析研究,從而對房地產行業進行數據挖掘提供一定的借鑒和指導意義。
關鍵詞: 住房狀況;數據挖掘;Clementine;Modeler的基本分析
引言
數據挖掘是一個新興的研究方向,它融合了多種學科進行研究探索。它的基本目標就是海量無序的數據中提取出不可見的卻有用的知識和信息。目前從數據挖掘研究和開發應用表明:數據挖掘的需要涉及到多種不同的應用任務,從數據的預處理到相關性分組或關聯規則、聚類分析、數據分類、偏差檢查、序列模式、描述和可視化等等特定的模式。因此, 這一技術應用是一個極富挑戰性的任務。數據挖掘技術在實際的研究過程中綜合了金融、醫療、保健、零售、和政務等各個領域,取得了良好的社會經濟效益,以此可以看出數據挖掘技術在現實中有著較為廣泛的應用和開發前景。
1、數據挖掘技術及應用
1.1 數據挖掘技術
數據挖掘技術面對的主要對象為龐大的數據庫,以此便能夠進行有效的信息搜索和查詢。一般而言,一般情況下,大數據挖掘系統包括七個方面的內容:用戶圖形界面接口、模式評估、數據挖掘引擎、數據庫或數據倉庫服務器、數據基地、數據倉庫以及知識儲備庫。
1.2 數據挖掘技術的應用
數據挖掘技術不僅包括對特定數據庫的簡單檢索查詢,還包括對數據的不同層面、不同角度的統計、分析、推理和綜合,以此得到問題的求解,以及發現事件之間的聯系。國外, 在大型商業、信貸公司、貨代公司等得到廣泛的應用。國內,對于傳統的生產行業,特別是食品、飲料等快銷品行業,在生產中搜集有利于指導企業生產的數據,對提高企業的產品質量以及市場競爭力將會有很大的作用。
數據挖掘技術給我們的生活帶來諸多的方便,能夠提高生活的質量改善生活效率。在商場管理中利用數據挖掘技術,通過尋求不同商品之間在銷售過程中的內在聯系,可以增加商場的銷售額;在銀行系統中通過數據挖掘技術對潛在的違約客戶進行預測和判斷,可以減少銀行在貸款過程中的風險。綜上,數據挖掘技術在實際生活中的應用越來越廣泛。
2、Modeler的基本分析及其應用案例
2.1 Modeler的基本分析
Modeler的基本分析包括:
(1)數值型變量的基本分析
(2)兩分類型變量相關性的研究
(3)兩個總體的均值比較
(4)RFM分析
2.2 以住房狀況調查為例,對數據進行Modeler的基本分析
住房狀況數據來源于:國家統計局
利用住房狀況調查數據,對其進行Modeler的基本分析前兩項進行具體操作及分析。
2.3 計算統計量并分析變量之間的相關性
(1)計算家庭收入、購房價位、計劃面積以及年齡的計數、平均值、最小值等統計量。年齡、家庭收入、計劃面積以及購房價位兩兩變量之間的相關性。
(2)繪制散點圖
通過圖1知,計劃購房面積集中在100平方米左右,購房類型以多層商品房和高層商品房為主。
(3)文化程度與房屋產權相關性的數值分析
1代表:無產權;2代表:部分產權;31代表:二手房代表:32代表:經濟適用房; 33代表:多層商品房; 34代表:高層商品房; 35代表:別墅;36代表:其它;
調查人群里以多層商品房產權最多,高中和大學學歷水平的人群擁有房屋產權的人數最多。
3、綜合評價
通過收集住房狀況的數據,用Modeler的基本分析方法對住房影響因素進行分析。對數值型變量和分類型變量分別采用統計量分析、散點圖分析和條形圖及網狀圖、矩陣形式的分析。通過分析研究發現:住房狀況受到家庭收入、文化程度、戶口狀況、年齡等相關變量的影響,其中家庭收入是最直接、最主要的影響因素。
4、結語
本文基于數據挖掘理論及應用的基礎,對影響房地產購買意向進行影響因子分析、相關性分析。發現家庭收入是決定購房狀況的最直接、最主要的因素。通過對結果量化分析,以此來為相關行業提供參考。
參考文獻:
[1] 周黎明, 邱均平. 基于網絡的內容分析法[J].情報學報,2005(5):594-599.
[2] 紀希禹.數據挖掘技術應用實例[M].北京:機械工業出版社,2008.
[3] 葉云,萬明明.網絡信息挖掘技術探討[J].廣西大學學報,2007(S1).
作者簡介:楊慧慧,1992年8月,女,漢,河南商丘,研究方向:現代物流系統規劃及建模仿真。