低保數據中數據挖掘模型的建立

2016-05-14 03:37:08趙新華張克柱

亞太教育 2016年8期

趙新華　張克柱

摘要：通過將數據挖掘技術應用于低保數據的統計，一方面可以將先進的計算機技術應用到低保統計工作中，提高了工作效率，更重要的是通過分析每年產生的大量數據，可以獲取隱藏在其中的規律，對數據的構成和變化有一個綜合而深層次的挖掘，找到貧困群體成為低保戶的主要特征，對低保資金占有比例較大的群體給予更多的關注和幫扶。

關鍵詞：數據挖掘；模型；數據

一、低保數據預處理過程

（一）樣本數據的特點。本文對張掖市2015年低保數據進行采集，通過研究這部分樣本數據，最終能總結出數據挖掘技術在農村低保數據統計應用中的一些結論。

根據分析低保數據具有以下的特點：（1）數據量大、覆蓋面較廣。最低生活保障體系是一個規模很大的體系，數據量極大，而且數據又分布在全國不同的地區，對低保數據進行挖掘和和管理是非常有意義的；（2）具有一定的動態性和時間性。隨著時間的變化，低保數據在不斷增加和刪除，需要對數據進行更新。

（二）數據采集。面對龐大的低保人群，數據采集的工作量是很大的，采集的數據要典型、內容盡量完整充實，這樣最終的數據挖掘結果才會更有效和準確，數據采集過程中需要關注的一些問題如下：數據收集要以地區為單位，找出不同地區間低保人員在生活狀況、年齡分布、性別、文化程度、家庭結構、身體健康狀況等方面不同于其他群體的差異和特征，對重點困難地區加以幫扶和支持。

（三）數據清理。在采集數據和輸入數據的過程中，不可避免的會出現數據錯誤、重復數據和數據不一致的問題，這些數據在數據挖掘中都是不符合要求的，數據清理的主要任務是填充缺失的值，光滑噪聲并識別離群點，并糾正數據中的不一致。為了使本次挖掘結果達到預期目的，進行如下的清理：（1）如果數據中有大量缺失的屬性，將缺失的屬性值用同一個常數替換。如“Unknown”。先用一個替換值將空值進行約束替換。處理后的數據對后期挖掘工作沒有價值會選擇刪除。（2）對某些比較重要的屬性，利用該屬性的最可能的值填充缺失值。

有些屬性的值在數據采集和數據輸入的過程中空缺，但是缺失的這些值可以通過分析屬性的歷史數據來填補。在歷史數據中，分析屬性的哪個值在整個數值的比例是最高的，也就是這個值分布的密度是最高的，說明這個屬性值出現的可能性是非常大的，就用這個值來填充空缺的值。

（四）數據轉化。原始表中沒有年齡字段，通過戶主信息表和家庭成員信息表中的身份證號計算年齡字段，采用下面的SQL語句來實現：Select身份證號，datepart（yy，getdate（））-substring（身份證號，7，4）as年齡from低保數據對于低保人員信息的年齡字段，因為信息量巨大，為了有目的的進行數據挖掘，將年齡的取值離散化，進行有效的分類，將年齡取值劃分為三個區間，每個區間為一個屬性值，將年齡25-35的劃分為“青年”，將36—59劃分為中年，60以上為老年。

（五）數據規約。原始數據一般是非常大的，在海量的數據上進行數據挖掘和分析將需要很長的時間，數據規約是從數據集中挑選或過濾出具有代表性的數據，縮減挖掘的時間和成本，使數據挖掘的目標能縮小一些。規約之后，數據表示小得多，但最終數據挖掘的結果仍然接近地保持原數據的完整性。數據規約的策略有下面幾種：

1.數據立方體聚集：對數據立方體中的數據尋找感興趣的維度進行再聚集。

2.維歸約：檢測并刪除沒有關連、關連性弱或冗余的屬性（維）。

3.數據壓縮：使用編碼機制把樣本數據轉換成另一種較小的數據流，減少數據冗余。

4.數值壓縮：用替代的、較小的數據表示原有的數據。

因為挖掘對象戶主信息表、家庭成員信息表、家庭信息表中的屬性個數比較多，去掉數據中不重要的屬性，像姓名、身份證號等信息。為了方便決策模型的建立，所以選擇與其相關的這屬性作為決策樹建立的依據，形成新的低保信息分析數據表。

二、低保數據挖掘預期目標

在對低保數據進行數據挖掘前，首先要明確低保管理的決策需求，也就是確定數據挖掘的預期目標，之后才能決定數據挖掘需要解決的一系列問題。隨著低保信息采集系統的運行和各種政策的不斷加強和深入實施，低保制度得到了極大的發展和促進，同時在這個過程中積累了大量的數據，為了政策更好的實施，人們希望從數據中獲取的信息也越來越多，不只是簡單的數據的表面現象，更多的關注數據的質量和數據本身能包含的信息。

例如：1.低保人數與參加低保的時間、地區之間的關系。通過低保戶數據，找到低保人數與時間之間的關系，低保資金發放地區之間的關系，為低保資金的發放提供政策上的支持。

三、總結

通過將數據挖掘技術應用于低保數據的統計，一方面可以將先進的計算機技術應用到低保統計工作中，提高了工作效率，更重要的是通過分析每年產生的大量數據，可以獲取隱藏在其中的規律，對數據的構成和變化有一個綜合而深層次的挖掘，找到貧困群體成為低保戶的主要特征，對低保資金占有比例較大的群體給予更多的關注和幫扶。通過對歷年的數據分析和預測，對未來低保人口的分布、人數以及人口構成有一個前瞻性的掌握。這些信息的提取，可以為低保政策的制定提供有說服力的依據。

參考文獻：

[1]陳京民.數據倉庫原理、設計與應用[M].中國水利水電出版社，2004：21—35.

[2]彭麗.數據挖掘中幾種劃分聚類算法的比較與改進[D].大連理工大學碩士學位論文，2008.

[3]印勇.決策支持分析新技術——數據挖掘[J].重慶郵電學院學報，2001增刊：70--74.

[4]姚家奕等.多維數據分析原理與應用[M].清華大學出版社，2004.

（作者單位：趙新華/蘭州職業技術學院電子與信息工程系；張克柱/蘭州職業技術學院現代服務系）