趙新華 張克柱
摘 要:通過將數據挖掘技術應用于低保數據的統計,一方面可以將先進的計算機技術應用到低保統計工作中,提高了工作效率,更重要的是通過分析每年產生的大量數據,可以獲取隱藏在其中的規律,對數據的構成和變化有一個綜合而深層次的挖掘,找到貧困群體成為低保戶的主要特征,對低保資金占有比例較大的群體給予更多的關注和幫扶。
關鍵詞:數據挖掘;模型;數據
一、低保數據預處理過程
(一)樣本數據的特點。本文對張掖市2015年低保數據進行采集,通過研究這部分樣本數據,最終能總結出數據挖掘技術在農村低保數據統計應用中的一些結論。
根據分析低保數據具有以下的特點:(1)數據量大、覆蓋面較廣。最低生活保障體系是一個規模很大的體系,數據量極大,而且數據又分布在全國不同的地區,對低保數據進行挖掘和和管理是非常有意義的;(2)具有一定的動態性和時間性。隨著時間的變化,低保數據在不斷增加和刪除,需要對數據進行更新。
(二)數據采集。面對龐大的低保人群,數據采集的工作量是很大的,采集的數據要典型、內容盡量完整充實,這樣最終的數據挖掘結果才會更有效和準確,數據采集過程中需要關注的一些問題如下:數據收集要以地區為單位,找出不同地區間低保人員在生活狀況、年齡分布、性別、文化程度、家庭結構、身體健康狀況等方面不同于其他群體的差異和特征,對重點困難地區加以幫扶和支持。
(三)數據清理。在采集數據和輸入數據的過程中,不可避免的會出現數據錯誤、重復數據和數據不一致的問題,這些數據在數據挖掘中都是不符合要求的,數據清理的主要任務是填充缺失的值,光滑噪聲并識別離群點,并糾正數據中的不一致。為了使本次挖掘結果達到預期目的,進行如下的清理:(1)如果數據中有大量缺失的屬性,將缺失的屬性值用同一個常數替換。如“Unknown”。先用一個替換值將空值進行約束替換。處理后的數據對后期挖掘工作沒有價值會選擇刪除。(2)對某些比較重要的屬性,利用該屬性的最可能的值填充缺失值。
有些屬性的值在數據采集和數據輸入的過程中空缺,但是缺失的這些值可以通過分析屬性的歷史數據來填補。在歷史數據中,分析屬性的哪個值在整個數值的比例是最高的,也就是這個值分布的密度是最高的,說明這個屬性值出現的可能性是非常大的,就用這個值來填充空缺的值。
(四)數據轉化。 原始表中沒有年齡字段,通過戶主信息表和家庭成員信息表中的身份證號計算年齡字段,采用下面的SQL語句來實現:Select身份證號,datepart(yy,getdate())-substring(身份證號,7,4)as年齡from低保數據對于低保人員信息的年齡字段,因為信息量巨大,為了有目的的進行數據挖掘,將年齡的取值離散化,進行有效的分類,將年齡取值劃分為三個區間,每個區間為一個屬性值,將年齡25-35的劃分為“青年”,將36—59劃分為中年,60以上為老年。
(五)數據規約。原始數據一般是非常大的,在海量的數據上進行數據挖掘和分析將需要很長的時間,數據規約是從數據集中挑選或過濾出具有代表性的數據,縮減挖掘的時間和成本,使數據挖掘的目標能縮小一些。規約之后,數據表示小得多,但最終數據挖掘的結果仍然接近地保持原數據的完整性。數據規約的策略有下面幾種:
1.數據立方體聚集:對數據立方體中的數據尋找感興趣的維度進行再聚集。
2.維歸約:檢測并刪除沒有關連、關連性弱或冗余的屬性(維)。
3.數據壓縮:使用編碼機制把樣本數據轉換成另一種較小的數據流,減少數據冗余。
4.數值壓縮:用替代的、較小的數據表示原有的數據。
因為挖掘對象戶主信息表、家庭成員信息表、家庭信息表中的屬性個數比較多,去掉數據中不重要的屬性,像姓名、身份證號等信息。為了方便決策模型的建立,所以選擇與其相關的這屬性作為決策樹建立的依據,形成新的低保信息分析數據表。
二、低保數據挖掘預期目標
在對低保數據進行數據挖掘前,首先要明確低保管理的決策需求,也就是確定數據挖掘的預期目標,之后才能決定數據挖掘需要解決的一系列問題。隨著低保信息采集系統的運行和各種政策的不斷加強和深入實施,低保制度得到了極大的發展和促進,同時在這個過程中積累了大量的數據,為了政策更好的實施,人們希望從數據中獲取的信息也越來越多,不只是簡單的數據的表面現象,更多的關注數據的質量和數據本身能包含的信息。
例如:1.低保人數與參加低保的時間、地區之間的關系。通過低保戶數據,找到低保人數與時間之間的關系,低保資金發放地區之間的關系,為低保資金的發放提供政策上的支持。
三、總結
通過將數據挖掘技術應用于低保數據的統計,一方面可以將先進的計算機技術應用到低保統計工作中,提高了工作效率,更重要的是通過分析每年產生的大量數據,可以獲取隱藏在其中的規律,對數據的構成和變化有一個綜合而深層次的挖掘,找到貧困群體成為低保戶的主要特征,對低保資金占有比例較大的群體給予更多的關注和幫扶。通過對歷年的數據分析和預測,對未來低保人口的分布、人數以及人口構成有一個前瞻性的掌握。這些信息的提取,可以為低保政策的制定提供有說服力的依據。
參考文獻:
[1]陳京民.數據倉庫原理、設計與應用[M].中國水利水電出版社,2004:21—35.
[2]彭麗.數據挖掘中幾種劃分聚類算法的比較與改進[D].大連理工大學碩士學位論文,2008.
[3]印勇.決策支持分析新技術——數據挖掘[J].重慶郵電學院學報,2001增刊:70--74.
[4]姚家奕等.多維數據分析原理與應用[M].清華大學出版社,2004.
(作者單位:趙新華/蘭州職業技術學院電子與信息工程系;張克柱/蘭州職業技術學院現代服務系)