999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

低保數據中數據挖掘模型的建立

2016-05-14 03:37:08趙新華張克柱
亞太教育 2016年8期
關鍵詞:數據挖掘模型

趙新華 張克柱

摘 要:通過將數據挖掘技術應用于低保數據的統計,一方面可以將先進的計算機技術應用到低保統計工作中,提高了工作效率,更重要的是通過分析每年產生的大量數據,可以獲取隱藏在其中的規律,對數據的構成和變化有一個綜合而深層次的挖掘,找到貧困群體成為低保戶的主要特征,對低保資金占有比例較大的群體給予更多的關注和幫扶。

關鍵詞:數據挖掘;模型;數據

一、低保數據預處理過程

(一)樣本數據的特點。本文對張掖市2015年低保數據進行采集,通過研究這部分樣本數據,最終能總結出數據挖掘技術在農村低保數據統計應用中的一些結論。

根據分析低保數據具有以下的特點:(1)數據量大、覆蓋面較廣。最低生活保障體系是一個規模很大的體系,數據量極大,而且數據又分布在全國不同的地區,對低保數據進行挖掘和和管理是非常有意義的;(2)具有一定的動態性和時間性。隨著時間的變化,低保數據在不斷增加和刪除,需要對數據進行更新。

(二)數據采集。面對龐大的低保人群,數據采集的工作量是很大的,采集的數據要典型、內容盡量完整充實,這樣最終的數據挖掘結果才會更有效和準確,數據采集過程中需要關注的一些問題如下:數據收集要以地區為單位,找出不同地區間低保人員在生活狀況、年齡分布、性別、文化程度、家庭結構、身體健康狀況等方面不同于其他群體的差異和特征,對重點困難地區加以幫扶和支持。

(三)數據清理。在采集數據和輸入數據的過程中,不可避免的會出現數據錯誤、重復數據和數據不一致的問題,這些數據在數據挖掘中都是不符合要求的,數據清理的主要任務是填充缺失的值,光滑噪聲并識別離群點,并糾正數據中的不一致。為了使本次挖掘結果達到預期目的,進行如下的清理:(1)如果數據中有大量缺失的屬性,將缺失的屬性值用同一個常數替換。如“Unknown”。先用一個替換值將空值進行約束替換。處理后的數據對后期挖掘工作沒有價值會選擇刪除。(2)對某些比較重要的屬性,利用該屬性的最可能的值填充缺失值。

有些屬性的值在數據采集和數據輸入的過程中空缺,但是缺失的這些值可以通過分析屬性的歷史數據來填補。在歷史數據中,分析屬性的哪個值在整個數值的比例是最高的,也就是這個值分布的密度是最高的,說明這個屬性值出現的可能性是非常大的,就用這個值來填充空缺的值。

(四)數據轉化。 原始表中沒有年齡字段,通過戶主信息表和家庭成員信息表中的身份證號計算年齡字段,采用下面的SQL語句來實現:Select身份證號,datepart(yy,getdate())-substring(身份證號,7,4)as年齡from低保數據對于低保人員信息的年齡字段,因為信息量巨大,為了有目的的進行數據挖掘,將年齡的取值離散化,進行有效的分類,將年齡取值劃分為三個區間,每個區間為一個屬性值,將年齡25-35的劃分為“青年”,將36—59劃分為中年,60以上為老年。

(五)數據規約。原始數據一般是非常大的,在海量的數據上進行數據挖掘和分析將需要很長的時間,數據規約是從數據集中挑選或過濾出具有代表性的數據,縮減挖掘的時間和成本,使數據挖掘的目標能縮小一些。規約之后,數據表示小得多,但最終數據挖掘的結果仍然接近地保持原數據的完整性。數據規約的策略有下面幾種:

1.數據立方體聚集:對數據立方體中的數據尋找感興趣的維度進行再聚集。

2.維歸約:檢測并刪除沒有關連、關連性弱或冗余的屬性(維)。

3.數據壓縮:使用編碼機制把樣本數據轉換成另一種較小的數據流,減少數據冗余。

4.數值壓縮:用替代的、較小的數據表示原有的數據。

因為挖掘對象戶主信息表、家庭成員信息表、家庭信息表中的屬性個數比較多,去掉數據中不重要的屬性,像姓名、身份證號等信息。為了方便決策模型的建立,所以選擇與其相關的這屬性作為決策樹建立的依據,形成新的低保信息分析數據表。

二、低保數據挖掘預期目標

在對低保數據進行數據挖掘前,首先要明確低保管理的決策需求,也就是確定數據挖掘的預期目標,之后才能決定數據挖掘需要解決的一系列問題。隨著低保信息采集系統的運行和各種政策的不斷加強和深入實施,低保制度得到了極大的發展和促進,同時在這個過程中積累了大量的數據,為了政策更好的實施,人們希望從數據中獲取的信息也越來越多,不只是簡單的數據的表面現象,更多的關注數據的質量和數據本身能包含的信息。

例如:1.低保人數與參加低保的時間、地區之間的關系。通過低保戶數據,找到低保人數與時間之間的關系,低保資金發放地區之間的關系,為低保資金的發放提供政策上的支持。

三、總結

通過將數據挖掘技術應用于低保數據的統計,一方面可以將先進的計算機技術應用到低保統計工作中,提高了工作效率,更重要的是通過分析每年產生的大量數據,可以獲取隱藏在其中的規律,對數據的構成和變化有一個綜合而深層次的挖掘,找到貧困群體成為低保戶的主要特征,對低保資金占有比例較大的群體給予更多的關注和幫扶。通過對歷年的數據分析和預測,對未來低保人口的分布、人數以及人口構成有一個前瞻性的掌握。這些信息的提取,可以為低保政策的制定提供有說服力的依據。

參考文獻:

[1]陳京民.數據倉庫原理、設計與應用[M].中國水利水電出版社,2004:21—35.

[2]彭麗.數據挖掘中幾種劃分聚類算法的比較與改進[D].大連理工大學碩士學位論文,2008.

[3]印勇.決策支持分析新技術——數據挖掘[J].重慶郵電學院學報,2001增刊:70--74.

[4]姚家奕等.多維數據分析原理與應用[M].清華大學出版社,2004.

(作者單位:趙新華/蘭州職業技術學院電子與信息工程系;張克柱/蘭州職業技術學院現代服務系)

猜你喜歡
數據挖掘模型
一半模型
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
3D打印中的模型分割與打包
一種基于Hadoop的大數據挖掘云服務及應用
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 国产精品微拍| 中文国产成人精品久久| 久久亚洲高清国产| 国产精品污视频| 欧美精品二区| www.亚洲一区| 日本在线免费网站| 国产欧美在线视频免费| 免费人成在线观看视频色| 国产特一级毛片| 在线视频亚洲色图| 欧美成人精品一级在线观看| 真实国产乱子伦高清| 久久国产精品娇妻素人| 区国产精品搜索视频| 亚洲最黄视频| 高清码无在线看| 18禁黄无遮挡免费动漫网站| 97视频在线观看免费视频| 青青草原偷拍视频| 黄色网站在线观看无码| 青青久久91| 国产免费高清无需播放器| 一级毛片免费的| 白浆免费视频国产精品视频| 国产高清在线丝袜精品一区| 欧美中文字幕第一页线路一| 天堂成人在线| 秋霞国产在线| 婷婷六月天激情| 99久久精品视香蕉蕉| 欧美国产菊爆免费观看 | 午夜啪啪福利| 久久精品亚洲中文字幕乱码| 9966国产精品视频| 中文字幕人成乱码熟女免费| 国内毛片视频| 天堂久久久久久中文字幕| 国产一区亚洲一区| 久久精品女人天堂aaa| 欧美午夜一区| 欧美精品一区在线看| 国产一级裸网站| 色色中文字幕| 五月天天天色| 国产丰满成熟女性性满足视频| 91成人在线观看视频| 国产亚洲精久久久久久久91| 免费A∨中文乱码专区| 欧美国产在线一区| 欧美三级不卡在线观看视频| 成人亚洲天堂| 草草线在成年免费视频2| 一级毛片免费的| 亚洲αv毛片| 91福利一区二区三区| 福利在线不卡| 国产产在线精品亚洲aavv| 国产色婷婷| 天天综合天天综合| 高h视频在线| 亚洲国产精品人久久电影| 国产H片无码不卡在线视频| 强奷白丝美女在线观看| 少妇极品熟妇人妻专区视频| 国产AV无码专区亚洲精品网站| 美女国内精品自产拍在线播放 | 久久精品一品道久久精品| 国产精品私拍在线爆乳| 9cao视频精品| 久久精品人妻中文视频| a级毛片在线免费| 国产AV毛片| 日本道综合一本久久久88| 99热这里只有精品免费国产| 欧美午夜理伦三级在线观看| 国产在线观看第二页| 亚洲国产日韩一区| 国产精品所毛片视频| 久热这里只有精品6| 天天综合色网| 国产成人1024精品|