999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘在政府信息系統設計中的應用研究

2010-10-08 05:58:52住房和城鄉建設部信息中心郭理橋
中國建設信息化 2010年4期
關鍵詞:數據挖掘數據庫信息

◎ 住房和城鄉建設部信息中心 郭理橋

1、引言

隨著網絡技術和數據庫技術的飛速發展,政府的信息化進程正在逐漸加快。政府信息化,就是指政府行政管理方式、內容和手段的數字化、網絡化和智能化。當今,人們對政府和職能部門高效運轉的要求越來越高,政府重塑理論和新公共管理理論也在逐漸發展。電子政務自產生后就得到了快速發展并且迅速成為支持政府從傳統的管理方式向新型管理體系轉變的重要技術保證。電子政務的核心是利用信息技術優化提高行政效率,實現行政和日常事務的優化,建立政府、社會和公眾之間的有機互動。經過最近幾年電子政務基礎資源的大規模建設,海量政務信息資源挖掘和電子政務知識管理等深層次應用正逐步進入電子政務舞臺,對電子政務實施數據挖掘將成為政府信息化的一個新的研究方向。

2、數據挖掘理論概述

數據挖掘(Data Mining)又稱數據庫中的知識發現,是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。對信息和知識的需求來自各行各業,從商業管理、生產控制、市場分析到工程設計、科學探索等,數據挖掘作為一個新興的多學科交叉應用領域,正在各行各業的決策支持活動中扮演著越來越重要的角色。

2.1、數據挖掘過程

數據挖掘的工作過程從技術上可分為:數據的歸集、數據的存儲和管理、數據的展現等關鍵技術。

(1)數據的歸集:數據的歸集是數據進入倉庫的入口。由于數據倉庫是一個獨立的數據環境,它需要通過歸集過程將數據從聯機事務處理系統、外部數據源、脫機的數據存儲介質中導入數據倉庫。數據歸集在技術上主要涉及互連、復制、增量、轉換、調度和監控等方面的處理。在數據歸集方面,未來的技術發展將集中在系統功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統更便于管理和維護。

(2)數據的存儲和管理:數據倉庫的組織管理方式決定了它有別于傳統數據庫的特性,也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何并行處理大量的數據、如何優化查詢等。

(3)數據的展現:在數據展現方面主要的方式有:

查詢:實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢;

報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;

可視化:用易于理解的點線圖、直方圖、餅圖、網狀圖、交互式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系;

統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;

挖掘:利用數據挖掘等方法,從數據中得到關于數據關系和模式的知識。

從數據分析的角度,數據挖掘實現的功能可以分為:描述式數據挖掘和預測式數據挖掘。描述式數據挖掘以簡捷概要的方式描述數據,預測式數據挖掘則通過分析建立模型并試圖預測新數據集的行為。

2.2、數據預處理

數據預處理是數據挖掘過程中第一個重要處理步驟,涉及數據清洗、數據集成、數據轉換和數據消減等主要處理方法。

數據清洗,主要用于填補數據記錄中(各屬性)的遺漏數據,識別異常數據,以及糾正數據中的不一致問題。數據集成,主要用于將來自多個數據源的數據合并到一起并形成完整的數據集合。數據轉換,主要用于將數據轉換成適合數據挖掘的形式。如:規格化數據處理。數據消減,主要方法包括:數據立方合計、維度消減、數據壓縮、數據塊消減和離散化。這些方法主要用于在保證原來數據信息內涵減少最小化的同時對原來數據規模進行消減,并提出一個簡潔的數據表示。

2.3、數據挖掘中的關聯規則

數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯規則挖掘就是從大量的數據中挖掘出有價值描述數據項之間相互聯系的有關知識。隨著收集和存儲在數據庫中的數據規模越來越大,人們對從這些數據中挖掘相應的關聯知識越來越有興趣。關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項目組(Frequent Itemsets),第二階段再由這些高頻項目組中產生關聯規則(Association Rules)。關聯規則挖掘的相關算法主要有:Apriori算法、基于劃分的算法、FP-樹頻集算法。近年來大量研究從不同的角度對關聯規則做了擴展,將更多的因素集成到關聯規則挖掘方法之中,以此豐富關聯規則的應用領域,拓寬支持管理決策的范圍。

2.4、數據挖掘中的聚類分析

聚類(Clustering)是一個將數據集劃分為若干組(class)或類(cluster)的過程,并使得同一個組內的數據對象具有較高的相似度;而不同組中的數據對象是不相似的。相似或不相似的描述是基于數據描述屬性的取值來確定的。聚類分析所涉及的領域包括:數據挖掘、統計學、機器學習、空間數據庫技術、生物學和市場學等。聚類分析是數據挖掘中的一個很活躍的研究領域,已提出的聚類算法可以被分為劃分方法、層次方法、基于密度方法、基于網格方法和基于模型方法。

由于各應用數據庫所包含的數據量越來越大,聚類分析已成為數據挖掘研究中一個非常活躍的研究課題,以下就是對數據挖掘中的聚類分析的一些典型要求:

(1)可擴展性。許多聚類算法在小數據集(少于200個數據對象)時可以工作很好;但一個大數據庫可能會包含數以百萬的對象。利用采樣方法進行聚類分析可能得到一個有偏差的結果,這時就需要可擴展的聚類分析算法。

(2)處理不同類型屬性的能力。許多算法是針對基于區間的數值屬性而設計的。但是有些應用需要對其它類型數據,如:二值類型、符號類型、順序類型,或這些數據類型的組合。

(3)發現任意形狀的聚類。許多聚類算法是根據歐氏距離和Manhattan距離來進行聚類的。基于這類距離的聚類方法一般只能發現具有類似大小和密度的圓形或球狀聚類。而實際上一個聚類是可以具有任意形狀的,因此設計出能夠發現任意形狀類集的聚類算法是非常重要的。

(4)處理噪聲數據的能力。大多數現實世界的數據庫均包含異常數據、不明數據、數據丟失和噪聲數據,有些聚類算法對這樣的數據非常敏感并會導致獲得質量較差的數據。

(5)高維問題。一個數據庫或一個數據倉庫或許包含若干維或屬性。許多聚類算法在處理低維數據時(僅包含二到三個維)時表現很好。人的視覺也可以幫助判斷多至三維的數據聚類分析質量。然而設計對高維空間中的數據對象,特別是對高維空間稀疏和怪異分布的數據對象,能進行較好聚類分析的聚類算法已成為聚類研究中的一項挑戰。

(6)基于約束的聚類。現實世界中的應用可能需要在各種約束之下進行聚類分析。假設需要在一個城市中確定一些新加油站的位置,就需要考慮諸如:城市中的河流、高速路,以及每個區域的客戶需求等約束情況下居民住地的聚類分析。設計能夠發現滿足特定約束條件且具有較好聚類質量的聚類算法也是一個重要聚類研究任務。

(7)可解釋性和可用性。用戶往往希望聚類結果是可理解的、可解釋的,以及可用的。這就需要聚類分析要與特定的解釋和應用聯系在一起。因此研究一個應用的目標是如何影響聚類方法選擇也是非常重要的。

3、數據挖掘與電子政務現狀分析

經過多年的實踐,我國電子政務建設和應用已初見成效。人口基礎信息庫、法人單位基礎信息庫、自然資源和空間地理基礎數據庫、宏觀經濟數據庫的建立產生了海量的空間數據和非空間數據。這些數據中隱藏了豐富的知識和規則,但目前的許多系統只是實現數據的輸入、查詢、統計等功能,難以發現數據中存在的關聯、關系和規則,無法從大量的數據中提取有用信息以預測發展趨勢。從海量的數據中提取出這些規則,將有望為電子政務空間輔助決策系統建立提供支持。在電子政務中數據挖掘的常用方法主要有決策樹方法、統計的方法、歸納法、神經網絡方法、遺傳算法、粗糙集方法、人工智能、模糊集方法等。

3.1 現有信息系統常見缺陷

當前政府機關的各種應用信息系統雖然已經基本上建立起來,但是各種信息系統在建立之前,缺乏數據信息和系統的統一標準接口的規劃,使得整個信息系統有如下缺陷:

(1)數據格式多種多樣,一致性較差,存在數據冗余;

(2)數據來源多,數據存放分散,缺乏統一管理和聯系;

(3)數據量雖大,但對數據資源的開發利用不充分。

3.2 電子政務對數據挖掘技術的要求

(1)降低成本、減少財政開支。數據挖掘技術的應用可以打破各級政府之間文件傳遞的繁瑣性,用快捷的電子方式在政府上下級之間進行信息傳遞。不僅降低了政府辦公用品及相關開銷,而且無形中節約了大量的時間、減少了大量的額外開支,大大提高了工作效率。

(2)提供實時、有效的信息。政府部門若要充分發揮其職能作用,就必須進行及時、有效的監控和管理。數據挖掘技術可以幫助增強公眾與政府間溝通、通訊的時效性,保證雙方都可以及時、準確地掌握到有效信息,建立起一個可以有效收集、監理、分析所獲數據的系統。

(3)提供形勢分析與決策支持。電子政務中的數據挖掘技術,可以對政務系統中的海量數據進行開采、挖掘和分析,從中識別、抽取隱含信息,并利用這些信息為政府部門重大決策、法規的制定提供依據。

(4)提供功能強大的搜索引擎。數據挖掘技術是目前網絡信息檢索發展的一個關鍵。如通過對網頁內容的挖掘,可以實現對網頁的聚類、分類,實現網絡信息的分類瀏覽與檢索;同時,通過對用戶所使用的提問式歷史記錄的分析,可以有效進行提問擴展,提高檢索效果;另外,運用數據挖掘技術還可以改進關鍵詞加權算法、提高網絡信息的標引準確度,從而改善檢索效果,大大提高電子政務處理的效果和效率。

4、基于數據挖掘的實際系統設計

2007年,我在杭州市主持建設政務信息資源共享與業務協同項目,建立了市級政府各部門之間的目錄體系與交換體系,利用目錄和交換體系的基礎支撐作用,實現經濟調節、市場監管、社會管理、公共服務四大政府職能領域的多項業務協同應用。現有交換體系是基于Tibco的交換中間件產品構建的交換平臺,任何一項數據交換需求都需要獨立進行交換設計和流程部署。在交換部門不斷增加、交換需求也日益增多的情況下,交換平臺的監控與管理就顯得日益復雜,重新優化設計交換模式就顯得尤為需要。

4.1 目錄和交換體系設計總體目標

基于人口與法人單位數據庫,具備初步的數據挖掘、分析和預警能力,支持初步的輔助決策要求。基于數據挖掘的需求建立主題庫,以利于進一步工作。系統設計的主要任務是建立三個主要的功能模塊:個人信息數據分析功能模塊、法人信息數據分析功能模塊和個人與法人信息數據分析功能模塊。

4.2 目錄和交換體系架構

以電子政務外網為基礎,構建包含交換中心和資源目錄中心以及部門交換節點在內的政務信息資源綜合交換平臺。各業務部門通過交換體系的通用橋接系統將本部門的業務信息發布到共享信息庫中,并根據協同應用規范編制并部署有關服務應用。通過目錄體系的編目軟件將包括服務的信息進行編目操作提交到中心審核并發布。使用部門通過目錄分類查找信息資源并根據有關規章制度進行信息資源的索取(人-機界面)、信息資源的交換(機-機界面)和信息服務的調用(機-機界面)。目錄中心與交換中心提供共享目錄服務與交換服務和四大基礎信息庫,為業務協同應用提供支撐服務。

圖4.1 系統架構圖

現有的前置機系統存在比較普遍的“一數多源”現象,在此基礎之上構建數據倉庫系統存在一定的困難,數據的清洗和校驗必須有既定的數據標準,因此有必要在現有系統基礎之上構建標準的共享信息庫。

處理流程和數據流程包括:

(1)根據現有的前置機數據,對共享數據指標項進行多方比對和校驗,之后存入中心共享數據庫,作為標準共享數據供所有部門使用。

(2)根據部門業務數據庫構建部門共享信息庫,和中心共享信息庫的指標進行比對校驗,和中心共享標準數據不符的,以中心數據為準存入部門共享信息庫。

(3)根據部門共享信息庫和中心共享信息庫的數據,構建數據倉庫,提供人口和法人數據挖掘信息,作為輔助決策依據。

4.3 數據挖掘層次結構分析

在數據采集層中(即前置機部分),其數據內容是依靠事先約定由各個相關業務部門提供,這些數據是后續數據分析的根本。

在數據存儲層中,將根據數據采集層中提供的數據源,建立數據核心級的數據倉庫。數據倉庫中的數據,依據大數據量的建庫模型,形成多數據源的索引數據結構。這種數據結構既解決后續數據分析請求的及時響應,又要解決與數據采集層中數據源的及時性數據同步。數據倉庫是系統的數據存儲核心。

圖4.2 數據挖掘層次結構圖

圖4.3 數據挖掘流程分析圖

在數據分析層中,依據數據源與數據應用,將建立多種數據分析模型。這些數據模型都作為不同應用而采用不同的數據算法,并能將雜亂的數據信息轉換為應用數據結構。數據模型是系統的技術算法核心。

在數據展現層中,依據數據分析層提供的數據分析結果,將數據結果通過易用的B/S模式提供給使用者與管理者。

4.4 數據挖掘流程分析

首先,數據采集層中提取各業務部門的數據源,這里的數據傳輸是業務部門主動的單向推送數據至前置機中,系統不會操作業務部門的數據庫,保障業務部門原始數據的安全性和穩定性。在業務數據到達前置機后,系統的預處理過程同時會對數據進行初次清理,主要會處理數據的唯一性、可用性,以及數據不完整時做標記提供后續工作的依據。

其次,數據經過采集層后,將依據數據儲存模型,建立核心的數據倉庫。各個數據源數據匯總至數據倉庫,并依據不同業務類型、數據類型等關鍵信息,存儲完成的數據內容,建立關鍵信息索引。

之后,各數據處理模型,依據應用的請求,從數據倉庫中查詢、提取、索引相關的數據集,綜合處理不同數據類型,轉化為可展現的結果集,提供給數據展現層。

最后,數據展現層將數據提供的終端顯示給使用者與管理者 。

4.5 系統技術特點

(1)系統的安全性

系統的安全是整個系統的重要部分,政務信息數據是政府的重要資源,數據挖掘功能是輔助決策工作的重要補充,建立完善的安全體系,保障系統安全,保證數據安全,是方案的主要內容。數據挖掘系統的主要安全需求有:應用安全、網絡的安全管理、入侵檢測與監控、主機防護和訪問控制、身份認證、信息記錄和安全審計、病毒防護、數據備份與恢復、安全集中管理。

(2)系統的擴展性

數據倉庫系統是一個面向未來的分析系統,數據與業務的發展對該系統的未來產生最大的影響,因此系統的設計必須著眼于未來,具備良好的擴展性。系統的擴展性主要針對系統容量擴展、系統性能擴展和系統應用功能擴展三個方面。

5、結論

利用數據挖掘技術建設目錄體系和交換體系,可以向政府工作人員提供個性化的多維信息,使分析處理信息的能力大為提高,并幫助決策者更快、更好地制定和做出決策,進而實現政府職能部門的多項業務協同應用。數據挖掘是電子政務一項重要的應用技術和支持技術,可以為各級政府的決策提供科學的依據,提高各項政策制訂的科學性和合理性。隨著分析決策難度的增強,人們對決策分析工作的智能化、自動化要求越來越高,數據挖掘將成為實現政府決策支持的核心技術,以數據挖掘為依托的政府決策支持系統將發揮重要作用。今后電子政務研究的重點主要包括研究實用的數據挖掘算法,開發業務型數據挖掘平臺和工具,實現其與電子政務系統的集成,促進電子政務向智能化分析的發展。

猜你喜歡
數據挖掘數據庫信息
探討人工智能與數據挖掘發展趨勢
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
一種基于Hadoop的大數據挖掘云服務及應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 亚洲精品成人7777在线观看| 日韩精品亚洲一区中文字幕| 久久人体视频| 国产一级二级三级毛片| 久久亚洲中文字幕精品一区| 国产人成在线视频| 一本二本三本不卡无码| 亚洲天堂视频网站| 精品99在线观看| 99热在线只有精品| 国产黄色片在线看| 激情五月婷婷综合网| 国产白浆在线| 国产精品短篇二区| 日韩国产综合精选| 亚洲一区二区日韩欧美gif| 99手机在线视频| 亚洲国产AV无码综合原创| 综合五月天网| 国产新AV天堂| 亚洲视频三级| 欧美另类一区| 亚洲视频欧美不卡| 高清不卡一区二区三区香蕉| 久久精品66| 另类综合视频| 亚洲第一网站男人都懂| 亚洲精品自在线拍| 久久精品国产一区二区小说| 人妻出轨无码中文一区二区| 国产毛片基地| 欧美无专区| 成人综合网址| 麻豆精品在线视频| 91在线日韩在线播放| 夜精品a一区二区三区| 成人国产精品视频频| www.国产福利| 久久精品波多野结衣| 色噜噜综合网| 亚洲男人天堂2020| 亚洲V日韩V无码一区二区| www.亚洲国产| 久久精品国产免费观看频道| 日韩美毛片| 欧美视频在线第一页| 性色在线视频精品| 日本午夜视频在线观看| 激情在线网| 国产国产人免费视频成18| 2021国产精品自拍| 国产精品999在线| 久久五月视频| 成人一区在线| 亚洲日本一本dvd高清| 欧美中文一区| 热伊人99re久久精品最新地| 2021亚洲精品不卡a| 老司机久久99久久精品播放| 国产精品亚洲αv天堂无码| 天天干天天色综合网| 国产视频a| 99ri精品视频在线观看播放| 欧美一级高清片欧美国产欧美| 国产成+人+综合+亚洲欧美| 激情综合网址| 午夜影院a级片| 久久精品国产精品一区二区| 亚洲无码高清视频在线观看| 亚洲综合狠狠| 久久永久视频| 69视频国产| 久久99精品久久久久久不卡| 五月婷婷综合在线视频| 国产va在线观看| 91久久偷偷做嫩草影院免费看| 五月天久久综合| 丁香婷婷综合激情| 国产精品视频观看裸模| 另类欧美日韩| 成人精品亚洲| 一本大道无码高清|