摘 要 電子政務平臺旨在服務于社會公共事業,本文討論了政務處理方法的歷程,重點突出了新信息技術(數據挖掘技術)對政務的革新作用。最后以檢察院為例提出具體應用數據倉庫和數據挖掘技術的有效方法,輔助政府獲得潛在的知識信息。
關鍵詞 電子政務 數據倉庫 數據挖掘
中圖分類號:C931 文獻標識碼:A
在信息時代,信息技術的快速發展對社會各個領域都產生了一定的影響,在電子商務中反映尤為突出。電子政務的出現相對較晚,但據國外學者研究表明大約80%以上的重要信息資源掌握在政府手中,所以許多國家都將電子政務作為本國在信息技術應用領域的首要任務。
1政務數據處理狀態分析
政府不僅是處理人民群眾日常事務的單位,它更重要的作用體現在可以反映群眾的多數意見和分析社會大范圍的特征,并以此幫助人民群眾和社會向更好的方向發展。政府對這些事務的處理到目前為止經歷了人工和計算機處理的兩大階段。
(1)人工處理階段
為了反映較大范圍人民群眾的整體特征,政府經常要付出龐大的人力和物力收集大量數據。這個數據的收集通常要經歷一個較長的時間,間隔一段時間還必須重復執行。比如犯罪規律調查、經濟普查、群眾意向調查等。然而,分析收集來的海量數據更是政府頭疼的一件事。比如經濟普查,政府需知道近10年、近20年、50年甚至更長時間的經濟發展狀況,那么光靠人工去翻閱以前的數據就是件很困難的工作了。所以人工處理數據階段,有許多政務受到很大的限制。
(2)計算機處理階段
隨著計算機在各政府部分的使用,逐漸出現了“電子政務(Electronic Government,即EG)”。目前為止,電子政務的發展大致經歷了以下三個階段:面向數據處理的第一代電子政務、面向信息處理的第二代電子政務、面向知識處理的第三代電子政務。在前兩個階段中,許多政務工作確實提高了效率,但是政府海量數據中隱含的價值仍不能被有效發掘。正如在一大座金山中,獲取更有價值的黃金還需更細致更有效的清理和挖掘。由于信息技術的發展,電子政務逐漸進入第三代發展中,即有效應用數據倉庫和數據挖掘技術挖掘知識。
2 DW和DM技術
數據倉庫(DataWare,即DW)是指一個面向主題的、集成的、非易失的且隨時間變化的數據集合,用來支持管理人員的決策。面向知識處理的EG系統應能夠自動剔除掉不需要的數據,按照用戶的要求整合雜亂的數據資源,獲取某些可用的屬性。
數據挖掘(Data Mining,即DM)是指從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。數據挖掘就是從大量數據中提取或“挖掘”知識。
首先,我們要確定數據挖掘的對象有哪些。其次,要有效地應用數據挖掘技術,就要遵循科學的應用流程。一般的挖掘流程是:(1)確定挖掘對象;(2)數據準備;(3)數據挖掘,即模式提取;(4)結果分析,即模式評估。
3政務平臺的數據挖掘過程
按照上述數據挖掘的基本流程,以檢察院為例介紹如何在EG系統真正實現數據挖掘。
3.1構建EG系統的數據倉庫
這部分主要分為以下四個任務:
(1)確定檢察院EG系統中的數據源
檢察院EG系統的數據主要從兩個方面獲得:第一個是調研和用戶主動提供的數據資源;第二個是EG系統從其門戶網站中獲得數據源。
當實施了EG后,政府將從其門戶網站中獲取更多、更豐富的數據資源。那么如何對龐大的Web日志數據建立數據倉庫呢?
(2)Web日志數據的預處理
Web服務器日志文件中的數據稱之為原始數據,管理員可根據需要用某些日志字段記錄相關數據。如:用戶的域名或IP地址,用戶的Login ID,訪問日期和時間,訪問的方法,被訪問頁的文件名和參數等。對Web日志數據的預處理包括兩步。第一步:清除噪音,即去掉對知識挖掘無關的數據。第二步:轉化數據,即將原始數據按照挖掘需求通過重新組織或簡單計算轉換成規范模式。
(3)多維Web數據模式的建立
第一步,選取維。多維數據便于我們從多個角度深入了解數據中的信息。N維數據矩陣用C(A1, A2, . .., Am ,count)模式表示,其中Ai代表第i維,i=1,2,...,n, count是變量,反映數據的實際意義。
第二步,構造檢察院門戶網站訪問數據的(下轉第78頁)(上接第76頁)多維視圖。先選取data維(按季度組織)、file維(按文件類型組織)用2—D形式表示用戶對檢察院門戶網站的訪問行為。然后加入第三維location(按用戶所在區組織),進一步構建用戶訪問行為的三維視圖。視圖顯示的事實是visit_count(訪問次數)。
第三步,創建多維數據模式。最流行的數據倉庫數據模型是多維數據模型。最常見的模型范例是星型模式。
(4)應用OLAP技術
應用OLAP(在線聯機處理)技術可以很方便地從Web日志數據矩陣中作出一些簡單的結論性分析,如回答一些問題:(1)哪些資源訪問情況最好,哪些最差;(2)用戶的地域分布情況如何。可以應用的技術有:下鉆(drill-down)、上卷(roll-up)、切片分析(slice)和切塊分析(dice)等。
3.2挖掘模式的有效應用
應用數據挖掘技術可以自動發現用戶的行為特征和系統的訪問模式。
(1)數據挖掘技術應用的范圍
檢察院構建其門戶網站,需要向公眾、企業和其他政府部門提供盡可能多相關信息和服務。同時,檢察院通過門戶網站也要有能力獲悉訪問用戶的訪問行為和動機、趨勢。在服務器以及瀏覽器日志記錄的數據中隱藏著模式信息,結合網絡技術應用數據挖掘技術可以自動發現系統的訪問模式和用戶的行為特征,從而進行預測分析。
(2)應用挖掘模式提取和分析知識
根據不同的應用要求,在數據挖掘模式中選擇合適的方法進行計算,提取有效數據,得出知識。對于檢察院,可以應用聚類方法確定特定用戶的地域分布,從而識別出一些問題:
①哪些分區在一段時間內網上舉報情況較集中;
②網上舉報較集中的地區是因為案件發生頻繁,還是因為網絡普及范圍廣;
③對比網上舉報和非網上舉報的用戶群,以輔助政府決策對不同地區采取不同的情報收集手段。
電子政務平臺中的數據還有許多值得繼續深入研究的。但是,不論從那個方向進行研究,都必須要以提高政務處理能力為宗旨,讓政府資源發揮最大的社會價值。
參考文獻
[1] Reema Thareja. Data Warehousing [M]. Oxford Univ Pr, 2009.
[2] 張興會. 數據倉庫與數據挖掘技術[M].清華大學出版社,2011.
[3] 黃雯. 數據挖掘算法及其應用研究[D].南京郵電大學,2013.