摘 要:政府信息化是社會信息化的基礎,當前,電子政務已成為我國信息化的重點。將數據挖掘技術引入電子政務中,可以大大提高整個電子政務系統的智能化水平,促進社會的信息化。文章論述了數據挖掘在電子政務中的作用、電子政務數據挖掘對象和挖掘過程。
關鍵詞:數據挖掘電子政務 數據庫
中圖分類號:F062.5
文獻標識碼:A
文章編號:1004-4914(2008)01-191-02
政務是指依托互聯網而運行的、與政府管理和有服務社會事務相關的一系列政府活動與政府行為方式。數據挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識的過程。隨著信息技術的高速發展,人們積累的數據量急劇增長,動輒以TB計,如何從少量的數據中最提取有用的知識成為當務之急。數據挖掘就是為順應這種需要而發展起來的數據處理技術,是知識發現(Knowledge Discovery Database)的關鍵步驟。政府通過實施電子政務過程,整合了政府各級各類數據信息資源。這些數據在滿足正常政務工作的需要方面起到了重要作用,但這些數據中隱含的各種政務知識則由于其原始數據量極大、機構復雜等原因的困擾,而未能有效地進行挖掘,因此,亟需在電子政務系統中開展政務知識的數據挖掘工作。
一、數據挖掘在電子政務中的作用
電子政務的實施,將迫使我國加入WTO后政府管理職級的加速轉變,同樣,在電子政務環境下的電子政府也必將在行政管理職能方面,面臨創新能力、突發事件快速響應能力等諸多方面的挑戰。而數據挖掘以及知識管理將有效地應對這些挑戰,并在重塑政府形象、提高政府工作效率等方面起到重要的作用。
1.快速響應能力。快速響應能力是政府在應對社會突發事件、自然災害等各類發生突然、危害極大的重大事件的綜合能力。作為歷史,人們將會對曾經經歷的突發事件發生的原因、發展變化、危害程序及處理過程等作比較詳細的記錄和總結。因此我們可以利用數據挖掘工具,對歷史記載下來的突發事件進行挖掘,從中提取、總結、升華經驗和教訓,得到我們今后應對突發事件的各種知識,制定出有效而且高效的應對措施,提高政府在處理此類事件時的快速響應能力。
2.創新能力。創新是政府部門向知識型政府轉變的基本要求,它不僅僅局限在行政方法和政務處理流程層面上的創新,而且也包括政府制定發展戰略和公共政策的創新。如政府職能將更多地面向提供公共服務,實施公共管理等領域,為適應這種轉變,政府需要對歷史的經驗和教訓、外國政府職能、社會公眾需求等進行有效地挖掘、吸引、借鑒和利用,依靠挖掘出的公共管理戰略知識來指導政府的戰略與政策的制定。
3.促進公務員素質的提高。隨著電子政府中的自助式服務、一站式服務逐步實施,公務員事必躬親的現象將大大減少。隨之而來的是,社會公眾有可能提出許多以前不曾提出過的要求和服務。作為政府公務員必須能夠對此予以及時、明確的解釋和答復,但是有些問題公務員可能并不清楚,對于不清楚的問題,公務員可以利用數據挖掘工具尋找答案。因此,政府各類公務員都必須提高自身挖掘知識、學習知識的能力和辦事技能,并能得到網絡尋找專家庫和知識庫的有力幫助。
4.高效率的行政管理。對電子政府來說,效率不僅僅意味著規范、快速和程序化,而且從更深層次上理解,它要求的是更聰明和更高品質工作。有效地利用數據挖掘,能夠獲得社會公眾大網絡虛擬環境中提出的大部分服務請求的解決方案或應對措施,建立主體知識庫,使社會公眾提出的服務都能有較滿意的結果。
二、電子政務數據挖掘的對象
數據挖掘的范圍非常廣泛,可以是社會科學、經濟學、商業數據、科學處理產生的數據和衛星觀測得到的數據。它們的數據結構也各不相同,可以是層次的、網狀的、關系的、面向對象的數據。具體針對電子政務數據挖掘系統來說,就要根據電子政府的日常數據處理和所需要的知識內容與形式等方面來決定其挖掘的對象。
1.關系數據庫。關系數據庫是政府機構中使用歷史悠久、數據積累最全、最豐富的數據庫系統,從中可以挖掘出大量的關聯知識。它也是目前數據挖掘最流行、最豐富、技術實現手段較多的數據源。針對關系數據庫的數據挖掘主要在關系查詢的基礎上,提出趨勢或數據模式。因此,它是電子政務數據挖掘的主要數據形式。
2.事務數據庫。事務數據庫一般是由一個文件組成,其中每條記錄代表一個事務。通常一人事務包含一個唯一的事務標志和一個組成事務的項目列表。所以,事務數據庫中存放的信息是在不知不覺中積累起來的,是事務最真實的紀錄。因此,針對事務數據庫的數據挖掘是電子政務數據挖掘工作量較大的部分。
3.數據倉庫。數據倉庫是數據挖掘的最佳對象,它一般是由對數據庫的數據清理、數據交換、數據集成、數據移入和定期數據刷新來構造的,是從多個數據元收集信息集合,圍繞主題存放在一個一致的模式下。因此,從數據倉庫中進行數據挖掘可以節省大量的數據準備時間和工作量,挖掘過程相對簡單和方便。
4.高級數據庫系統。隨著數據庫技術的發展,各種高級數據庫系統已經出現。高級數據庫系統能夠滿足處理空間數據、工程設計數據、超文本和多媒體數據、與時間相關的數據、web等新的數據庫的需要。因此,針對高級數據庫系統的數據挖掘應用也必將成為電子政務數據挖掘的一項重要內容。
三、電子政務數據挖掘的形式
根據不同的數據挖掘對象,人們將數據挖掘分為網絡內容挖掘(Web content mining)、網絡結構挖掘(Web structure mining)以及網絡用法挖掘(Web usage mining)。
1.網絡內容挖掘。網絡信息內容是由文本、圖像、音頻、視頻、元數據等形式的數據組成的。網絡內容挖掘就是一個從網絡信息內容中發現有用信息的過程。由于網絡信息內容有很多是多媒體數據,因此網絡內容挖掘也將是一種多媒體數據挖掘形式。
2.網絡結構挖掘。網絡結構挖掘就是挖掘Web潛在的鏈接結構模式。通過分析一個網頁鏈接和被鏈接數量以及對象來建立Web自身的鏈接結構模式。這種模式可以用于網頁歸類,并且由此可以獲得有關不同網頁間相似度及關聯度的信息。網絡結構挖掘有助于用戶找到相關主題的權威站點。
3.網絡用法挖掘。網絡內容挖掘和網絡結構挖掘的挖掘對象是網上的原始數據,而網絡用法挖掘面對的則是在用戶和網絡交互的過程中抽取出來的第二手數據,包括網絡服務器訪問記錄、代理服務器日志記錄、瀏覽器日志記錄、用戶簡介、注冊信息、用戶對話或交易信息、用戶提問方式等。通過網絡用法挖掘,可以了解用戶的網絡行為數據所具有的意義。
四、電子政務數據挖掘過程
電子政務中的數據挖掘視之為政府各種業務活動、工作、決策尋找知識時,對數據進行分析、挖掘、評價與解釋等的過程。一般來說,電子政務數據挖掘過程包括數據準備,發現模式,分析、解釋模式三個主要階段。
1.準備數據。進行數據挖掘的時候,一般并不是對原始的數據進行挖掘,而是先要對數據作一些處理,包括合并數據,將多個文件或多個數據庫中的數據進行合并處理,選擇數據、提取出合適的數據集合,數據清洗、過濾,剔出一些無關記錄,將文件、圖形、圖像及多媒體等文件換成可便于數據挖掘的格式等。
2.發現模式。根據不同的挖掘目標,可以相應采取不同的挖掘方法,得到有意義的數據模式。數據挖掘的方法有很多種,主要包括3大類:統計分析、知識發現、其他可視化方法。(1)統計分析。主要用于檢查數據中的數據規律,然后利用統計模式和數學模型來解釋這些規律,通常使用的統計方法有線性分析、非線性分析、線形回歸、因子分析、單變量曲線和雙變量統計以及時間序列分析等。通過統計分析,選擇適用于數據分析的適合的數據模型,對重要頁面、導航路徑有向圖、瀏覽時間等給出統計描述,揭示數據間的關系。(2)知識發現。源于人工智能和機器學習,利用數據搜尋過程,得到一個有意義的數據模型,從中可以發現規律。具體的方法有人工神經網絡、決策樹方法、遺傳算法、規律推理等。(3)其他可視化方法。可以給出多變量的圖形分析,同時顯示多變量間的關系,有助于分析以前挖掘的數據,進一步增強數據挖掘能力。
3.分析、解釋模式。通過技術手段,對得到的模式進行數據分析,得出有意義的結論。常用的技術手段有:(1)關聯規則。揭示數據間的內在聯系,發現有戶與站點各方面的訪問關系。(2)分類。給出分類的公共屬性描述,并將新的記錄分配到預先定義好的類中去。(3)聚類。分類的逆過程,按照“類內相似性最大,相似性最大”的原則,對數據類進行類的聚集,多指客戶群體聚類和web網頁聚類。客戶群體聚類將具有相似影星模式的用戶分在一組,而web網頁類聚提供有針對性的網絡服務應用。(4)序列模式。側重于挖掘出數據的前后時間順序關系,分析是否存在一定趨勢,以預測未來的訪問模式。(5)路徑分析。可以發現一個web站點中經常被訪問的路徑。
所以,電子政務數據挖掘系統的具體實現:首先應從用戶提出的需求開始,根據用戶的需求進行分析,選取相應的數據,在此基礎上由系統自動或由用戶自己選擇待發現模式,找到相應的算法,自動或人為的制定所需的所有參數,進行挖掘。將得到的結果進行知識表達,自動或人為的根據等到的知識,進行下一輪的挖掘或填寫到知識庫中。每次得到的知識,不僅僅提交給用戶,還應當以某種形式存儲起來,供系統挖掘新知識時使用。這樣,就可能在進行更層知識的發現時,不用重新創建所有的數據,從而達到基于知識的挖掘。
五、結束語
電子政務數據挖掘與傳統的統計分析都是對歷史數據進行統計分析,一方面對過去進行總結,另一方面對未來發展提出有價值的信息。但是數據挖掘技術的研究還很不成熟,離實際還有較大的差距,我們應通過對過去國內、國際的行政管理工作的數據挖掘,以得到更多的行政管理經驗和知識,使我國社會主義市場經濟條件下的政府行政管理工作邁上一個新臺階。
參考文獻:
1.陳京民等編著.數據倉庫與數據挖掘技術[M].電子工業出版社,2002
2.黃順基.信息革命在中國[M].中國人民大學出版社,1998
3.HAN.KAMBERM,數據挖掘概念與技術[M].范明,孟小峰等譯,機械工業出版社
4.關俐,梁紅峻.數據倉庫與數據挖掘[J].微型電腦應用,1999(28)
5.朱愛群編著.客戶關系管理與數據挖掘[M].中國財政經濟出版社,2001
(作者單位:武漢科技學院電信工程學院 湖北武漢 430073)
(責編:若佳)