孫 謙
(1.同濟大學 上海 200092;2.天津市靜海縣雙塘鎮人民政府 天津 301600)
隨著電子政務被越來越多的政府機構所應用,政府的日常運行產生了大量的信息和數據,然而海量的信息使得用戶在使用電子政務系統時難以快速找到所需要的信息。因此如何有效提高用戶的訪問效率,有針對性地滿足用戶的需求并提供個性化服務變得十分重要。作為新興的計算機數據處理技術之一的數據挖掘技術能在一定程度上解決上述問題。
數據挖掘技術是一種能從大量模糊的、不確定的、不完全的數據中揭示出隱含的、未知的,但具有潛在價值信息的技術。它主要基于人工智能、模式識別、機器學習、數據庫、統計學、可視化技術等,自動分析用戶日常數據,做出歸納和推理,從看似沒有規律、沒有價值的一般數據中挖掘出潛在的含義。數據挖掘技術能在大量數據中發現有用的知識,并將其應用于用戶分析、個性推薦等決策過程中。
數據挖掘技術是計算機數據處理技術的前沿應用,它能夠在海量數據中尋找其內在關聯和有價值的信息,更深層次地使用數據,挖掘數據的潛在價值。
一個完整的數據挖掘過程通常包括:數據準備、數據預處理、建模、模型評估、模型應用等 5部分。其中,建模和模型評估是數據挖掘過程的核心,前者集合數據挖掘的實現方法,通過針對不同類別的數據和目標采取合適的挖掘方法,從而得到目標數據;后者是對模型是否適合、有效的評估過程。
數據挖掘技術主要用于關聯分析、聚類分析、趨勢和行為預測、概念描述和偏差檢查。針對這五類問題,數據挖掘技術都有成功的案例和成熟的解決方案,它們可以為解決電子政務中的相似問題提供參考。
數據挖掘技術是多種計算機技術的集合,需要針對不同的應用選擇合適的解決方案,還要根據方案實際運行情況進行模型修正和測試。對數據挖掘工具的應用,要有清晰的方向,不可漫無目的隨意應用,也不可不分領域地采用單一模式應用。目前數據挖掘技術在我國電子政務的應用主要有以下幾個方面:
政府公共服務信息網為社會大眾提供了圍繞著以“在線服務、政務公開、網上互動”為主體的服務,用戶可根據自身需求選擇不同的服務及欄目。網站可以記錄每位訪問者的瀏覽內容,并利用數據挖掘工具從中找出潛在的規律,從而指導網站欄目改善其設置、優化界面及提高維護效果。該應用屬于數據挖掘技術中的相關性分組或關聯規則,用于反映一個事件和其他事件之間關聯知識或依賴關系。當兩項或多項屬性之間存在關聯,就認為其中一項的屬性值可以依據其他屬性值進行預測和分析。
電子信息資源庫集中存儲了各職能部門在其長期工作中積累下來的各類專業性數據,這些數據是社會政治、經濟、文化等多方面的運行指標,有極高的挖掘價值。利用傳統的信息管理系統只能對其進行一些基礎的應用,如查詢、統計等,無法進行深層次的價值挖掘。運用數據挖掘技術,政府部門可以有針對性地選擇數據挖掘的方向,在一定高度上對數據進行統籌考慮,給出戰略性的指導方針,保證各部門進行的數據挖掘與整體的數據挖掘規劃保持一致性。從而合理、適度的運用數據挖掘技術,做到因需求而挖掘,而非為挖掘而挖掘。利用數據挖掘技術對信息庫的挖掘可以實現某些社會指標的預測和估算,為政府提供決策支持。如對各種經濟數據的挖掘,能確定某些未來的經濟走勢,幫助政府制定相應的宏觀調控政策;對各項社會指標的挖掘能預測社會的運行趨勢,幫助政府制定服務政策;對各行業運行數據的挖掘,使政府可以更合理地分配人力、物力,協調政府資源分配,優化社會資源組合。
政府辦公網是以各個行政辦公局域網為載體,運行著政府的各類指令傳遞、行動執行、文件傳輸等方面任務的面向政府決策運營的電子政務系統。由于辦公網承載大量政府行政運營數據,利用數據挖掘技術,可幫助政府深入了解其機構運行狀況,實現主管部門對政府機構工作流程的優化和監督。
數據挖掘技術具有全新的信息分析模式,能從科學決策、精細管理、優化服務等方面為電子政務提供幫助,潛在價值無限,對我國的電子政務發展而言是重大的發展機遇。但也應看到數據挖掘的應用存在一定的風險,它的實施有較高的資金和技術門檻,實際收益也有不確定性,并且會面臨數據的可用性、人才的可得性、分析的可靠性、系統的安全性和投入的經濟性等方面的挑戰。在數據挖掘的應用過程中需要把握的風險主要有以下幾方面:
對比傳統數據處理方式,數據挖掘的應用在數據采集、存儲、分析等方面的成本較高。這就要求有關部門在推行數據挖掘項目時要科學測算其總成本和邊際成本,根據實際需求確定合適的數據采集范圍和數據處理深度,不要盲目追求項目的“高、大、上”,而要更多的追求項目的高回報率。
由于單一的數據來源可能存在各種錯誤和誤差,所以在進行數據采集時要進行多源采集,把多部門的數據進行比對、驗證,提高數據可靠性,從而提高數據挖掘應用的效率和效果。
在數據挖掘、分析過程中,可能會由于一些新興的、復雜的或不成熟的分析模型的應用造成誤判,導致決策失誤,帶來重大損失。所以,很多重大決策的制定不能單一依賴數據挖掘的分析結果,還要依靠其他工具的輔助和領導者自身的判斷力。
數據的大規模集中會給數據安全與隱私保護方面帶來更多問題。需要在數據中心建立時從技術和管理等方面加強防范,嚴格控制數據的使用權限。
數據的來源是分散的,然而數據挖掘的應用和產生的價值往往比較集中,帶來的收益的分配和歸屬問題可能會成為爭議的焦點。這就要求各部門之間要進行充分的溝通,對權益和責任進行詳細劃分,遇到分歧時需要主管部門公平、公正的進行處理。
數據挖掘系統的應用和維護,數據的分析,模型的建立、測試等方面都需要大量高素質人才,這就需要政府在引進人才和培養人才的方式上打破常規,招攬和培養既熟悉政務,又精通計算機相關理論和應用的復合型人才,為電子政務數據挖掘應用提供支撐。
數據挖掘技術具有開發周期長、應用技術復雜等特點。開發人員應在系統開發初期同行政管理人員共同做好需求分析,盡量選擇較成熟的模型和經過市場檢驗的產品;在電子政務中的應用是循序漸進的,不能盲目求大,應理性地考慮投入產出比,從國家、政府和人民的利益出發,切實地將數據挖掘技術的應用落到實處。■
[1]常盛,劉勁節,房輝.數據挖掘技術在電子政務建設中的實施思路[J].辦公自動化,2010(8):14-16.
[2]王昭.數據挖掘在電子政務中的應用[J].河北聯合大學學報(自然科學版),2013(2):78-79.
[3]錢蒙翔.數據挖掘在電子政務中的應用研究[J].江蘇科技信息,2008(11):33-35.