吳有旭
(福州大學 空間信息工程研究中心,福建 福州 350001)
決策支持系統(Decision Support System)是以日常業務處理系統的數據為基礎,利用數學或智能的方法,對數據進行分析、綜合、預測未來業務的變化趨勢。所謂“決策”,就其本質來說,就是決策者根據所掌握的信息為對象選擇行為的思維過程。而“支持”,顧名思義,就是作為輔助手段,為決策人員提供決策幫助,讓決策人員更容易地作出正確的決策。
自70年代決策支持系統(DSS)被人們提出以來,DSS已經得到了很大發展。DSS通過分析數據,能夠直觀的為決策者提供分析結果,為決策者制訂下一階段的工作重點及方向提供幫助。實現DSS的關鍵不在信息收集與更新的過程,而在于信息的有效提取并加以分析。決策分析通常都需要從不同角度觀察分析數據,即DSS需要為決策者提供多側面、全方位信息。在DSS系統中,分析數據這一重要功能是由數據挖掘所實現的,數據挖掘幫助決策者一步步地進行數據分析,從而找出事物的內在規律,為決策服務,因此在DSS系統中,數據挖掘的實現過程是非常重要的。
數據挖掘(DM)的概念可以被簡單地描述為:按既定的目標,對大量的數據進行探索和分析,揭示隱藏的、未知的規律性,并將其模型化。數據挖掘也可以稱為數據庫中的知識發現(Knowledge Discovery in Database,KDD)。一般在科研領域中稱為KDD,而在工程應用領域則稱為DM。
數據挖掘是從大量的、不完全的、有噪聲的、模糊的和隨機的原始數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它可以從各類數據庫或數據倉庫中提取隱藏的預測性信息;它能開采出潛在的模式,找出最有價值的信息,指導業務行為或決策。數據挖掘主要有以下4個功能。
(1)自動預測趨勢和行為。數據挖掘能自動在各型數據庫中尋找預測性信息,分析出發展趨勢。原先需要進行大量人工分析的問題,如今在數據挖掘工具的幫助下,可以迅速直接由數據本身得出結論。
(2)聚類。數據挖掘過程中,將數據庫中的記錄可劃分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。
(3)關聯分析。若兩個或多個字段的取值之問存在某種規律性,就被稱為關聯。關聯分析的目的是找出數據庫中各類數據隱藏的關系網。典型的例子就是人員的各類信息通過姓名或身份證號等字段關聯。
(4)概念描述。概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述主要分為特征性描述和區別性描述,特征性描述的是某類對象的共同特征,區別性描述的是小同類對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。
在一個關系型查詢處理能用不同的處理途徑對同一查詢生成相同的答案,但對于一個數據倉庫或數據集合,采用不同的數據挖掘工具可能會生成顯著不同的挖掘結果,因此采用何種的數據挖掘工具是非常重要的。數據挖掘的具體實現過程,是有很多方法,遺傳算法、歸納法、決策樹方法、神經網絡、相關分析、模糊邏輯、統計分析和可視化技術等等都能應用在數據挖掘的實現過程中。而在解決實際問題時,下面幾種數據挖掘手段是使用較多的,在某一具體應用中選定合適的數據挖掘手段是必須熟悉應用問題、數據特征以及數據挖掘功能,必要時需要執行交互探索式分析來選擇合適的功能,所以這些手段往往交替使用以挖掘更多的信息:預測模型、數據庫分析、鏈元分析和編差檢測。
(1)預測模型。在決策分析系統中往往使用演繹推理,而在數據挖掘過程中使用歸納推理。
(2)數據庫分析。把數據庫自動劃分為聚類(簇),實現數據挖掘的聚類功能。
(3)鏈元分析?;趯M向關聯和順序關聯的發現,對記錄間聯接進行確證,實現其數據關聯的功能。
(4)偏差檢測。對記錄不能被歸入到特定格元現象的解釋。
(1)數據挖掘通常都進行數據的長期趨勢分析。公安部門開展信息化建設時間相對較早,因此在過去若干年的時間里積累了海量的、以不同形式儲存的業務資料,例如戶籍資料,機動車資料等。傳統的公安數據庫系統為了獲得更大的工作效率,在每項業務上存儲的數據量并不會很多,但為了保證數據的有效,通常都進行長時間的歷史數據存儲,這使得我們在數據挖掘時可以進行數據長期趨勢的分析。
(2)數據挖掘通常是基于公安數據倉庫。由于公安信息化建設程度較高,在很多地方都建成有綜合性的數據倉庫。各類信息源由原始數據庫經過各種方式,實時或定期的集成到公安數據倉庫;數據挖掘過程中一般是以公安數據倉庫為中心,通過模型庫和方法庫的協助,對公安數據倉庫進行數據挖掘,從而獲得分析預測結果和決策支持的。
(3)數據挖掘過程更專注于核心的處理分析階段?,F有的公安信息化建設水平數據大大降低了公安數據挖掘的障礙。一般進行數據挖掘要花大量的力量在數據準備階段,而在公安行業中,由于大多都已建有數據倉庫,各類數據已經被充分收集起來了,進行了整理、合并,有些還進行了初步的分析處理。這樣,數據挖掘的注意力更集中于公安數據挖掘的核心處理階段。
(4)數據挖掘關聯分析準確度高。數據挖掘一個重要的方式就是通過鏈元分析的手段實現數據關聯的功能,在公安的各類業務數據中,因為公安業務的特殊性,在辦理業務時,業務辦理人員通常都需要提供能唯一確定業務的重要字段信息,此類重要字段在人員業務中,通常都是身份證號。因此當采用此類重要字段信息來尋找各種記錄間的規律性時,那么各類數據間的聯系程度通常比較緊密,關聯分析的準確度也比較高。
對公安部門而言,其中一項重要的職能是打擊犯罪。如何準確地了解轄區內犯罪特點,如何合理地部署警力以遏制各類案件發生,這些問題是公安部門在實際工作所關注的。因此在實際工作中,數據挖掘的應用場景就包含:通過數據挖掘工具對案事件類的業務數據,進行案發時間、地點、作案手段等多個維度的分析,發現其中潛在的特點,為下一階段的工作安排提供決策支持,更好地發揮公安部門打擊犯罪的職能作用。
總之,數據挖掘工具及方法的多樣性需要決策者謹慎地選擇模型和流程類型。這些工具或方法并不會制作數據流程或者系統,它們僅僅是綜合關系技術和流程中的一部分。數據挖掘作用的發揮也要依賴于各類數據的采集及其準確性,以及完整的數據決策系統的建立,特別是數據倉庫系統的建立。對于應用挖掘工具處理數據后所產生的結論,也要得到業務專家的確認。相信正確地運用數據挖掘技術會使公安的各類信息數據發揮更大的作用,實現信息指導警務的工作模式,真正提高公安信息化應用水平。