隨著各類信息系統與數據庫的建立,在過去若干年的時間里都積累了海量的、不同形式存儲的各類數據。這些數據十分繁雜,僅僅依靠目前數據庫的查詢檢索機制和數據處理方法,已經遠遠不能滿足現實的需要。數據中隱藏的深層次的豐富資源沒有得到充分地發掘和利用。人們迫切地需求把數據變成知識,把知識變成決策,把決策變成利潤(財富)。使之有效地在管理和決策中發揮作用,是急需解決的問題。而且,隨著信息化的不斷深入發展,信息資源開發利用,已成為當前信息化的核心任務之一。那么如何開發信息資源? 在新技術環境下有什么工具和方法呢?本文簡單地介紹幾種基于數據庫信息資源開發的新技術,以起到拋磚引玉的作用。
1 數據倉庫技術
傳統數據庫系統作為數據管理手段,從它的誕生開始,就主要用于事務處理。經過數十年的發展,在這些數據庫中已保存了大量的日常業務數據。對這些數據僅僅進行簡單的統計報表、檢索查詢類的淺層面處理已經遠遠不能滿足需要,必須把分析型數據從事務處理環境中提取出來。按照決策支持系統處理的需要進行重新組織,建立單獨的分析處理環境。數據倉庫正是為了構建這種新的分析處理環境,而出現的一種高度集中的數據存儲和組織技術。數據倉庫的數據來源于其它數據庫,并非取消原有數據庫,它的目標是為各種不同的決策提供更全面、更有效的數據支持。
數據倉庫是支持管理決策過程、面向主題、集成的、穩定的時變的數據集合。它將大量用于事務處理的傳統數據庫進行數據的清理、抽取和轉換,并按決策主題的需要進行重新組織。數據倉庫的邏輯結構可分為近期基本數據層、歷史數據層和綜合數據層,其中綜合數據是為決策服務的。數據倉庫中數據的物理存儲形式,有多維數據庫組織形式和基于關系數據庫組織形式兩種。前者的數據組織以空間超立方體形式存在,后者由關系型事實表和維表組成。這種高度集中的數據為各種不同決策需求提供了有用的分析基礎和有效的支持平臺。
2 聯機分析處理(OLAP)技術
聯機分析處理(OLAP),是在聯機事務處理(OLTP)基礎上發展起來的一種共享多維信息的快速分析技術。這與數據庫中多維數據組織正好形成相互結合、相互補充的關系。數據倉庫側重于存儲和管理面向決策主題的數據;而OLAP則側重于數據倉庫中數據分析,并將其轉換成輔助決策信息。二者相輔相成,共同完成決策支持或滿足特定的查詢以及報表需求。
OLAP技術中比較典型的應用,是對多維數據進行交互式查詢和數據分析。 交互式操作有多種,主要包括: 切片(即根據維的限定作投影、選擇等數據庫操作),旋轉(即將表格的橫、縱坐標交換)和鉆取(即根據維的層次提升所關心的數據或降低觀察層次) 等。它便于使用者從不同角度提取有關數據,并給出數據的多維邏輯視圖。OLAP技術還能夠利用分析過程,對數據進行深入分析和加工。例如:關鍵指標數據常常用代數方程進行處理,更復雜的分析則需要建立模型進行計算。
3 決策支持系統(DSS)、專家系統(ES)
決策支持系統(DSS)是在管理信息系統(MIS)基礎上發展起來的。MIS是利用數據庫技術實現各級管理者的管理業務,在計算機上進行各種事務處理工作,DSS是要為各級管理者提供輔助決策的能力。
決策支持系統主要是以模型庫系統為主體,通過定量分析進行輔助決策。其模型庫中的模型,已經由數學模型擴大到數據處理模型及圖形模型等多種形式,可以概括為廣義模型。決策支持系統的本質是將多個廣義模型有機地組合起來,對數據庫中的數據進行處理而形成決策問題大模型。決策支持系統的輔助決策能力從運籌學、管理科學的單模型輔助決策發展到多模型綜合決策,使輔助決策能力上了一個新臺階。
20世紀90年代,決策支持系統與專家系統(ES)結合,形成了智能決策支持系統(Intelligent DSS) 。專家系統是定性分析輔助決策,它和以定量分析輔助決策的決策支持系統結合,進一步提高了輔助決策能力。智能決策,是決策支持系統發展的又一個新階段。而群決策支持系統(GDSS),則有利于克服個人決策中的主觀失誤。為提高群決策的高效率,產生了多目標決策理論、主從決策理論、協商談判系統和沖突分析等。
4 數據挖掘(DM)
數據挖掘(DM),是為解決數據量的爆炸性增長與開發利用困難的矛盾應運而生的,是用于開發信息資源的一種新的數據處理技術。數據挖掘通常又稱數據庫中的知識發現(KDD),可自動或方便地進行模式提取。數據挖掘是指從大型數據庫或數據倉庫中存儲的大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程。提取的知識一般可表示為概念、規則、規律、模式等形式。
由此可見,數據挖掘技術的特點:
(1) 數據源必須是真實的、大量的、含噪聲的。
(2) 發現的是用戶感興趣的知識。
(3) 發現的知識要可接受、可理解、可運用,最好能用自然語言表達發現結果。
(4) 并不是要求發現放之四海而皆準的知識,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明,所有發現的知識都是相對的,是有特定前提和約束條件、面向特定領域的。
(5) 挖掘的結果是潛在的、未知的、多樣性的(發現的知識可以是多種形式的) 。
(6) 挖掘方法是不確定的。數據挖掘方面沒有所謂最好的技術或通用的技術,問題不是某一種方法比另一種方法更好,而是哪一種更適合所要解決的問題。
(7) 數據挖掘支持在線數據存取。
(8) 技術的綜合性。DM從多個學科汲取營養,涉及到數據庫技術、人工智能、機器學習、神經網絡、模式識別、歸納推理、統計學等多個領域。
數據挖掘與傳統的數據倉庫、聯機分析處理(OLAP)、決策支持系統和專家系統的數據處理技術區別是:數據倉庫,側重于存儲和管理面向決策主題的數據;OLAP則側重于數據倉庫中的數據分析,并將其轉換成輔助決策信息;決策支持系統和專家系統,是定性和定量的輔助決策支持;而數據挖掘是在沒有明確假設的前提下去挖掘信息、發現知識。數據挖掘所得到的信息應具有先前未知、有效和實用三個特征。先前未知的信息是指該信息是預先未曾預料到的,即數據挖掘是要發現那些不能靠直覺發現的信息或知識,甚至是違背直覺的信息或知識,挖掘出的信息越是出乎意料,就可能越有價值。在商業應用中最典型的例子就是,美國一家連鎖店通過數據挖掘發現了小孩尿布和啤酒之間有著驚人的聯系。由此可見,數據挖掘是更深層次上的數據處理技術。
數據倉庫、OLAP、 決策支持系統和專家系統及數據挖掘共同構成基于數據庫的信息資源開發技術支撐體系。如果將上述幾項技術集成起來,可以有效地提高決策支持能力。這表現在以下幾個方面:
(1) 數據倉庫技術,實現對決策主題數據的存儲和綜合。
(2) OLAP對數據進行綜合、統計和多維分析。
(3) DM對數據庫和數據倉庫中的知識進行挖掘、發現,并利用這些有價值的知識進行預測分析輔助決策。
(4) DSS的模型庫,實現多個廣義模型的組合輔助決策。
(5) ES系統利用知識推理進行定性分析。
它們集成的綜合決策支持系統,可以相互補充、相互依賴,發揮各自的優勢,實現更為有效的決策支持。由此可見,利用基于數據庫的這些新技術,從大規模數據集合中挖掘深層信息。發現有用的知識,是新技術環境下開發利用信息資源所必須掌握的十分重要的工具。
————————————
作者簡介:劉勁松(1953-),男,現為高級工程師。主要研究方向:信息技術及其應用。