王 軍
(西安外事學院, 陜西 西安 710077)
大多數(shù)數(shù)據(jù)管理方法會區(qū)分數(shù)據(jù)、信息和知識。數(shù)據(jù)具體是真理和事實在數(shù)學上的集合,是某種形式的陳述,而沒有任何解釋;信息是具有上下文的數(shù)據(jù),顯示某個特定實體的運動和操作,當數(shù)據(jù)傳遞明確的變化時,它就成為了信息;知識是第三種形式,本質(zhì)上是有經(jīng)驗的分析者所掌握的信息,傳達可能發(fā)生的事情。
一般來說,為了將數(shù)據(jù)轉(zhuǎn)換為信息,必須指定一組明確的數(shù)據(jù)作為影響業(yè)務的數(shù)據(jù),然后是收集相關數(shù)據(jù)的清晰和規(guī)則的方法,并加入某種形式的分析轉(zhuǎn)換數(shù)據(jù)的能力。將信息變?yōu)橹R是一個更為模糊的領域,主要受分析師的技能和公司需求的影響。一些商業(yè)知識直接來自信息,例如基于可靠制造數(shù)據(jù)的生產(chǎn)方法是直接從收集的信息中分支出來的一種知識類型,知識提供公司制定可靠政策的運營基礎。數(shù)據(jù)管理系統(tǒng)是指要實現(xiàn)三種類型轉(zhuǎn)換所涉及的結構、方法和策略。
元數(shù)據(jù)最常被定義為“關于數(shù)據(jù)的數(shù)據(jù)”,并且對于創(chuàng)建數(shù)據(jù)管理方法至關重要,在其基本形式中,元數(shù)據(jù)是放置在數(shù)據(jù)上的標簽和類別,以便于分析。在公司的數(shù)據(jù)治理系統(tǒng)中,元數(shù)據(jù)用于對可用數(shù)據(jù)進行分類和控制。分析師需要通過元數(shù)據(jù)收集的信息來選擇并操作大型數(shù)據(jù)組,這些元數(shù)據(jù)包括文件類型、名稱、時間戳、物理和電子位置、所有者以及訪問權限,這些都是文件系統(tǒng)中常見的元數(shù)據(jù)類型[1]。
數(shù)據(jù)由原始事實構成,如客戶姓名和地址,信息是以這樣一種方式組織的事實集合,它具有超越事實本身的更多價值。例如,客戶名稱和購買數(shù)據(jù)庫可能提供有關公司市場人口統(tǒng)計信息、銷售趨勢和客戶忠誠度/營業(yè)額的信息,將數(shù)據(jù)轉(zhuǎn)化為信息是一個過程或一組邏輯上相關的任務,以達到預定的結果。定義各種數(shù)據(jù)之間關系的過程需要知識,知識是用于選擇,組織和操作數(shù)據(jù)以使其適用于特定任務的身體或規(guī)則、準則和程序,因此通過應用知識可以將信息視為更有用的數(shù)據(jù)。
數(shù)據(jù)處理是指對一組數(shù)據(jù)或數(shù)據(jù)庫執(zhí)行特定操作的過程,數(shù)據(jù)庫是事實和信息的有組織的集合,例如員工、庫存、客戶和潛在客戶的記錄,存在多種形式的數(shù)據(jù)處理,并為業(yè)務環(huán)境中的各種應用提供服務。
數(shù)據(jù)處理主要在信息系統(tǒng)上進行,這是一個涵蓋計算機系統(tǒng)和相關設備的廣泛概念,信息系統(tǒng)的核心是輸入、處理和輸出。另外,信息系統(tǒng)提供了從輸出到輸入的反饋,輸入機制(例如鍵盤、掃描儀、麥克風或相機)收集并捕獲原始數(shù)據(jù),可以是手動或自動的,處理也可以手動或自動完成,涉及將數(shù)據(jù)轉(zhuǎn)換為有用的輸出,輸出通常采用報告和文檔的形式,利用反饋對信息系統(tǒng)的輸入和處理階段進行必要的調(diào)整[2]。
處理階段管理層可以對數(shù)據(jù)施加最大的控制,管理層也可以從數(shù)據(jù)中獲得最大的價值。基本活動包括用于管理的最常見的處理程序,例如將數(shù)字分組到相關組中、匯總、計算比率、繪制圖表和制作表格,這些處理活動的目標是將大量事實轉(zhuǎn)化為有意義的信息塊,然后將其用于知情決策、公司戰(zhàn)略和其他管理功能。
一個優(yōu)秀的數(shù)據(jù)管理系統(tǒng)應該具備這樣幾種能力,包括:1)自動監(jiān)控來自所有辦公室或數(shù)據(jù)中心的傳入數(shù)據(jù)的能力;2)跟蹤數(shù)據(jù)標準和組織隨時間變化的能力,以更好地理解所提供數(shù)據(jù)的準確性和可用性;3)能夠整合其他系統(tǒng)的數(shù)據(jù),并處理數(shù)據(jù)或數(shù)據(jù)組織中的突然變化;4)提供一個穩(wěn)定可靠的平臺來進行數(shù)據(jù)決策的能力。
數(shù)據(jù)組織對于最優(yōu)使用數(shù)據(jù)至關重要,以反映業(yè)務運營和實踐的方式組織數(shù)據(jù)非常重要,主要考慮內(nèi)容、訪問、邏輯結構和實體組織。內(nèi)容是指將要收集的數(shù)據(jù);訪問是指適當時提供數(shù)據(jù)的用戶;邏輯結構指的是如何排列數(shù)據(jù);物理結構指的是數(shù)據(jù)的位置。映射或圖表是數(shù)據(jù)庫設計人員用來顯示數(shù)據(jù)之間邏輯關系的一種工具,是數(shù)據(jù)模型,因此,數(shù)據(jù)建模需要了解商業(yè)實踐以及需要什么樣的數(shù)據(jù)和信息。
大多數(shù)數(shù)據(jù)庫中關系的結構遵循三種邏輯數(shù)據(jù)庫模型之一:層次結構、網(wǎng)絡和關系。層次數(shù)據(jù)庫模型是將數(shù)據(jù)按照自頂向下或倒置樹狀結構進行組織的模型;網(wǎng)絡模型是分層數(shù)據(jù)庫模型的擴展網(wǎng)絡模型,具有所有者成員關系,其中成員可以擁有多個所有者,而不是一對多關系;關系模型使用標準表格格式來描述數(shù)據(jù),所有的數(shù)據(jù)元素被放置在稱為“關系”的二維表格中,數(shù)據(jù)查詢和操作可以通過給定特定標準的列或行進行。
數(shù)據(jù)庫管理系統(tǒng)(DBMS)是一組用作數(shù)據(jù)庫與應用程序之間接口的程序。DBMS根據(jù)它們支持的數(shù)據(jù)庫模型的類型進行分類,例如,關系DBMS將遵循關系模型,DBMS的功能包括數(shù)據(jù)存儲和檢索、數(shù)據(jù)庫修改、數(shù)據(jù)操作和報告生成[3]。
數(shù)據(jù)定義語言(DDL)是一組指令和命令,用于定義和描述特定數(shù)據(jù)庫中的數(shù)據(jù)和數(shù)據(jù)關系。文件描述、區(qū)域描述、記錄描述和設置描述是DDL定義和使用的術語。
數(shù)據(jù)字典對數(shù)據(jù)庫管理也很重要,這是數(shù)據(jù)庫中結構和預期內(nèi)容的詳細描述。例如,數(shù)據(jù)字典可能會指定每種類型字段中允許的最大字符數(shù),以及字段內(nèi)容是否可以包含數(shù)字、字母或特殊格式的內(nèi)容(如日期或貨幣)。數(shù)據(jù)字典用于提供術語和數(shù)據(jù)元素的標準定義,幫助程序員設計和編寫程序,簡化數(shù)據(jù)庫修改,減少數(shù)據(jù)冗余,提高數(shù)據(jù)可靠性并減少程序開發(fā)時間。
典型的DBMS的選擇通常是幾個考慮因素的函數(shù)。經(jīng)濟成本考慮因素包括軟件購置成本、維護成本、硬件購置成本、數(shù)據(jù)庫創(chuàng)建和轉(zhuǎn)換成本、人員成本、培訓成本和運營成本。大多數(shù)DBMS供應商正在將他們的產(chǎn)品與文本編輯器和瀏覽器、報告生成器、列表實用程序、通信軟件、數(shù)據(jù)輸入和顯示功能以及圖形設計工具相結合,因此,尋找整個設計系統(tǒng)的人有很多選擇。
數(shù)據(jù)倉庫涉及從主計算機獲取數(shù)據(jù)進行分析,而不會減慢主計算機的速度。以這種方式,數(shù)據(jù)被存儲在另一個數(shù)據(jù)庫中,用于分析趨勢和新的關系,因此,數(shù)據(jù)倉庫不是實時的活動的系統(tǒng),而是每天或每周更新一次。