張 翼,馬 嘯
(國家管網集團貴州省管網有限公司 貴州 貴陽 550000)
為使企業更好地發展,企業在互聯網領域進行產業融合,依靠計算機技術提升企業辦事效率、方便員工工作、提高數據監管能力是大勢所趨。就目前現狀來看,大多數企業的日常運作數據都會以文件數字的形式來存儲與表達,以便與計算機系統配合,隨時調取、融合數據[1]。
本文通過了解目前企業信息數字化管理方面存在的問題和未來大方向趨勢進行需求探究,以構建一款適用于企業日常管理的日志數字化平臺的系統。通過該系統,企業員工可以有效地了解企業運轉各項數據,并從中得出數據規律,預測未來數據走向。同時,該系統還具備傳統企業管理平臺功能,方便實用。
傳統的數據庫結構組成為兩部分,分別為相互關聯的數據和對這些數據進行抓取、訪問和維護的應用、工具[2]。在這些應用和工具的加持下,便于人們管理與使用系統內的數據。傳統數據庫的建立初衷就是為了方便人們管理數據、存儲數據,目前傳統數據庫雖然能夠滿足日常企業的管理,但是隨著時代的不斷發展,信息量和數據量都呈爆炸式增長,一般的數據庫已經不能滿足目前的存儲與管理需求[3]。同時隨著新興技術的發展,傳統數據庫難以融合數據決策等前沿功能,對于數據的進一步分析需要借助聯機等其他手段。
數據倉庫是將收集到的數據信息按照存儲位置與存儲模式一一對應存儲,實現保存、調取、傳輸、共享等功能。1991年,比爾·英蒙首次提出了數據倉庫的概念,指一種能集安全性、時效性方便人們存儲數據的數據庫集。1995年,比爾·英蒙又提出了一種集多變性、可操作性的操作數據存儲技術(Operational Data Storage),對于數據庫中數據的查詢和操作皆可在這個庫中實施,并且具備根據已知數據來預測未來數據及數據趨勢的功能[4]。
2019年10月,管道設計院招募研發團隊從事WisPipeline載體平臺的迭代研發和數據服務工作,利用中臺技術使平臺始終保持良好的開放性、安全性和集成性。長慶油田總部位于陜西省西安市,是首個使用WisPipeline的商用企業項目,該團隊完成了對長慶油田的數據庫建設、三維模擬建設、報表分析、運維、安全等功能,并于2021年投入使用。該平臺上每一個管道、每一個閥門的運作實況都能真實反映,切實方便了企業的管理,提高了企業的生產效率。
數據倉庫技術可以進行數據的處理工作,對于數據倉庫的“搭建”主要步驟包含:數據源、數據倉庫和數據展示。邏輯框架架構圖見圖1[5]。其中數據源是指數據來源網站的數據管理系統,代表性的就是網站日志管理系統、網站信息發布系統等,實現的就是對數據表達的操作。而這兩部分功能需要一個點來“嫁接”,這個點就為數據倉庫。
BI英文全稱商務智能(Business Intelligence,BI),主要包含數據倉庫、數據挖掘、數據分析及數據備份等組成體。因此,BI技術不是一項新技術,而是對數據倉庫技術、數據挖掘技術、數據分析技術等的綜合運用。
BI技術是將多個技術整合,形成一個系統,其主要包含的核心技術有:
(1)數據倉庫。能高效調取OLTP型數據庫中的有效數據,通過對數據的清洗、轉換等步驟,檢查數據的一致性,并最終形成可供存儲的數據格式。
(2)數據獲取。Bi平臺的數據獲取方式主要通過ETL技術實現,對于一些異構數據,按照一定的系統規則,由數據倉庫接收數據,為數據挖掘、數據分析等部分提供有效數據。
(3)聯機分析處理(OLAP)。可利用OLAP理解、分析數據,可對數據倉庫中復雜的數據進行簡化處理,通過運算、聚合等方式處理的數據,可大大提升用戶的訪問速度。
數據的ETL指的是對數據的清洗、整理以及裝載[6]。對數據的清洗標準、整理規范和裝載能力界定一直是學術界爭議的問題。
ETL為數據倉庫技術的核心。數據的ETL主要內容包含了對數據的抽取、轉換和加載。數據的抽取就是獲取所需要的數據,步驟是針對所需的數據從不同維度不同角度在不同的系統內抽取目標數據,在這個過程中,還需針對目標數據的特性做好抽取方式方法的設計工作。數據轉換是根據已經抽取的目標數據進行定向的轉換,目的是在轉換過程中淘汰掉有爭議的、殘缺的不符合規定的相關數據,并保證得出的數據在格式上一致。數據的裝載是只對完成上述操作步驟剩余的數據按照系統規定和原本計劃加載至數據倉庫的操作,保證各個來源的數據在一起、表格互通且層級分明。
由于目前存在的各個數據倉庫構建時的需求和建成時間不盡相同,這就使各個數據倉庫的數據互不相同,各自為互相獨立的存在[7]。針對上述存在的問題,通過一定的方法將各個數據倉庫的數據源互通,再實現數據源的統一,使所有的數據都能存儲于新的數據倉庫系統中,這就是OLAP技術。對于最基本的聯機即可傳輸的數據,其工作量是十分巨大的。OLAP技術可以滿足對這些龐雜數據的分析需求,并給使用者給予數據的統計分析結果,以可視化圖表更加直觀地展示給用戶。
OLAP技術可以對復雜的數據進行處理,使其整合,并能夠完成對多維度數據的共享,把多維度的數據以可交互的方式存儲和調取,并且使得數據具有延展性,使數據管理者能通過系統對數據進行進一步的分析,并以直觀的方式展現給受眾,用戶可以根據分析的結果做出相應的決策,大大便捷其后續工作。通過對不同存儲系統內的數據進行聯系分析,對多維度的數據進行合并、融匯,實現了對多維度數據的全方位分析。OLAP 3層體系架構圖見圖2。
阿米蒂奇等[8]在1993年第1次提出了在客戶交易數據集之間存在的關系,這種關系是關聯規則挖掘問題。關聯規則主要是在頻繁項集和遞歸思想這兩個重要概念來實現的。關聯規則可以發現不同時間段的數據在不同時間存在的關系。在一個數據庫中可以依靠支持度和置信度來發掘該數據庫各個數據區域或者數據之間的聯系。通過關聯規則還能發現數據數值高于之前設定的標準的接近該標準的數據區域和項目之間的分布情況與分布規律。
Apriori關聯規則算法主要有兩步:第1步為迭代,通過多次對目標數據庫進行搜索,找出數據庫中高于設定標準的這些項目和集合,這些項目和集合就是高于標準的頻繁項目和集合。第2步為構造規則,對迭代出的頻繁項目和集合進行構造,找出滿足需求的最低標準規則[9]。
現代社會,隨著計算機的普及和網絡技術的不斷發展,各個企業對于網站的建設都很重視,企業網站是企業展示其形象、幫助內外部運轉的重要工具。但是企業網站普遍更新慢,大多數中小企業存在信息發布慢、發布信息覆蓋面小的問題,這就需要對企業內部的各類數據進行綜合統計,使得管理人員對網站的信息掌握透徹,讓管理人員充分了解各個環節的工作狀況,方便企業各級人員查詢數據。針對系統設計數據查詢功能。
目前市面上大多數企業數據管理系統只能滿足用戶數據的存儲與查詢等功能,雖然能夠滿足日常辦公,但是面對日益發展的社會與不斷增強的數據壓力,傳統系統已無法滿足當下需求。各個企業網站系統經過多年的發展,已經積累了大量數據,通過對這些數據的分析研究,可以掌握企業發展的方向和趨勢,可以掌握企業各個層面數據的動態。針對系統設計數據智能分析功能、預測功能。
Bi數字化平臺功能涵蓋了4個模塊,分別是數據收集、數據審查、報表制作以及數據生成,在B/S架構的基礎上把Bi數字化平臺工作和數據統計聯系起來,實現集成統計口徑、自動數據接口、共享數據公布、互聯網報送報表等,整體過程中數據信息均為自動化處理。
Bi數字化平臺設計理念參考了云計算,服務架構包含4層,分別是Iaas、Daas、Paas以及Saas。數據采集遇到短時間大量操作請求時很容易引起數據庫無法讀寫的問題,而對象存儲以及一步序列化模式則很好地彌補了這一缺陷,同時搭配大數據處理方式,使得平臺數據處理與分析更快、更高效。
(1)Saas(軟件即服務)層,搭配基礎服務平臺向用戶提供其所需的功能,例如:數據獲取、數據監控以及信息發布等。
(2)Paas(平臺即服務)層作為開放、可擴展、成熟的應用系統,大部分的應用模塊都可根據實際的業務需要,通過快速配置即可完成,同時具備良好的可擴展性。分為元數據管理平臺、信息采集平臺、信息交換平臺、數據處理服務平臺、地理信息服務平臺、門戶支撐平臺這6大基礎服務平臺。
(3)Daas(數據即服務)層數據層作為整個系統的信息存儲層,這里主要存儲信息包括:元數據、企業名錄庫、共享數據、私有數據以及應用信息庫(用戶權限信息、系統配置信息、日志信息等)。
(4)Iaas(設備即服務)層利用服務器、存儲設備、網絡設備等硬件設施,同時配合操作系統、虛擬化管理軟件、數據庫、網絡管理系統為整個項目的部署、運行提供高效可控的硬件設施服務。
Web日志、本地數據庫和Bi專報數據是可用于企業數據分析的主要信息。跟Web日志數據不同,Bi專報和現有數據庫數據格式相對固定,數據來源及其完整性較好。所以,可以將Bi專報和現有數據庫通過SQL Server導出,隨后進行后續的分析工作。對于Web數據則需要對訪問的日志進行采集,并對其格式做規范化處理,隨后進行后續分析工作。
初步提取到的原始數據不具備數據分析的需求,需要對這些數據做以下處理。
(1)數據清洗。從網上和數據庫中取得的數據并不是都能直接參與數據分析的,有的數據甚至會對今后要進行的數據分析起到不利影響,又被稱作噪聲數據,這些數據對數據分析的結果影響是十分巨大的。
(2)數據格式轉換。在網頁數據里有大量的用戶訪問信息,這些信息包含了用戶訪問的時間信息和地址信息等,十分龐雜,有些字段通過間隔或者空格符號進行分隔,是不能滿足數據分析過程需求的。所以,對這類數據進行格式轉換是十分必要的環節。
(3)數據填補。為了滿足SQL Server DTS工具對格式的要求,就要對經過正則表達式的無效記錄進行訪問,并且對有用的字段進行提取和重組,使得其格式符合要求。
首先將滿足條件格式的數據文件導入至數據倉庫中,再對這些數據進行重組,隨即形成多維度的數據集合,這是數據分析層的重要工作。隨后對參數進行設定,開始數據挖掘和數據分析,最終以數據集合的方式產生數據分析結論,并存儲于數據庫中以備展示。
多維建模聚合分析。鉆探,能夠有效地幫助用戶從多個層面、不同角度對數據進行深層次的分析,從某一個角度對數據進行切片,即多維度分析,對每個維度中都選擇固定數值。旋轉即對數據立方體進行坐標旋轉,得出新的數據集合立方體。
關聯規則分析。通過對日志的挖掘分析,可以發現在不同數據之間存在的關系,發現不同數據之間的關聯關系,還要針對不同數據之間的關系進行發掘。SQL Server中自帶關聯規則挖掘算法。其操作步驟見圖3。
本文以國家管網集團貴州省管網企業數字化管理平臺實際運營經驗為依托,對多功能智能化的企業Bi數字化平臺進行了全面概述,無論系統架構設計還是細節功能實現,企業Bi數字化平臺其核心便是數據采集、加工、分析。只有掌握更為先進的數據管理才能保證平臺架構的先進性,在未來的研究中,數據分析方法的改進會成為研究重點,挖掘更先進的算法才有利于數據的迭代與更新。