趙谞博,韓 麗
(秦皇島港股份有限公司,河北 秦皇島 066002)
基于OLAP的秦皇島港口煤炭生產數據分析及可視化應用
趙谞博,韓 麗
(秦皇島港股份有限公司,河北 秦皇島 066002)
從秦皇島港的基礎數據出發,運用OLAP數據分析技術,通過維度建模的方式構建了港口船舶、堆場、設備、費收、客戶等煤炭生產主題數據倉庫模型,使用時間序列指數平滑預測對數據進行預處理,基于OLAP體系結構,對模型中的數據抽取、轉換和加載給出了詳細分析與設計,針對所選主題設計和實現了OLAP多維分析功能,實現對煤炭生產數據的多角度、多側面、多層次綜合分析,完成港口煤炭生產數據可視化應用體系建設,為港口管理者提供可靠、直觀的有效數據支撐。
秦皇島港;OLAP;生產數據分析;可視化
隨著世界經濟一體化進程的日益深入,港口作為重要的交通樞紐和現代物流中心的核心節點,隨著數據量的不斷累積,巨大的數據量與數據分析滯后帶來的問題日益突出。由于港口業務數據具有海量、高維、網絡化及地理相關等數據特性,目前秦皇島港存在不具備對煤炭數據的綜合能力、缺乏對歷史煤炭數據的分析和預測、查詢結果缺乏分析能力、缺乏動態的數據集成功能、缺乏決策支持功能等眾多數據分析問題。如何借助OLAP等數據分析工具,挖掘繁雜分散數據源中隱含的信息,根據數據的分布找出規律,并根據此規律進行分析決策,為貨主、港口企業、監管部門、港口行政管理部門以及社會其他部門之間提供大量有價值的信息,為各級管理層科學的決策提供數據和理論支持,對港口的生產發展具有重要意義。因此,秦皇島港構建港口煤炭生產數據的OLAP分析和可視化平臺勢在必行。
從國內外港口企業信息化和OLAP技術的發展來看,OLAP分析技術和港口信息化程度都發展的比較成熟,綜合運用到港口企業日常生產中能夠發揮重要的作用。港口信息化程度可以有效的為OLAP分析提供數據支持,二者相互配合能夠全面提高港口的數字化、信息化、科學化程度。本文旨在構建煤炭主題數據倉庫結構,使其適合OLAP分析技術的應用要求,并設計基于煤炭生產數據的OLAP分析及可視化系統。首先,建立數據倉庫星型模型,滿足OLAP對多維數據集的需求:分析數據特點確定相應的主題域,以秦皇島港現有數據為基礎,建立數據倉庫結構模型。然后,設計煤炭生產系統數據倉庫,對煤炭生產數據進行OLAP分析,并通過時間序列指數平滑預測算法,用于預測秦皇島港吞吐量等信息的處理,以得到可信度較高的預測值;引入頻繁模式挖掘Apriori算法,用于挖掘秦皇島港生產業務中各個數據字段之間的關聯關系,并根據算法先驗性質對原有的基本算法進行優化分析。最后,重點論述煤炭生產數據可視化應用過程。通過上述研究有效提高港口煤炭生產數據的綜合運用能力,分析挖掘出數據背后的隱含信息,找到生產發展的有效突破點,滿足港口企業生產和決策需求。
數據挖掘是從海量的信息中發掘有效的、潛在的、未知的、有價值信息的過程。數據挖掘技術不斷發展,為港口煤炭生產數據管理中存在的分析和挖掘功能缺乏的問題提供了解決方法。將數據挖掘技術應用到港口的生產和決策,通過大量的數據發現其中隱含的與企業生產發展有關的信息知識,已經成為研究熱點。
秦皇島港煤炭生產數據中蘊含大量有價值的信息。面對繁雜又分散的數據資源,一般的信息處理方法,如報表統計、指標查詢等無法挖掘出數據的隱含信息。將數據挖掘技術應用于秦皇島港的煤炭生產數據管理中,有效分析和挖掘數據中的隱含信息,提高數據利用率,通過有效的數據管理方法挖掘出港口煤炭生產數據之間的各種關系,挖掘的結果能夠指導秦皇島港乃至環渤海區域煤炭業務的發展,使得秦皇島港更好地把握煤炭業務經營狀況,更客觀地對煤炭業務做出決策,對提升港口的核心競爭能力具有非常重要的意義。
概念模型設計就是需求分析,確定數據倉庫建立所需的數據源,建立容易理解的數據模型,有效地完成用戶查詢和數據之間的映射,涉及到數據倉庫使用者所提出的決策問題。數據倉庫的概念模型是面向秦皇島港煤炭業務而建立的,它為集成來自各個子公司煤炭系統的數據提供統一的概念視圖,概念模型的設計是在較高的抽象層次上的設計。首先,要完整而清晰的認識到秦皇島港現有煤炭生產數據庫中的數據內容,然后,通過建立數據倉庫將原有煤炭生產數據庫系統中的數據進行集成、重組,進而組成新的數據集合,同時要充分調研企業管理者和決策者對煤炭生產數據分析的需求,以此確定系統邊界和定義主題域來反映數據倉庫的概念模型。
本節采用維度建模的方式,建立符合OLAP要求的數據倉庫模型。以星型模型為主,雪花模型為輔,根據港口船舶、堆場、設備、費收、客戶等煤炭生產主題數據倉庫建立數據倉庫模型。針對以上不同的星型或雪花模型的設計,延伸不同業務主題分析,主要分為設備與煤炭生產、堆場與煤炭生產,船舶管理數據,船舶與費收等主題。本節采取星型模型和雪花模型的混合物,實現方式是:數據集是星型架構的一部分,以促進數據提取及分析,并利用雪花模型的中間層,以減少數據冗余度。根據以上業務主題所設計數據模型,由于主題眾多,本節以設備與煤炭生產主題為例,設計結果如圖1所示。

圖1 設備星型模型圖
在對煤炭生產系統進行OLAP分析之前,需要進行數據預處理,以符合OLAP分析要求。為了更好的對原始港口數據進行預處理,本節通過基于時間序列指數平滑預測算法完成數據處理ETL過程,將處理后的數據轉換裝載到數據倉庫中。針對港口設備維修的花費周期、港口設備初期中期成本計算和堆存量的預測等業務采用了指數平滑預測,通過相關實際數和預測值,用指數加權的方法進行了預測。
(1)概念模型設計。對于設備與煤炭生產主題,經過分 析,構成為事實表度量值的是故障時間和工作時間,以上度量值是通過維度表中的維修記錄中的維修時間和工作記錄維表中的工作和檢查時間決定的,經過分析,得出設備主題描述,見表1。

表1 設備主題描述
(2)邏輯模型設計。設備與煤炭生產主題數據倉庫包含了多個多維數據集,并且多維數據集是基于以維表和事實表為基礎的數據模型。經過分析,設計時間維,設備維,堆場維,維修記錄維,工作記錄維等五個維度表,見表2。

表2 維層次表
關于事實表,構成為事實表度量值的是故障時間和工作時間,這兩個度量值是通過維度表中維修記錄中的維修時間和工作記錄維表中工作和檢查時間決定的,通過從數據倉庫查詢出的數據計算得到的故障時間和工作時間。通過關聯規則算法對已有數據進行強關聯規則篩選,得到頻繁項目集,并通過函數進行記錄,對頻繁項目集進行操作,選出具有強關聯規則的兩部分,并找出其中的關聯。例如可以找出季節和煤炭發往地的關系,找出在規定閾值以上的季節和煤炭發往地之間的強關聯規則。業務分析員可以在系統界面選擇要篩選的字段,通過后臺的運行和篩選得出結論反饋到系統界面。
維度表成員設計和事實表度量值的設計如下:
時間維(Time):成員有年、季節、月、日期;層次是以年、季節、月、日期的順序構成時間維的層次結構。
設備維(Equipment):成員有設備名稱、設備型號、設備備注。
維修維(Repair):成員有維修總時間、組織停工時間、發生故障部位、維修所耗費用。
工作時間維(Worktime):成員有啟動前檢查時間、具體運行時間。
堆場維(Yard):成員有堆場名稱、堆場責任人姓名。維度表的成員確定后,在事實表中要確定度量值,也就是本文使用數據倉庫中數據進行分析時的對象,在設備與煤炭生產的數據倉庫中,設置停工總時間、工作總時間作為度量值進行分析,通過以上步驟,完成事實表和維度表的邏輯結構設計。
(3)物理模型設計。由于篇幅所限,以時間維度為例,時間維度表包含了年-季度-月-日4個時間維度層次。時間維度是每一個多維數據集必需的。此多維數據集的唯一時間維度表見表3。

表3 時間維度表(time)
OLAP數據分析是港口各個主題與煤炭生產相關數據處理的主要方式。港口項目的核心在于數據的處理手段,本文采用基于Oracle的OLAP數據分析手段。根據之前設計的數據倉庫星型模型,建立立方體(CUBE),展示數據變化,以及對數據度量進行數值化操作。具體的步驟是:AWM(Analytic Workspace Manager)工具是Oracle 12c數據庫的科學統計分析中間件,本節利用該工具創建維度,創建CUBE(立方體),進行上卷和下鉆等操作,使用自定義的查詢語言直接訪問Analysis Service服務中的多維數據集,也可以通過工具直接對度量值和維度拖拽查詢數據,并可以通過前端展現工具滿足不同數據分析應用需求,將數據以合理的形式展現給用戶。以同比分析為例,分析系統設計界面分析如圖2所示。
基于OLAP體系結構設計數據的抽取、清洗和預計算等操作,將數據存入數據倉庫。基于OLAP技術設計分析引擎,采用維度的選擇和旋轉,任意維度的上鉆和下鉆,以及時間維的切片等操作來分析煤炭生產數據,并利用計算機圖形學和圖像處理技術把數據信息轉換為圖像信息在屏幕上顯現出來。將數據倉庫中每一個數據項作為單個圖形元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。

圖2 煤炭生產數據同比分析界面
煤炭生產數據可視化開發應用主要從不同的數據層次挖掘數據信息的潛在價值,發現數據之美。通過以可視化交互的方式,從不同的層次維度,對數據分析鉆取結果進行有效、直觀的展現。本節從煤炭生產數據中的客戶關系可視化設計角度出發,闡述煤炭生產數據可視化應用實現方式。通過從公司、委托人、煤種、時間等不同的層次維度,對數據分析鉆取并以可視交互的形式展現趨勢、同比、環比等數據分析結果,從而實現不同的層次維度基點上可視化分析鉆取展現。以火車調入數據信息為例,通過利用大數據分析技術,所得到的分析結果如圖3所示。
(1)煤炭從中國中煤能源股份有限公司(專)的調進量比較穩定,從五月份開始煤炭調進量有增加趨勢,之后又趨于平穩。
(2)點擊調進噸數降序排序,從中煤平朔集團有限公司調進的煤炭量在五月份最高。
綜上,通過煤炭生產數據可視化開發應用,將大數據、數據挖掘等先進的信息技術運用到港口煤炭生產數據可視化管理中,有效分析和挖掘煤炭數據中的隱含信息,將業務趨勢、相關性、同期比、環比等指標以可視化效果展現,將數據的潛在價值轉化為生產動能,為港口優化生產組織、挖潛增效提供新的突破口與增長點。

圖3 客戶關系管理數據分析界面
本文在對秦皇島港煤炭生產業務詳細調研分析的基礎上,對煤炭生產數據進行可視化分析,針對煤炭業務設計不同主題,建立星型模型為主的數據倉庫;設計OLAP分析系統,應用到煤炭生產業務主題中的各方面,處理港口煤炭主題數據倉庫中的龐雜數據,包括建立數據CUBE(立方體),便于用戶進行鉆取、下鉆等OLAP基本操作;利用AWM分析中間件對CUBE(立方體)進行可視化顯示;通過時間序列指數平滑預測算法對數據進行預處理,用于預測秦皇島港吞吐量等信息的處理,并得到可信度較高的預測值;引入頻繁模式挖掘Apriori算法挖掘煤炭業務中各數據字段之間的關聯關系;最后以火車調入數據信息為例,闡述了煤炭生產業務可視化應用開發思路。港口生產數據業務分析及可視化應用利用數據挖掘方法對秦皇島港的煤炭業務數據進行分析,為港口的決策者提供科學,準確的決策支持,帶動港口業務水平的提高,有助于發現隱含的煤炭業務之間的相關性,通過挖掘煤炭業務與其他業務之間的關聯,有效提高秦皇島港煤炭業務的經濟效益。
[1]侯貴賓.港口煤炭生產管理可視化集成平臺[J].港口科技,2013,(8):59-60.
[2]蘇俊鵬.基于聚類和關聯規則的港口生產數據挖掘研究[D].北京:北京交通大學,2014,29-40.
[3]劉洋.基于數據采集的設備管控系統在港口的應用[J].港口科技,2015,(11):46-48.
OLAP-based Analysis and Visual Application of Coal Production Data at Qinhuangdao Port
Zhao Xubo,Han Li
(Qinhuangdao Port Co.,Ltd.,Qinhuangdao 066002,China)
In this paper,starting with the fundamental data of the Qinhuangdao port,we used the OLAP process to build the data library model for such involved subjects of the port as vessels,storage yards,equipment,charges and customers,etc.,used the time series exponential smoothing forecasting to pre-treat the data in advance,and then based on the OLAP architecture,analyzed and designed in detail the extraction,conversion and loading of the data in the model.In this way,we designed and realized the OLAP multi-dimensional analytic function for the subjects chosen,rendered the coal production data available for multi-perspective,multi-faceted and multi-layered analysis and accomplished the construction of the port coal production data visualized application system.
Qinhuangdao port;OLAP;production data analysis;visualization
F253.9;F407.21
A
1005-152X(2017)09-0171-04
10.3969/j.issn.1005-152X.2017.09.039
2017-08-10
趙谞博(1979-),男,河北張家口人,高級工程師,碩士,主要研究方向:港口企業物流信息化等。