孫 衛,蔡金華,王 珩,鐘 智,張會軍,高 元
(1.華能瀾滄江水電股份有限公司,云南 昆明 650214;2.南京南瑞繼保工程技術有限公司,江蘇 南京 211002;3.西安熱工研究院有限公司,陜西 西安 710054)
數據中心的客戶越來越多,所涉及的過程也越來越多,范圍也越來越廣,報表數據具有廣泛的、分散的、利用率低的特點,容易造成數據浪費。這樣的環境下,每天報表的工作就變得耗時又費力。隨著客戶規模不斷擴大,報表數據上報也因為機構層級變多而出現嚴重的報表延遲現象,與此同時,針對上一級決策部門的管理,受到復雜報表信息影響,無法為企業提供詳細依據。而且,受到不同部門報表不一致工作統計口徑影響,針對相同部分的報表填寫工作,會出現填報信息重復輸入的問題[1]。因此,設計一個分析系統來分析報表是非常必要的。楊志等[2]提出的電力數據報表模型,通過使用智能化生成技術,可將報表分為數據報表和屬性報表兩種形式,基于此,構造智能報表分析模型,并從報表動態分析角度分析模型可塑性,實現報表數據的交互共享;肖美玲[3]提出的基于納稅評估視角的財務報表分析方法,從稅收評價的角度出發,構建一種基于稅收理論的財務報表案例分析模型,并將其引入到財務報表分析系統中,確定了企業風險管理分析指標。然而,上述這兩種方法很難實現信息的共享、相互集成和互操作,造成報表分析的效率低下。為此,本文提出了基于智能信息流的智能報表分析系統研究。
基于智能信息流的智能報表分析系統,基本框架結構如圖1 所示。由圖1 可知,體系結構主要分為三大部分,第一部分是接口的設計。用戶通過接口界面,可以實現登錄、管理用戶日志、用戶權限、連接數據庫等操作;第二部分是報表展現。其主要包括操作日志的控制、用戶所需數據源的獲取、數據權限的控制,報表展現還具有行列變換、自動列擴展、報表鉆取等功能;第三部分是報表的配置,該部分是決定報表質量高低的關鍵部分。其中包含報表條件、輔助功能、頁面布局等信息,報表的實現界面部分與外部權限系統形成了完整的信息集成界面。報表配置特性是基礎配置信息,使用統一的API,方便管理。

圖1 基于智能信息流的智能報表分析系統基本框架結構Fig.1 Basic framework of intelligent report analysis system based on intelligent information flow
以BI 為基礎的報表工具將商業智能系統和報表系統完美地結合起來,提高了處理大量信息的工作效率。圖2 中顯示了基于 BI商業智能信息流的報表分析工具結構。
由圖2 可知,商業智能平臺的監控模塊實時監控用戶的請求,當監控到請求時,查看請求的具體內容,該內容通常包含需求和數據,然后將請求內容提交給數據處理模塊,再由數據處理模塊對請求數據進行分析與處理。將處理結果傳遞給備份模塊,在備份的同時對請求的數據進行分析,并傳送到報表顯示部分,為用戶提供所需的數據。該工具主要負責完成對報表的需求分析,并將分析結果傳遞到數據需求部分,該部分使用商業智能統計模塊,統計后將結果返回報告系統予以顯示。

圖2 基于BI商業智能信息流的報表分析工具結構Fig.2 Report analysis tool structure based on BI business intelligence information flow
決策子系統采用基于數理統計的數學方法對運維工單的處理進行分析,并由此確定某一道工序工單處理效率以及詳細步驟。運用BI技術,對運維管理過程的時效性行為進行了深入分析,以幫助決策者根據市場信息制定業務策略。根據特定的操作和人員情況,協助數據中心做出適當的決策,以提高運營管理效率。
數據庫設計包括實體設計、關系設計和標準化設計,數據結構根據每個實體的具體情況,對各實體描述的不同字段進行識別和定義。通過對系統功能和未來使用情況的分析,確定各個實體的類型、長度等字段信息。在設計每個庫表時,需要考慮需求中無法識別和定義的字段,例如記錄ID 號、創建時間和最近的更新時間。每個實體并不是獨立存在的,必須或多或少地與其他實體相關。對應用系統中大量的數據處理,通過編寫大量的存儲過程來實現數據的采集和操作,可以很好地改善數據庫的性能,從而提高應用系統的整體性能。
針對報表數據處理過程中出現的復雜問題,采用 BI技術作為處理工具,能夠對數據庫進行聯機分析、數據挖掘、數據處理等步驟,并從不同的數據源中提取數據,對這些數據進行抽取、清洗、整理、歸集,以保證數據的有效性[4]。數據轉換和重構操作后,在數據庫中存儲數據,同時利用管理分析工具及時處理數據,將系統中已有的數據轉化成決策信息,為企業決策提供智能決策工具。
以商業系統統計為基礎,通過對“數據、信息、知識、行為、利益”的處理過程,將 BI 商業智能處理技術的信息整合為有序的信息。圖3 顯示了基于BI 商業智能信息流的報表數據整合過程。
由圖3 可知,將商業智能系統的工作流程進行技術抽象處理,實現了智能化信息流報表數據的整合。整合過程是對不同來源數據進行統一采集、整理、清洗和轉換的,能夠為用戶提供統一視覺界面。在對數據進行整合之后,通過數據集成與共享,將一個數據源和另一個源的數據匹配起來,并直接寫到數據庫中。

圖3 基于BI商業智能信息流的報表數據整合過程Fig.3 Report data integration process based on BI business intelligence information flow
整合數據后進行數據導入,通過數據網格平臺在導入模塊導入數據時,需要進行數據導入控制。由于每個網格平臺導入的數據可能有所不同,所以需要一些基本的導入數據作為引流,及時剔除不需要導入的數據,避免出現數據重復導入現象出現[5]。
通過使用 XML 技術,網格平臺很容易地控制這些信息,為了控制導入的網格節點數據,系統管理員可以方便地編輯 XML文件來控制信息元數據。網格數據導入時序,如圖4所示。

圖4 數據導入時序Fig.4 Data import timing
從圖4 中可以看出,數據導入時序包括用戶、網格數據導入、網格資源創建和用戶方位控制四個部分,對這四個部分的網格平臺導入數據詳細過程為:
步驟一:用戶首先選擇導入數據,然后再進行數據導入;
步驟二:將用戶請求發送到導入模塊后,向網格資源創建模塊發送訪問請求;
步驟三:通過用戶訪問控制模塊獲得輸入數據的權限,通過訪問網格資源列表得到需要導入網格平臺的節點信息元數據;
步驟四:在收到網格平臺節點資源信息后,訪問網格數據請求模塊,獲取網格節點信息;
步驟五:收到數據導入請求后,網格資源創建模塊為用戶創建一個多線程更新數據庫實例,然后為每個網格節點創建數據請求實例,通過調用數據請求實例,將各個網格節點的必要信息導入到中心備份服務器;
步驟六:所有導入中心備份服務器的信息,都需通過網格數據格式轉換模塊轉換為統一格式;
步驟七:數據導入過程中,網格數據導入模塊利用數據導入監控技術對各個網格節點的數據導入過程進行監控,讓用戶了解數據導入的詳細過程,用戶還可以在導入數據時臨時添加新的網格節點來導入新的數據。
應用 BI在線分析處理技術是一種支持復雜決策、信息管理決策的分析技術,具有多維數據結構屬性,是事實數據表用于描述數據分類的有效依據。
2.2.1 報表格式遷移
對于報表信息的處理,部分數據庫相對簡單,不提供自定義功能,不容易更改報表的內容,也不會對報表進行簡單的提取。為了解決這些問題,使用區域全面地遷移報告格式的模式,就沒有必要添加更多的復雜步驟[6]。因此,設計了以下遷移途徑:分析原有報表結構,獲取詳細報表查詢SQL 語句,將所需的數據提取到報表上后,重新創建報表,并使所有數據整合到一個報表中。
基于已有系統的實際情況,生成了報告遷移的總體模型圖,見圖5。由圖5 可知,構造報告遷移模板,在該模板中預先定義關鍵元素,依據該元素生成新的報表后,通過如下步驟實現報表格式遷移:載入XML 文件格式的RDL 模板文件;更新以報表形式存在的各種XML文件,在該文件中填入行或列的報告字段,并將其他相關報告存儲在XML文件中。重新命名文件已經更新或修改的XML 文件,將RDL 作為主要節點(參數)的XML路徑,由此遷移的報表合理性較強。

圖5 報表遷移總體模型圖Fig.5 Report migration overall model diagram
2.2.2 統計決策模式識別
從單元格中選取多維數據集,使與數據集相關聯的每個維度信息都具有唯一的邏輯交集。對于遷移后的報表格式,需進行模式識別。基于BI 商業智能信息流的多維數據集統計決策度量值,指的是多維數據集中一列或多列數值。統計決策模式識別是智能報表決策分析的關鍵環節,能夠為用戶直接從數據庫中挑選所需的數據。
統計決策模式識別的步驟如下所示:
步驟一:通過度量距離定義相似度;
步驟二:相似度指的是在同一閾值下,使統計決策模式具有一定相似性;
步驟三:將多種訓練樣本點組成相似區域,并由此確定各個決策子區域;
步驟四:用點距離作為樣本相似度的依據,該值越小,說明兩個樣本越相似。相似度的度量不僅局限于距離函數,如果報表是扇形圖案類,則可以將兩個夾角的余弦定義為相似函數。
兩矢量夾角之間余弦可表示為:

式中:a、c表示模式空間點;T表示統計決策周期。
使模式空間的3 個點作為度量樣本,并對各維度進行歸一化處理后,將如下距離函數作為判斷條件:

結合式(2)可知,基于BI 商業智能信息流的多維數據集是由度量值、級別和組織單元組成,并不是每個單元的數據集都只包含一個數據值,沒有數據值的數據集也可以有交集,即為空集。空集也經常出現在多維數據集中,對于每個交集,并非在都記錄在數據庫中。基于此,統計決策模式的精準識別能夠智能化的分析報表。
對于基于智能信息流的智能報表分析系統研究,采用Java語言,后臺使用代碼語言、Eclipse 作為開發工具。通過使用工具系統自動生成的報表,具有多種不同的報表格式。實驗平臺的實現要求頁面的改變不會影響表示層邏輯的開發,并盡可能減少嵌入頁面程序的Java 代碼,這樣,應用程序表示層的開發、更新和維護就可以快速實現。將Servlet 和JSP 技術結合在一起,使用JSP顯示內容,用Servlet處理數據來產生動態內容。
圖6顯示了實驗平臺示意圖。通過圖6可以看出,向Servlet控制器發送數據請求。通過Servlet 創建JSP 邏輯,該邏輯僅進行簡單檢索,將由Servlet 創建的構造注入預定義模板,并最終返回給用戶。

圖6 實驗平臺示意圖Fig.6 Schematic diagram of experimental platform
以水電廠為例,搭建了融合各類傳感器采集數據、系統日志、監控告警等多源數據的整合分析展示,如圖7所示。其中:

圖7 水電廠智能報表數據模型Fig.7 Intelligent report data model of hydropower plant
(1)基礎級數據通過時間維度上的匯總和統計分析,輸出常量概覽數據、運行日狀態數據、小時狀態數據、實時狀態數據、原始數據等,為智能水電廠提供基于基礎數據的日常運維管理支撐[7,8]。
(2)特征級數據是分析系統,對基礎數據進行統計分析,提取出有規律性、時效性、和價值性的結論數據,可以反映出水電廠設備運行健康狀況等。
(3)決策級數據是在基礎級和特征級數據的基礎上,通過故障診斷、特性辨識、設備評價、數據挖掘等方法,提取出支撐水電廠運行管理人員日常決策的關鍵數據。
設計的基于智能信息流的智能報表分析系統,能夠提供統一的統計口徑和指標解釋,使全公司數據統一,給分析人員一種啟發式多維分析方法,讓分析人員可以將數據進行任意組合。使用該系統打破了以往分析方法只能依靠固定報告分析的固定模式,使分析結果更容易地通過數據分析來發現數據中心運作中的問題,并使分析人員的工作更具有創造性。