崔有文, 周金海
(南京中醫藥大學 信息技術學院,江蘇 南京 210023)
基于Pentaho的中藥飲片企業商業智能研究
崔有文, 周金海
(南京中醫藥大學 信息技術學院,江蘇 南京 210023)
將中藥飲片企業ERP、質量標準生產執行系統(QSMES)等業務系統與商業智能平臺集成,構建基于Pentaho的商業智能解決方案,實現對企業內外部的海量數據進行深度地剖析,為中藥飲片企業提供決策支持.本文基于Pentaho的商業智能解決方案構建了面向中藥飲片企業的數據倉庫,實現了數據的多維查詢.Pentaho商業智能的關鍵技術推廣應用于中藥飲片企業,將能有效地提升企業決策水平.
中藥飲片企業;商業智能;Pentaho;數據倉庫;聯機分析處理
在企業信息化的進程中,中藥飲片企業相繼建立了獨立的業務系統,如ERP、中藥飲片質量標準生產執行系統(QSMES)等,積累了大量的業務數據和信息資源,然而各業務系統中的數據常常會出現彼此獨立甚至矛盾等情況,如何充分有效地利用企業的這些信息資源來實現戰略目標,已成為中藥飲片企業面臨的嶄新課題.因此引入商業智能的關鍵技術幫助中藥飲片企業制定適合于企業自身的解決方案,成為了提升了中藥飲片企業信息化應用水平的必然之選.
商業智能(Business Intelligence, BI)是一套完整的解決方案,它將數據倉庫、聯機分析處理、數據挖掘等技術結合起來,通過企業信息門戶將知識以適當的方式進行展示,以實現技術服務于決策的目的[1].傳統的BI項目投入費用高,實施周期長,短期內管理者很難看到這類項目的業務價值,且不少傳統BI項目的應用價值僅僅停留在固定報表生成層面.而開源的Pentaho BI實施費用低,維護成本低,管理者能夠迅速啟動BI項目的實施工作,實施周期可以靈活控制,且Pentaho易于融入到傳統的OLTP應用中.基于Pentaho的商業智能能夠充分利用中藥飲片企業各類的業務系統,從業務系統的數據源中抽取需要的數據,通過對這些基礎數據的轉換處理,實現商業信息的搜集、管理和分析,為企業決策者提供全面、準確和直觀的決策支持.
Pentaho平臺是第一個以業務流程為中心,面向解決方案的BI平臺,整合了BI系統的開發,部署和運行環境.它強化了BI應用,借助工作流技術,將決策作為業務的一個環節,實現與企業業務過程整合的概念[2].
Pentaho的功能強大,對BI的功能全面支持,包括數據倉庫,ETL,OLAP,數據挖掘等技術;提供流程設計,報表生成,測試和部署的集成開發環境;易與其他開源軟件整合,源碼公開,有利于功能定制開發[3].
Pentaho平臺主要由以下幾個部分組成,各部分來自各個開源項目,Pentaho平臺對這些開源項目進行改進、擴充和集成:
1)ETL:Kettle[4]是和Pentaho整合的開源ETL工具, Kettle通過制定作業(job)以及轉換(transformation)實現對數據的抽取、轉換以及加載,Kettle的ETL引擎是異構數據源整合以及執行job和transformation的核心,且可以運行在不同的服務器以及集群服務器上.
2)報表設計:Pentaho平臺支持多種開源報表設計,包括即席查詢(Ad Hoc Query)報表設計、JFreeReport設計以及BIRT報表設計.
3)OLAP:Mondrian是Pentaho平臺進行聯機分析處理的引擎,可將多維模型的MDX(multi-dimensional expressions)查詢解析成SQL查詢.分析人員可以不寫代碼直接對數據倉庫中的數據進行可視化交互分析.
4)數據挖掘:Weka是Pentaho的數據挖掘平臺,集合大量能夠承擔數據挖掘任務的機器學習算法,包括對數據進行預處理、分類、回歸、聚類、關聯規則以及在新的交互式界面上的可視化.
2.1 中藥飲片企業BI平臺體系結構
在中藥飲片企業ERP系統、質量標準生產執行系統等基礎上構建Pentaho BI平臺來實現系統集成,使企業各業務系統有一個合理、嚴格的流程控制,有效地完成日常的業務作業,產生大量準確的基礎數據,同時可以將這些操作型數據轉換成分析型數據,并通過對分析型數據進一步的分析、提煉,篩選出決策信息,輔助中藥飲片企業決策者做出正確的決策,促進中藥飲片企業對信息的深度利用.
基于Pentaho的中藥飲片企業BI平臺體系結構主要由企業的各業務系統、業務數據庫、數據轉換工具、數據倉庫、OLAP分析工具、數據挖掘工具、報表分析工具以及分析結果的可視化展示組成如圖1所示.
如圖1所示,用戶根據業務需求構建多維數據模型,設計數據倉庫結構框架.通過ETL工具將各業務系統中的海量數據轉換為分析型數據,加載至數據倉庫中.利用OLAP和數據挖掘技術對數據倉庫中的數據進行分析處理.分析和處理的結果可以直接提供給用戶,也可以形成決策知識庫,并通過報表等可視化方式直觀地展現給用戶.

圖1 中藥飲片企業BI平臺體系結構圖Fig. 1 Structure diagram of Chinese medicine enterprise BI platform
2.2 數據倉庫設計
數據倉庫是面向主題的、集成的、穩定的、隨時間不斷變化的數據集合,用以支持經營管理中的決策制定過程[5],數據倉庫模型設計結構的實現有星型模型、雪花模型和混合模型,本文研究采用的數據倉庫模型為星型模型,該模型主要事由事實表以及與其相關的維度表構成,可以優化數據倉庫的查詢時間,提高查詢性能.
1)主題域的確定
主題是在較高層次上將企業信息系統中的數據進行綜合歸類的標準,數據倉庫中的數據是按照主題進行組織的.從中藥飲片企業的實際業務運作情況看,可以將主題域確定為:中藥飲片生產、中藥飲片銷售、原料采購、原料和飲片成品庫存等主題.各主題主要信息描述如表1所示.

表1 主題信息描述表Tab.1 Description table of theme information
2)數據倉庫各主題域維度及事實的確定
數據倉庫中每個主題域對應的實體分成事實實體和維度實體,事實實體通過每一維的關鍵字與維度實體聯系在一起.本文根據主題域的設計,構建了中藥飲片生產事實表、中藥飲片銷售事實表、原料采購事實表和庫存事實表,依據主題域的屬性構建了與事實表關聯的維度表.數據倉庫各事實表和維度表的詳細信息如表2所示.
3)Kettle的ETL處理
設計好數據倉庫之后,需要將中藥飲片企業各業務系統中的數據按照設計好的主題域加載至數據倉庫中形成分析型數據.這一過程基于Kettle的ETL處理.首先,制定對各主題域數據操作的Job(作業).Job[6]是基于工作流模型的,協調數據源、執行過程和相關依賴性的ETL活動,圖2為數據倉庫構建的Job(作業)流程圖.

表2 事實與維度信息描述表Tab.2 Description table of fact and dimension information

圖2 數據倉庫構建Job流程圖Fig. 2 Flow diagram of data warehouse job
制定完作業流程,還需要進一步對每個主題域進行Transformation(轉換)操作,Transformation[6]是由一系列step(步驟)組成的邏輯工作網絡,它負責對分散在不同數據源中的數據進行抽取、轉換、加載處理.圖3為銷售主題域數據的轉換圖.

圖3 銷售數據Transformation流程圖Fig. 3 Flow diagram of sale data transformation
通過以上的作業(Job)和轉換(Transformation)操作,可以快速、準確地將中藥飲片企業各業務系統的操作型數據轉換為分析型數據并存儲至數據倉庫中.
2.3 OLAP分析
OLAP是面向主題的多維數據分析技術,幫助管理者從多個角度觀察數據,從不同的主題分析數據,最終直觀地得到有效的信息.在一個OLAP數據模型中,信息被抽象視為一個立方體(Cube),它包括維(Dimension)和度量(Measure).這個多維的數據模型使終端用戶提交的復雜查詢、報表數據的分類排列、概要數據向詳細數據的轉化和過濾、數據的切片等工作變得簡單[7].
1)數據立方體的建立
數據立方體或數據超立方體是聯機分析處理數據組織的基本單元.一個數據立方體主要是由主題域所確定的事實和維度所組成,其包含若干個單元格.以中藥飲片企業銷售主題域為例,銷售數據立方體包含中藥飲片成品、銷售客戶、日期3個維度以及銷售事實.如圖4所示.

圖4 中藥飲片成品銷售數據立方體Fig. 4 Cube of Chinese Medicine sale data
Pentaho的Mondrian提供了OLAP服務,數據立方體用Mondrian XML schema描述, schema是將MDX查詢轉換為SQL查詢的關鍵.Mondrian通過對schema的解析,操縱數據集,完成OLAP分析任務.銷售數據立方體模型對應的簡化了的schema如下:


各主題域數據立方體所對應的schema是由Pentaho schema 設計器完成,生成的schema可以直接發布至Mondrian服務器上進行OLAP分析.
2)多維分析
Saiku是一個模塊化的進行聯機分析處理的分析套件,基于JackRabbit的工作區管理,通過JSON或XML進行數據通信,提供了一個基于jQuery的開發前臺,對于多維的數據立方體能夠實現拖拽式分析.Saiku可以方便地集成到Pentaho平臺中.
在嵌入了Saiku的Pentaho平臺下,用戶選擇好由Pentaho schema 設計器所制定的數據立方體,即可以對基于主題域的數據立方體進行拖拽式的多維分析處理.中藥飲片成品銷售數據的多維查詢結果如圖5所示.

圖5 中藥飲片成品銷售數據多維查詢圖Fig. 5 Diagram of Chinese medicine sale data multi-dimension query
通過對中藥飲片成品的時間、客戶和產品的多維分析,可以得出不同時間段、針對不同客戶所銷售各種中藥飲片成品的一般性結論.隨著中藥飲片企業各業務數據的積累,這種多維分析還將發現更多隱含的信息,可以幫助企業決策獲得更好的支持.
中藥飲片企業在生產、銷售等各項業務進程中均會產生海量的業務數據,傳統的業務系統無法對基礎數據進行有效的分析,導致大量對企業決策有用的信息流失.基于Pentaho的商業智能解決方案可以將獨立于各自業務系統中的數據有效地整合起來,通過對企業ERP系統、質量標準生產執行系統(QSMES)等業務系統的基礎數據進行抽取、轉換、加載處理,最終形成分析型數據,從中提煉出決策信息.于此同時,傳統的商業智能實施起來成本高,周期長,很難在短期內實現其業務價值,而開源的Pentaho BI 平臺不僅大大減少了商業智能的開發成本,還能夠使決策者快速、及時、準確、直觀地了解到隱藏在企業各項運營業務中的決策信息,實現中藥飲片企業對信息的深度利用,提升決策水平.
[1] 鄭洪源,周良. 商業智能解決方案的研究與應用[J].計算機應用研究,2005(9):92-94. ZHENG Hong-yuan, ZHOU Liang.Research and Application of Business Intelligence Scheme[J].Application Research of Computers,2005(9):92-94.
[2] Pentaho Corporation. Pentaho open source business intelligence platform technical white paper [EB/OL].http://www.pentaho. com/,2006.
[3] 陳榮鑫,付永鋼,陳維斌. 基于Pentaho的商業智能系統[J].計算機工程與設計,2008(9):2407-2409. CHEN Rong-xin,FU Yong-gang,CHEN Wei-bin.Business intelligence system based on Pentaho[J].Computer Engineering and Design, 2008(9):2407-2409.
[4] Pentaho Corporation. Kettle conceptual model [EB/OL]. http:// www.pentaho.com/,2006.
[5] 顏石專,李戰懷. 基于數據倉庫和OLAP的商務決策系統[J].微電子學與計算機,2006(2):64-67. YAN Shi-zhuan, LI Zhan-huai. Commercial Decision System Based on Data Warehouse and OLAP[J]. Microelectronics & Computer, 2006(2):64-67.
[6] Matt Casters, Roland Bouman, Jos Van Dongen. Pentaho Kettle Solutions: Building Open Source Etl Solution with Pentaho Data Integration[M].JOHN WILEY & SONS INC,2010.
[7] 喻鋼,周定康. 聯機分析處理(OLAP)技術的研究[J].計算機應用,2001(11):80-81,84. YU Gang,ZHOU DIN-kang.Research of OLAP technology[J]. Computer Applications, 2001(11):80-81,84.
Research on Chinese medicine enterprise business intelligence based on Pentaho
CUI You-wen, ZHOU Jin-hai
(Institute of Information Technology, Nanjing University of Chinese Medicine, Nanjing 210023, China)
Integrating Chinese Medicine enterprise business system such as ERP, QSMES with the Business Intelligence platform and structuring the Business Intelligence solution based on Pentaho to analyze the enterprise big data and provide the support to the decision maker. Based on Pentaho BI solution, this paper attempts to build the data warehouse about the Chinese Medicine enterprise and execute multidimensional queries. Application of the critical technology of Pentaho BI to Chinese Medicine enterprise will improve their decision-making effectively.
chinese medicine enterprise; business intelligence; pentaho; data warehouse; OLAP
TN-9
A
1674-6236(2014)07-0012-04
2013-09-05稿件編號:201309034
江蘇省科技支撐項目(工業部分)(BE2011012)
崔有文(1990-),男,江蘇儀征人,碩士研究生.研究方向:醫藥信息工程.