摘 要信息技術的快速發展不但極大的提高了卷煙生產企業的效率,而且積累了大量的結構化數據和非結構化數據,如何讓這些數據發揮應用的價值,是構建智能卷煙工廠面臨的一個問題,本文著重探討了如何去利用這些數據,為卷煙工業企業的科學決策提供支撐。
【關鍵詞】數據倉庫 智能工廠 Hadoop
隨著信息技術快速發展,各項應用系統不斷應用在卷煙工業企業的各個領域。信息技術的運用,提高了卷煙企業的工作效率,但是也帶來了問題,各個應用系統之間部署平臺不一致、采用的數據庫不一樣等都造成了信息孤島的存在,使數據可應用性差。同時,隨著生產、管理、物流等數據的日積月累,以及Internet帶來的大量Web數據,如何對這些數據進行處理分析,是企業面臨的難點。企業想要充分對數據進行挖掘,讓其發揮價值,就必須解決以下兩個問題:
(1)解決信息孤島的問題,讓跨平臺跨數據庫的數據集成在一起,為特定主題分析提供支撐;
(2)解決如何分析Internet帶來的非結構化數據,以及如何處理大規模數據的問題;
1 現有技術介紹
當今解決企業數據分析采用的傳統技術有數據倉庫,針對大數據的解決方案常見的有Hadoop,本節主要介紹數據倉庫技術和Hadoop技術。
1.1 數據倉庫介紹
“數據倉庫”概念最早由Bill.Inmom在1991年提出,其定義為“一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策”。
數據倉庫的建立目的不是取代數據庫,而是在一個較全面和完善的信息應用的基礎上用于支持高層決策分析。從定義中可以看出數據倉庫有以下四個特點:
(1)數據倉庫是面向主題的;操作型數據庫的數據組織面向事務處理任務,而數據倉庫中的數據是按照一定的主題域進行組織。
(2)數據倉庫是集成的,數據倉庫的數據有來自于分析的操作型數據,將所需數據從原來的數據中抽取出來,統一與綜合之后才能進入數據倉庫。
(3)數據倉庫的數據相對穩定,它反映從原有分散的數據源中抽取出來,進入數據倉庫之前的數據要經過加工與集成、統一和綜合。
(4)數據倉庫是隨著時間而變化的,傳統關系型數據庫系統比較適合處理格式化數據,能夠較好滿足商業商務處理的需求。穩定的數據以只讀格式保存,且不隨時間改變。
1.2 Hadoop介紹
Hadoop是由Apache基金會所開發的分布式基礎架構,是一個開發和運行處理大規模數據的軟件平臺,可以實現大量計算機組成的集群對海量數據進行分布式計算。Hadoop框架中最核心的設計:HDFS和Mapreduce。
1.2.1 HDFS
HDFS(Hadoop Distributed File System)是Hadoop分布式文件系統,是一個具有高度容錯性的系統,適合部署在廉價機器上,能提供給具有高吞吐量的數據訪問,非常適合大規模數據集上的應用。
1.2.2 MapReduce
MapReduce是一種編程模型,用于大規模數據集的并行計算,其主要思想包括Map(映射)和Reduce(歸約)。其用途非常廣泛,包括文檔聚類、機器學習、基于統計的奇跡翻譯、Web日志分析等等。提供的主要功能包括數據劃分和計算任務調度;數據/代碼互定位;系統優化;出錯檢測和恢復等。
2 大數據下卷煙工業企業數據倉庫解決方法
隨著卷煙企業信息化程度的不斷提高,各項應用系統的數量隨之增加,帶來的是大量的數據,而這些數據存儲在不同的平臺,不同的數據庫中,如何解決大量數據的分析能力,為決策提供支撐,是今后卷煙企業所要面臨和亟待解決的問題。
(1)針對傳統數據,利用數據倉庫的方法來解決數據孤立的問題,通過數據抽取、轉化的方式來構建數據倉庫,具體解決模型見圖1。
(2)針對含有非結構化的主題解決模型,充分理由Hadoop的優勢,來解決大數據、非結構化數據帶來的問題,如從Internet上爬蟲的Web數據,全國各地的營銷數據等,其重要思路是利用HDFS來存儲大批量數據及結果化數據,利用MapReduce來進行數據分析任務的計算,為企業決策提供支撐,如圖2所示。
3 結語
智能化工廠是煙草工業企業十三五的目標,而要實現目標就要充分的讓數據發揮其價值。本文針對現有卷煙工業企業在利用數據上存在的問題,即信息孤島以及如何處理大數據,進行了簡要分析,并提出了解決思路。
參考文獻
[1]W.H.Inmon.Building the data warehouse[M].Wiley Publishing,2005.
[2]崔杰.李陶深.蘭紅星.基于Hadoop的海量數據存儲平臺設計與開發[J].計算機研究與發展,2012(49):12-18.
[3]查禮.基于Hadoop的大數據計算技術[J].科研信息技術與應用,2012(03):26-33.
[4]蘇新寧.數據倉庫和數據挖掘[M].北京:清華大學出版社,2006.
[5]張寧.數據倉庫中ETL技術研究[J].計算機工程與應用,2002,38(24):213-216.
作者簡介
衛倩平,男(漢族),河北省邢臺市人。研究生學歷。主要研究領域系統應用、數據挖掘。
作者單位
陜西中煙工業有限責任公司旬陽卷煙廠 陜西省旬陽縣 725700