
摘要:商務(wù)智能通過分析大量數(shù)據(jù)與信息產(chǎn)生對企業(yè)管理決策
有用的知識,對于企業(yè)有著重要意義。但是數(shù)據(jù)與信息的不斷集中與膨脹對計算機的存儲和處理能力提出了挑戰(zhàn),因此內(nèi)存計算和列存儲技術(shù)逐漸興起并在實際中得到應(yīng)用。本文簡單介紹內(nèi)存計算和列存儲的概念,并結(jié)合商務(wù)智能分析這兩種技術(shù)所帶來的影響以及使用中需要注意的問題。
關(guān)鍵詞:內(nèi)存計算 列存儲 商務(wù)智能
1 內(nèi)存計算概述
在2011年SAP“全球技術(shù)研發(fā)者大會”上,“內(nèi)存計算”這一名詞突然出現(xiàn)在我們的視野中,引起了廣泛的關(guān)注。SAP高調(diào)的推廣與宣傳,使很多人誤以為內(nèi)存計算是由其提出的。其實不然,內(nèi)存計算的概念很早就被提出,并且一直有人在研究。除了SAP的內(nèi)存技術(shù)外,相關(guān)產(chǎn)品還有sqllite、Altibase、eXtremeDB等。
所謂內(nèi)存計算,就是使用內(nèi)存數(shù)據(jù)庫將大量的數(shù)據(jù)直接裝載到內(nèi)存中,并進行計算。內(nèi)存計算技術(shù)大大減少了從硬盤讀寫數(shù)據(jù)的時間,從而使計算速度更快。內(nèi)存計算技術(shù)融合了硬件與軟件技術(shù)創(chuàng)新。硬件創(chuàng)新包括具有多核架構(gòu)和以TB計的內(nèi)存容量的刀片服務(wù)器,可實現(xiàn)大規(guī)模并行擴展。軟件創(chuàng)新包括內(nèi)存數(shù)據(jù)庫,它采用了為最大限度發(fā)揮內(nèi)存計算技術(shù)的潛力而專門設(shè)計的行、列存儲,并行處理在數(shù)據(jù)庫層進行,而不是我們所熟知的客戶端-服務(wù)器架構(gòu)中的應(yīng)用程序?qū)印J褂脙?nèi)存計算,在理想狀態(tài)下可以使數(shù)據(jù)處理速度提高1000倍以上。例如,農(nóng)夫山泉一個銷售表就有上億條記錄,原本系統(tǒng)計算一次運費就要一天的時間,但使用了內(nèi)存計算技術(shù)后,可以做到數(shù)據(jù)的實時觀測。內(nèi)存計算對于內(nèi)存的開銷比傳統(tǒng)方式大得多,但是隨著內(nèi)存價格的不斷下降,使該技術(shù)的廣泛應(yīng)用成為可能。
使用內(nèi)存計算需要注意以下問題:①可靠性。由于內(nèi)存數(shù)據(jù)庫所有的數(shù)據(jù)都放在內(nèi)存中,所以各種原因所引起的服務(wù)器宕機造成的損失要遠遠超過傳統(tǒng)的數(shù)據(jù)庫。為了防止數(shù)據(jù)的丟失,在系統(tǒng)運行時要做好日志記錄,在每次數(shù)據(jù)提交時,將日志更新到硬盤,以便出現(xiàn)數(shù)據(jù)丟失時能及時恢復(fù)。同時保證電源的持續(xù)供應(yīng)和做好散熱工作。②臨時內(nèi)存的清理。在內(nèi)存計算會產(chǎn)生大量的臨時內(nèi)存,這些緩存信息對內(nèi)存的占用不僅浪費存儲空間還嚴重影響系統(tǒng)的運行速度。因此,及時清理臨時內(nèi)存非常重要。③信息安全。大多數(shù)病毒針對內(nèi)存展開攻擊,為了保證信息的安全,就需要有完善的數(shù)據(jù)訪問控制機制和加密機制作為保證。
我們說內(nèi)存計算解決了從硬盤讀寫數(shù)據(jù)的瓶頸,更好體現(xiàn)多核CPU的強大處理能力。
2 列存儲概述
數(shù)據(jù)的存儲方式主要有行存儲和列存儲兩種,其中行存儲是指屬性在物理上是按行記錄順序存儲;而列存儲則是按列的順序連續(xù)存儲,如圖1所示。
列存儲的實現(xiàn)方式主要有三種:①使用行存儲模擬,保留存儲管理器和執(zhí)行引擎。②修改存儲管理器,但為了和并列,保留面向行查詢執(zhí)行器部分。③修改存儲管理器和查詢執(zhí)行引擎。
兩種存儲方式各有優(yōu)點,如果對數(shù)據(jù)庫經(jīng)常進行整條記錄的查詢,那么行存儲的方式是很好的選擇,因為該記錄的所有信息都在一起;相反,如果查找的是表中某個屬性值或?qū)δ沉袑傩赃M行計算,采用列存儲效率更高,不必讀到不相關(guān)的屬性。
因此列存儲方式有兩大顯著優(yōu)點:①提高查詢屬性列值的吞吐量,減少I/O操作。表數(shù)據(jù)基于列存儲,能夠快速地定位到需要的數(shù)據(jù)列,同時不會讀取無關(guān)的列數(shù)據(jù),減少無效磁盤讀寫操作。當表有較多的數(shù)據(jù)列時,效果提升更加明顯。②列存儲有利于數(shù)據(jù)壓縮。相對于行存儲,列存儲更加適合數(shù)據(jù)壓縮。因為數(shù)據(jù)列屬性有相同的數(shù)據(jù)類型,數(shù)據(jù)相似度較大;而行存儲,屬性是以記錄方式連續(xù)存儲的,一條記錄中各屬性具有不同的數(shù)據(jù)類型,因此,很難為不同的數(shù)據(jù)類型數(shù)據(jù)采用統(tǒng)一的壓縮算法。然而,列存儲不足之處主要表現(xiàn)在將列重構(gòu)成行和插入、刪除數(shù)據(jù)效率比較低。所以列存儲適用于更新操作很少的環(huán)境中。
3 內(nèi)存計算和列存儲在商務(wù)智能中的應(yīng)用
商務(wù)智能(Business Intelligence,BI)是通過運用數(shù)據(jù)倉庫、聯(lián)機分析和數(shù)據(jù)挖掘技術(shù)處理和分析業(yè)務(wù)數(shù)據(jù),解決商務(wù)活動中的復(fù)雜問題,輔助管理者決策,從而改善企業(yè)的經(jīng)營、管理能力的系統(tǒng)。商務(wù)智能適用企業(yè)規(guī)模大、顧客規(guī)模大、產(chǎn)品線規(guī)模大、市場規(guī)模大、信息規(guī)模大的企業(yè)以及政府部門等。
商務(wù)智能主要包括數(shù)據(jù)預(yù)處理、建立數(shù)據(jù)倉庫、數(shù)據(jù)分析和展示結(jié)果四個環(huán)節(jié)。數(shù)據(jù)預(yù)處理階段負責將海量數(shù)據(jù)進行抽取、轉(zhuǎn)換后裝載到數(shù)據(jù)倉庫;數(shù)據(jù)倉庫是數(shù)據(jù)處理的基礎(chǔ),其功能既包括傳統(tǒng)的聯(lián)機事務(wù)處理,也包括決策支持和聯(lián)機分析處理功能,實現(xiàn)了數(shù)據(jù)的提取、凈化、過濾和數(shù)據(jù)標準化;數(shù)據(jù)分析采用聯(lián)機分析處理和數(shù)據(jù)挖掘技術(shù),對數(shù)據(jù)進行多維分析,挖掘其背后的知識,是商務(wù)智能的關(guān)鍵。
內(nèi)存計算技術(shù)在商務(wù)智能中應(yīng)用帶來的優(yōu)勢:
①幫助簡化IT布局并降低總擁有成本(Total Cost of Ownership,TCO)。②通過運營數(shù)據(jù)的實時分析與報告使用戶能夠更迅速地對業(yè)務(wù)活動做出響應(yīng)。③分析、運營和績效管理等工作合并在一個系統(tǒng)中,使硬件資源更集中,同時可以減少數(shù)據(jù)冗余。
內(nèi)存計算技術(shù)以較低的總成本將聯(lián)機事務(wù)處理與聯(lián)機分析處理融合在一起,以此實現(xiàn)實時計算。
基于內(nèi)存計算的分析還有助于降低新架構(gòu)和現(xiàn)有架構(gòu)的總擁有成本。IT所能獲得的某些巨大成本優(yōu)勢包括:更低的硬件成本、更高的性能與業(yè)務(wù)靈活性、更快的部署、以增量方式實施的機會以及與現(xiàn)有架構(gòu)的兼容性。內(nèi)存計算技術(shù)提供了硬件的可擴展性和靈活性,以實現(xiàn)更高性能。動態(tài)匯總功能將IT員工從手動查詢調(diào)整和數(shù)據(jù)匯總?cè)蝿?wù)中解脫出來。比較而言,在傳統(tǒng)的數(shù)據(jù)倉庫環(huán)境中,更高的性能和功能需求意味著需要獲得額外的硬件、軟件,并要執(zhí)行更多性能調(diào)優(yōu)任務(wù)。在高度異構(gòu)的環(huán)境中,多個商務(wù)智能解決方案集需要各自獨立的生命周期管理,從而增加解決方案的維護負擔。
列存儲技術(shù)在商務(wù)智能中的應(yīng)用:①列存儲方式適合壓縮數(shù)據(jù),其數(shù)據(jù)壓縮率能達到10倍,對于擁有海量數(shù)據(jù)的商務(wù)智能系統(tǒng)來說能節(jié)省大量存儲空間。②在數(shù)據(jù)倉庫環(huán)境中,通常都是定期的裝載數(shù)據(jù),然后在很長一段時間針對大量數(shù)據(jù)的聚合進行查詢操作,同時很少進行更新操作,因此,使用列存儲方式更有效率。
通過分析發(fā)現(xiàn),內(nèi)存計算和列存儲技術(shù)對于商務(wù)智能中提高數(shù)據(jù)處理速度和優(yōu)化存儲有著重要意義。
4 結(jié)束語
商務(wù)智能是信息時代商業(yè)與信息技術(shù)相結(jié)合的產(chǎn)物,它可以幫助企業(yè)更進一步挖掘業(yè)務(wù)數(shù)據(jù)的價值。但是,隨著現(xiàn)代商業(yè)節(jié)奏的不斷加快,企業(yè)在系統(tǒng)能夠支持決策和發(fā)現(xiàn)知識的基礎(chǔ)上,對數(shù)據(jù)的實時要求也越來越高。由此,為了解決該問題,內(nèi)存計算和列存儲技術(shù)出現(xiàn)并不斷發(fā)展、完善,相信這將成為新的研究熱點。
參考文獻:
[1]彭青松.DWMS中列存儲的研究與實現(xiàn).上海:東華大學(xué),2009.
[2]李超,張明博,邢春曉,胡勁松.列存儲數(shù)據(jù)庫關(guān)鍵技術(shù)綜述.北京:清華大學(xué)信息技術(shù)研究院,2010.
[3]奚曉音,何忠江,王丹.基于內(nèi)存計算技術(shù)的電信行業(yè)數(shù)據(jù)倉庫系統(tǒng)構(gòu)建探討.上海:中國電信股份有限公司上海研究院,2012.
[4]邱燕娜.內(nèi)存計算改變商務(wù)智能.中國計算機報,2012.
[5]胡翠華,陳登科.商務(wù)智能在我國的發(fā)展現(xiàn)狀、問題及其對策.上海立信會計學(xué)院信息科學(xué)系;武漢大學(xué)信息管理學(xué)院上海;湖北武漢;上海卡方信息技術(shù)有限公司,2007.
[6]孫海俠.商務(wù)智能系統(tǒng)的構(gòu)架及技術(shù)支持.青島:青島大學(xué),2005.
作者簡介:
周春娜(1978-),女,山東棲霞人,濟南市委辦公廳工程師。主要從事網(wǎng)站信息發(fā)布及維護等電子技術(shù)相關(guān)專業(yè)工作。
王海川(1988-),男,山東淄博人,山東財經(jīng)大學(xué)管理科學(xué)與工程專業(yè)研究生,研究方向:信息管理。