楊 彬
(遼寧行政學院,遼寧沈陽,110161)
大數(shù)據(jù)分析技術的研究
楊 彬
(遼寧行政學院,遼寧沈陽,110161)
在基于云的環(huán)境中,分布式數(shù)據(jù)中心承載大型數(shù)據(jù)存儲庫,同時提供用于分析的處理資源,有力地激發(fā)了有效并行/分布式算法的需求。這給大數(shù)據(jù)分析的潛在社會經(jīng)濟效益和應用特性的多樣性帶來了巨大的挑戰(zhàn)。
大數(shù)據(jù);數(shù)據(jù)存儲;數(shù)據(jù)分析
未來的并行和分布式系統(tǒng)的主要應用之一是大數(shù)據(jù)分析。此類應用程序的數(shù)據(jù)存儲庫目前超過了億兆字節(jié),并且規(guī)模正在迅速增長。這些數(shù)據(jù)集和相關的應用程序的考慮對方法和軟件開發(fā)帶來了巨大的挑戰(zhàn)。數(shù)據(jù)通常駐留在具有廣泛變化的計算和網(wǎng)絡能力的平臺上。容錯,安全和訪問控制的考慮在許多應用中至關重要。分析任務通常有嚴格的截止日期,數(shù)據(jù)質(zhì)量是其他應用程序中的主要關注點。對于大多數(shù)新開發(fā)的,能夠進行規(guī)模化運作的數(shù)據(jù)驅(qū)動型號和方法,尚屬未知。即使已知的方法可以被擴展,對結(jié)果的驗證也是對現(xiàn)狀的特別關注,并關注新興趨勢,以突出大型數(shù)據(jù)分析的硬件、軟件和應用領域。
大數(shù)據(jù)分析應用程序的規(guī)模、范圍和性質(zhì)(工作負載特性),分別為未來的硬件和軟件系統(tǒng)的設計和架構提供了方向。
對硬件的影響。數(shù)據(jù)訪問模式,特別是數(shù)據(jù)訪問的頻率可以驅(qū)動未來的存儲器層次結(jié)構優(yōu)化:數(shù)據(jù)一般開始熱;然而隨著時間的推移,逐漸變冷,最適合儲存在NVMs。然而,訪問模式也具有周期性或波動性(季節(jié)性相關主題,名人頭條)和熱的大量數(shù)據(jù)集(比較基因組計算)也需要考慮的。此外,在硬件堆棧預測中可能會出現(xiàn)維度之間的潛在關聯(lián):單個視頻由于多種格式或語言字幕而導致多個版本。這些可以離線生成并存儲(因此需要大量存儲)或即時生成(代碼轉(zhuǎn)換和按需翻譯),從而給數(shù)據(jù)中心的計算基礎結(jié)構帶來壓力,也可以在用戶的設備(客戶端計算)上施加壓力。另外,可能必須重新考慮處理器設計中的進步相對于I/O子系統(tǒng)的性能的相對優(yōu)先級,這是當前架構設計中的常見假設。在這種情況下,一種選擇是考慮可能的“反轉(zhuǎn)”:支持數(shù)據(jù)存儲的計算元素的層次結(jié)構,而不是當前的內(nèi)存層次結(jié)構,以服務于計算元素。逐漸地瓦解現(xiàn)有的存儲層次結(jié)構將會使這種轉(zhuǎn)換更加平滑,并進一步節(jié)省能源消耗。理解工作負載還可以確定在硬件中直接實現(xiàn)特殊目的處理元素的機會。需要考慮圖形處理器、現(xiàn)場可編程門陣列(FPGA),專門的特定應用集成電路(ASIC),和專用的視頻編碼器/解碼器。與它們的通用處理程序相比,這樣的硬件加速器大大降低了能源消耗。這些可以集成在芯片上,導致以數(shù)據(jù)為中心的非對稱多處理器系列。
對軟件的影響。軟件系統(tǒng)、存儲和計算需要滿足一個相當大的問題空間,這是由于數(shù)據(jù)規(guī)模、工作負載的性質(zhì)以及其他應用程序需求,比如一致性、可用性和分區(qū)容差。一個大的數(shù)據(jù)規(guī)模需要高度可擴展的分布式存儲系統(tǒng),它能夠容納和服務大量的數(shù)據(jù),具有高效的入口和出口機制;Apache Flume是這樣的系統(tǒng)。此外,這些存儲系統(tǒng)應有效查詢和其他OLTP工作負載的內(nèi)存緩存的支持;此外,這些存儲系統(tǒng)應該支持高效查詢的內(nèi)存緩存和其他OLTP工作負載;甚至HDFS也增加了對緩存的支持。
2.1 內(nèi)存/存儲
針對以數(shù)據(jù)為中心的應用程序,有幾種基于NVM的建議。基于閃存的NVMs可以通過串行連接的SCSI(SAS)和串行高級技術附件(SATA)或PCI Express接口甚至與聚合內(nèi)存組合,以提供經(jīng)濟高效的解決方案。其他類型的NVM,如相變存儲器(PCRAM)和憶阻器,已經(jīng)被提議作為內(nèi)存總線上的字節(jié)可尋址存儲器,或直接堆疊在芯片上(3D堆疊)。NVM還可以實現(xiàn)其他緩存級別,或者替換持久性存儲。
與數(shù)據(jù)相關的移動計算,受許多大型數(shù)據(jù)管理任務的一般結(jié)構驅(qū)動,由相關框架支持。例如,在頻繁使用的MapReduce范例中,數(shù)據(jù)被劃分為可用的節(jié)點和任務,這樣它們就可以與它們的數(shù)據(jù)操作數(shù)(盡可能地)相搭配。任務和相關數(shù)據(jù)搭配也可節(jié)省能源。最近的nanostore提案主張使用持久性數(shù)據(jù)存儲進行計算的搭配。這讓人聯(lián)想起過去的想法,如Active Storage-增強磁盤控制器處理特殊的計算任務-但在原始提案時的應用范圍有限。
從進化的角度來看,磁盤仍保持高性價比。因此,它們不太可能在短時間內(nèi)被完全取代。基于NVM的技術應該被視為短期未來設計的有吸引力的組件。在這方面,我們還應該考慮到NVM在整個軟件堆棧中會觸發(fā)的變化。例如,當前文件系統(tǒng)針對毫秒級的延遲進行了優(yōu)化。NVM在這段時間內(nèi)提供大約三個數(shù)量級(微秒)的延遲時間。還有人建議,使用基于閃存的固態(tài)硬盤(SSD)來支持鍵值存儲抽象,有利于其工作負載。還有人提出將SSD作為常規(guī)磁盤的高速緩存(混合設計)。理想情況下,NVM的持久性應該在指令集級別(ISA)上公開,以便操作系統(tǒng)可以有效地利用它們(例如,通過重新設計的部件,承擔記憶波動或提供給上層,API將歸檔數(shù)據(jù)放在節(jié)能的NVM模塊上)。另一方面,持久內(nèi)存寫入的能力減少了隔離;這個問題可以通過持久內(nèi)存事務來解決。從算法設計和相關數(shù)據(jù)結(jié)構的角度來看,非波動性可以推動索引結(jié)構的交替優(yōu)化設計和實現(xiàn),鍵值存儲數(shù)據(jù)庫和文件系統(tǒng),這是大數(shù)據(jù)分析的全部組成部分。
2.2 數(shù)據(jù)分析的網(wǎng)絡資源
標準通信棧的鏈路,網(wǎng)絡和傳輸層是由不同技術和制造商的組件的互操作性作為主要設計考慮的。在此設計中,鏈路層不可靠,因此擁塞或不可靠的通信通道可能導致數(shù)據(jù)包丟失。
為了解決這個問題,傳輸層需要回退傳輸,從而影響帶寬。然而,典型的數(shù)據(jù)中心網(wǎng)絡環(huán)境與廣域網(wǎng)是完全不同的。首先,它的通道可以被認為是無損的,這個假設應該理想地反映它實現(xiàn)的流機制。它基本上是同構的,在單一的管理控制下,與已經(jīng)部署的協(xié)議的向后兼容性不是問題。負載均衡器和應用代理將內(nèi)部流量與外部分離分開,因此傳統(tǒng)TCP沒有公平的擔憂。在沒有排隊的情況下,往返時間(RTTs)可能小于250微秒。應用程序同時需要非常高的帶寬和非常低的延遲。此外,幾乎沒有統(tǒng)計多路復用,因此單一的流可以支配特定的路徑。
數(shù)據(jù)中心網(wǎng)絡中的特定性能瓶頸是由許多大規(guī)模Web應用程序中廣泛使用分區(qū)/聚合設計模式引起的:應用程序的高級層的請求被分解成碎片,并將其外包給底層的工作;這些工作的反應是聚合以產(chǎn)生結(jié)果。因此,傳回的數(shù)據(jù)將以多對一的方式遍歷瓶頸鏈接。隨著并發(fā)發(fā)送者的數(shù)量增加,接收機的應用級吞吐量下降到低于鏈路容量的數(shù)量級(亂序模式問題)。TCP(DCTCP)的最新變體通過利用大多數(shù)現(xiàn)代商品交換機中實現(xiàn)的ECN協(xié)議擴展,來處理網(wǎng)絡流量的連接結(jié)構,允許端到端通知網(wǎng)絡擁塞而不丟棄數(shù)據(jù)包。相反,未來的性能問題可能會推動交換設備的定制化。
注意,處理特定網(wǎng)絡缺陷的細節(jié)與選擇的協(xié)議基本相關。最基本的競爭者是以太網(wǎng)和Infiniband。Infiniband是一種能量比例網(wǎng)絡,這一特性無疑為這項技術提供了優(yōu)勢,因為能效是未來數(shù)據(jù)中心的主要設計目標。預計這兩種選擇都將在不遠的將來可用,兩者之間的選擇將是基于應用程序的。
除了硬件的升級,大規(guī)模數(shù)據(jù)集的大數(shù)據(jù)分析還需要對軟件堆棧進行完整的重新評估。
3.1 存儲系統(tǒng)
大數(shù)據(jù)存儲對于任何形式的分析至關重要。數(shù)據(jù)量和硬件的進步需要存儲平臺的分布式,可擴展性,彈性和容錯能力。除了這些高需求的特性之外,應用程序也有各自對底層存儲的需求。面向客戶的應用程序需要高可用性,即使存在節(jié)點故障或網(wǎng)絡分區(qū)。根據(jù)所需的容錯能力和可用性數(shù)量,當前的存儲系統(tǒng)可以跨數(shù)據(jù)中心內(nèi)和跨數(shù)據(jù)中心的多臺機器適當復制數(shù)據(jù)。復制涉及保留副本之間的一致性的開銷;這個開銷隨著副本的數(shù)量而增加。盡管歸檔系統(tǒng)對于存儲大量數(shù)據(jù)是有效的,但隨機訪問或需要保存元數(shù)據(jù)(標簽)需要更復雜的存儲模型。大數(shù)據(jù)通常是非結(jié)構化的,不符合嚴格的關系模型。這激發(fā)了NoSQL分布式數(shù)據(jù)存儲 -多列鍵值存儲。
3.2 數(shù)據(jù)處理方面的考慮
大數(shù)據(jù)分析應用程序在輸入、數(shù)據(jù)訪問模式和它們所展示的并行性方面存在差異。使用在線(流)輸入處理的應用程序每一個輸入/請求都會產(chǎn)生顯著的延遲成本,而那些有大數(shù)據(jù)集作為輸入的應用程序可以批量處理輸入輸出,并避免這些延遲。面向客戶端的應用程序(例如查詢)隨機訪問底層存儲,而在整個數(shù)據(jù)集上運行的后端進程具有更為連續(xù)的訪問模式。雖然大多數(shù)的Web應用程序具有數(shù)據(jù)并行,科學應用往往表現(xiàn)出任務并行。即使在數(shù)據(jù)并行應用程序中,也有一些使用迭代算法,每次迭代都在相同的數(shù)據(jù)上運行。不同的應用程序需要不同的數(shù)據(jù)處理技術和優(yōu)化。然而,所有用于數(shù)據(jù)中心的大數(shù)據(jù)分析模型需要容錯、規(guī)模與數(shù)據(jù),彈性利用額外的資源。
3.3 不同模型的整合
現(xiàn)代應用程序經(jīng)常在其工作流程中使用多種編程模型點擊流的流處理(計數(shù)),然后進行批處理(分析:例如點擊的關聯(lián))是一個這樣的示例。編程模型不僅需要更緊密地集成在一起,而且還需要與底層存儲相結(jié)合。例如,一個高效的發(fā)布/訂閱系統(tǒng)可以通過在分布式的鍵值存儲上建立一個流處理系統(tǒng)來構建;訂閱可以存儲在集群節(jié)點上的一個表(主題上的分區(qū))中,并且發(fā)布的事件可以被發(fā)送到那些具有相關訂閱的節(jié)點,在這些節(jié)點上可以執(zhí)行主題和基于內(nèi)容的匹配。
Apache YARN離實現(xiàn)第一個目標又近了一步;它可以通過跨模型調(diào)度資源來在同一個集群上運行多個編程模型。需要做很多工作來支持一個高效且可用的組合編程模型來支持新興應用程序。
現(xiàn)代應用程序所運行的數(shù)據(jù)量正以驚人的速度增長,這給并行和分布式計算平臺帶來了有趣的挑戰(zhàn)。這些挑戰(zhàn)包括構建能夠容納這些大型數(shù)據(jù)集的存儲系統(tǒng),并收集從地理位置分散的數(shù)據(jù)源到存儲系統(tǒng)的數(shù)據(jù),再到對數(shù)據(jù)進行各種各樣的計算。將來,隨著數(shù)據(jù)量的不斷增加,這些應用程序的域也會出現(xiàn)差異,這些系統(tǒng)將需要適應特定于應用程序的優(yōu)化。為了解決數(shù)據(jù)源的高度分布式特性,未來的系統(tǒng)可能會將一些計算轉(zhuǎn)移到數(shù)據(jù)源本身,以避免昂貴的數(shù)據(jù)轉(zhuǎn)移成本。
[1]馬小寧,鄒丹,吳艷華.鐵路主數(shù)據(jù)管理平臺解決方案及應用實踐[J].中國鐵路,2017,(01):17-23.
[2]宋興順.鐵路物資采購應付款信息化管理解決方案[J].鐵路采購與物流,2016,(06):40-41.
[3]劉明霞.關于中小企業(yè)財務會計問題探究[J].商場現(xiàn)代化,2016,(15):182-183.
[4]李甜.企業(yè)合并中的財務與會計問題探析[J].商場現(xiàn)代化,2016,(10):151-152.
Research on big data analysis techniques
Yang Bin(liaoning administrative college, Shenyang Liaoning,110161)
Based on the cloud environment, distributed data center hosting large data repository, is applied to the analysis of the processing of resources at the same time, effectively stimulated the demand of parallel/distributed algorithm effectively. This presents great challenges to the potential socio-economic benefits and application characteristics of large data analysis.
big data; Data storage; The data analysis