顏廷熙
摘 要 TD (Teradata Data Warehouse Appliance) 廣泛適用于新采用數據倉庫或想要補充現有企業級數據倉庫的公司。該平臺可用作整合數據倉庫、周期性數據集市、災難恢復或應用程序實施于 EDW 中前的測試分析沙箱。是數據倉庫一體機 ,能對數據倉庫的海量和長期存儲,并增加您的數據和分析功能。
關鍵詞 數據倉庫 海量存儲 數據恢復
TD數據倉庫是集成、細致和豐富的數據的一個集中的和歷史的存儲庫,為多個集團的多決策應用程序提供支持并且是企業數據分析的單一來源。
TD(Teradata)數據結構-邏輯結構:
1 TD優勢說明
以城市軌道交通6條線路為例;提供軌道交通數據源的多元異構數據及衍生數據的海量存儲和長期存儲。
數據采集平臺系統(DAP):按每年300G;清分系統(ACC):每天15M,按后期增加票種票價計算,每天約30M,合計每年20G;線網運維管理系統(OMC):按每年20G;應急指揮中心系統(ETC):按每年20G, 則上述數據總計:DAP+ACC+OMC+ETC=300*6+20+20*6+20*6=2060G,約3T。按100T容量計量,預留TD數據空間預留20T,則可以存儲約25年。
在實際建設使用過程中,還可以采用數據壓縮手段進一步提高數據容量。數據壓縮的將采用MVC(多值壓縮)、ALC(算法壓縮)、BLC(塊壓縮)三種不同手段,根據不同數據情況采用適用的方式進行壓縮處理。
ALC(算法壓縮):允許用戶自MVC(多值壓縮):對于大表中經常出現重復值的字段,通過在table header存儲字段值,在記錄行中僅存儲標識符的方式進行數據壓縮;
定義壓縮和解壓縮算法,或使用Teradata標準函數來支持數據壓縮;算法壓縮必須以UDF的方式預先定義,并且在建表語句中詳細說明;
BLC(塊壓縮):BLC塊壓縮是指對于此表的整個磁盤數據塊進行壓縮,以減少數據存儲空間。
2效率高
采用 MPP(Massively Parallel Processing,大規模并行數據處理系統)架構設計,構建類似“動車組”的一體機數據處理系統,中心包括12個一體機單元,各一體機單元并行處理,集中調度管理。
每個一體機單元能夠支持120個會話并行處理。每個會話能夠并行處理80個線程。
實例:使用刀片70萬數據匹配出行數據、約120分鐘;TD約10分鐘。
Teradata數據庫可實現負載均衡和負載優先級的管理。通過系統信息能夠偵測報表和查詢在系統響應時間上是否有提升,這些提升可以通過Teradata負載管理以及負載限制來實現。負載管理的原則是為需求資源較少的負載分配較多的資源,使其能迅速結束,從而很快釋放出資源。
同時根據TEADATA虛擬存儲技術從數據“溫度”這一視角來自動、智能地進行數據放置管理的數據庫管理軟件。這一內置的智能可以在不干擾用戶或管理員的前提下自動將使用最頻繁的數據或者叫“熱”數據放到速度最快的存儲單元并將使用頻率最低的數據或者叫“冷”數據 放到速度最慢的存儲單元。數據的合理放置可支持熱數據的高性能訪問從而助力實時決策,同時在數據漸漸成為歷史或日益變“冷”并遷移到成本較低的磁盤時提供自動化的生命周期管理流程。這樣客戶就能以較低的成本實現存儲容量最大化,并獲得更高的性能。
3可靠性高
(1)能夠提供存儲數據的安全保護功能:Teradata用到的有RAID1和RAID5技術。
(2)Disk Arrays -磁盤陣列,Teradata用到的有RAID1和RAID5技術。
RAID1的特點:數據鏡像,提供最好的數據可用性和性能,但是空間損失很高;
優點:數據可用性最高,更高的讀能力,寫操作沒有性能損失,快速恢復能力;
缺點:50%的空間損失。
(1)Clique - node 級的容錯機制,通過Vproc Migration技術,當一個TPA節點失敗時,Teradata自動重啟然后原來運行在失敗節點上的Vproc漂移到clique內的其它節點上運行。
(2)Locks -保證數據一致性,防止多個用戶同時修改相同的數據。
(3)Fallback - AMP級的容錯機制,可以在數據庫級和表級定義。當一個AMP因為硬件或軟件的原因掉線的時候,使用Fallback機制的表對用戶都是可用的,當此AMP被修正并重新上線時,關聯的Vdisk上的數據根據Down-AMP Recovery Journal自動恢復。
參考文獻
[1] 李偉章,徐幼銘,林瑜筠等.城市軌道交通通信[M].北京:中國鐵道出版社,2008.
[2] 曾小旭,劉慶磊.地鐵網絡化運營集中式控制中心架構方案研究[J].城市軌道交通研究,2016(04).