Greenplum是一家總部位于美國加利福尼亞州,為全球大型企業用戶提供新型企業級數據倉庫(EDW)、企業級數據云(EDC)和商務智能(BI)提供解決方案和咨詢服務公司(現已被EMC收購)。在全球已有納斯達克、紐約證券交易所、Skype.、FOX、T-Mobile等,在中國有中信實業銀行、東方航空公司、阿里巴巴、華泰保險、中國遠洋(Cosco)等大型企業用戶選擇了Greenplum的產品。
當前使用的OLTP程序中,用戶訪問一個中心數據庫,如果采用SMP系統結構,它的效率要比采用MPP結構要快得多;而MPP(大規模并行處理)系統在決策支持和數據挖掘方面顯示了優勢。如果操作相互之間沒有關系,處理單元之間需要進行的通信比較少,那采用MPP系統就會比較適合,相反就不合適。Greenplum的架構就采用了MPP,在MPP系統中每個SMP節點也可以運行自己的操作系統、數據庫等。
眾所周知,數據庫本身是非常復雜的,分布式系統更是復雜中的復雜,兩者結合就需要更高的條件。在當今這個數據不斷膨脹的時代,采取MPP架構的數據庫系統可以對海量數據進行管理。Greenplum支持50PB(1PB=1000TB)級海量數據的存儲和處理,將來自不同源系統的、不同部門、不同平臺的數據集成到數據庫中集中存放,并且存放詳盡的歷史數據軌跡,業務用戶不用再面對一個又一個信息孤島,也不再困惑于不同版本數據導致的偏差,同時對于IT人員也可降低管理維護工作的復雜度。
另外,Greenplum提供資源管理功能(workload management)來管理數據庫資源,利用資源隊列管理可實現按用戶組進行資源分配,如Session同時激活數、最大資源值等。通過資源管理功能,可以按用戶級別進行資源分配和管理用戶SQL查詢優先級別,同時也能防止低質量SQL(如沒有條件的多表join等)對系統資源的消耗。
Greenplum作為一個數據庫產品,同樣如此。怎樣幫助客戶從現有的平臺進行遷移,甚至包含以前用的一體機,遷移到分布式的數據架構上。例如歐洲非常大的保險公司,最近剛剛把企業級倉庫遷移到Greenplum。因為之前寫了大量腳本,包含存儲過程,量級很大,迫切需要完成遷移,完成遷移后再寫新的腳本就會變得更容易。另外,完成遷移后性能會更好。Greenplum本身可以只買軟件,也可以買DCA,所以用了DCA V2產品使性能有了90%的提升。
可以有效用于欺詐檢測。例如美國的一家公司,設置了一個內部平臺防止識別欺詐性的報稅信息,而現有平臺并不能滿足對大量數據的快速分析以及性能識別。該公司現在用SaaS產品來完成模型構建以及數據分析,但是SaaS在現有平臺上運行速度非常慢,而且不能滿足大量政府人員運行查詢的需要,這樣遷移到Greenplum中去,性能就會變得很快。
除此之外,還會涉及到實時分析, 企業同樣也有這樣的需求。有的人可能聽說過12306使用GemFire來服務春節期間票務查詢和訂購,這個報道之后印度鐵道部也采用了GemFire產品處理他們的票務信息。
在投資銀行的風控方面,摩根斯坦利利用Greenplum解決了數據存儲不了,存儲之后不能分析的痛點,遷移之后性能有十幾倍的提升。使開發人員、BI人員或者數據科學家可以用很多種語言寫模型,最典型的主要有R語言,PaaS語言,java等,以至于擴展GPDB的功能實現需求。
Greenplum研發最主要幾點優勢主要在于這樣一個集群,或者很多集群,包括幾百臺機器,甚至是上千臺機器,很容易管理和使用,出了故障可以很快得到維修。這就在于Greenplum是高可用的系統,在已有案例中最多使用了96臺機器的集群MPP環境。除了硬件級的Raid技術外,Greenplum還提供數據庫層Mirror機制保護,即每個節點數據在另外的節點中同步鏡像,單個節點的錯誤不影響整個系統的使用。對于主節點,Greenplum提供Master/Stand by機制進行主節點容錯,當主節點發生錯誤時,可以切換到Stand by節點繼續服務。
Greenplum數據引擎是為了支持新一代數據倉庫和分析處理大規模數據而建立的軟件解決 方案。Greenplum支持SQL和MapReduce的并行處理功能,并能以較低的成本向管理TB量到PB量級數據的企業提供業界領先的性能。
與Postgre SQL一致,可以有效持續保持和Postgre SQL社區的一致性,滿足客戶的痛點和最主要的需求。另外對云的支持也在發展中,從GPDB中可以讀寫S的數據,對External HDFS支持也在繼續提升的規劃中。