中共貴州省委組織部 朱懿 邵柱
Greenplum數據庫是建立在postgreSQL基礎上的開源標準數據庫,它能存儲并高效管理龐大的數據量,外部應用通過統一SQL 接口訪問數據,內部則由多個服務器組成功能強大的集群協同工作。
Greenplum 數據庫不僅可以使用SQL 語句分析結構化數據,還提供了建立在PostgreSQL 基礎上的模塊和擴展應用,這些模塊和擴展應用可用于數據庫機器學習、人工智能、地理空間分析等,并且支持使用Python、R、Java、Perl、C、C++語言創建用戶自定義函數。
Greenplum 數據庫是同類產品中唯一一個擁有大量分發安裝包的開源產品,而且隨著Greenplum 數據庫5.3 版本的發布,在Ubuntu系統上編譯生成了完整的安裝包,使整個安裝過程變得更加簡單。Greenplum 數據庫(Ubuntu 版)安裝包被托管在Ubuntu 的個人軟件包文檔系統(Personal Package Archive 系統)上。
依托這個包管理機制,社區內的成員可以很方便地發布安裝包,任何一個接入互聯網的系統都可以安裝這些安裝包。

圖1 添加環境變量
首先,請確保已經選擇好Greenplum支持Ubuntu操作系統版 本。本文撰寫時,Greenplum數據庫支持的是Ubuntu 16.04LTS(Long Term Support:團隊長期支持)版本。
各位讀者可以訪問Greenplum 官網了解Greenplum 最新支持的操作系統版本,在下面的案例中,本文將以Ubuntu 16.04LTS為例。在Ubuntu 安裝完成后的具體操作如下:
1.添加并生效環境變量(命令:vi .bashrc、source bashrc),如圖1 所示。


2.關閉防火墻(命令:ufw disable)。
3.添加Greenplum PPA 庫到Ubuntu 系 統的更新源地址池(命令:sudo addapt-repository ppa:greenplum/db),如圖2 所示。
4.從最近添加的更新源地址池中檢索信息,結果顯示如圖3(命令:sudo apt-get update)。
5.安裝Greenplum 數據庫軟件,結果如圖4所 示(命 令:sudo apt-get install greenplum-dboss)。
上述命令將自動在系統上安裝Greenplum 數據庫軟件及所需的所有依賴,并將安裝好的軟件放在/opt/gpdb 路徑中,結果如圖5 所示。

圖2 更新源地址

圖3 更新檢索信息

圖4 安裝數據庫軟件

圖5 自動安裝并放在相應路徑中

圖6 加載環境變量
6.將Greenpl um 軟件加載到環境變量中,結果如圖6 所示(命令:./opt/gpdb/greenplum_path.sh)。
7.生效系統環境變量(命令:source.bashrc)。
8.通過使用Which 命令進行測試,可以看到軟件的安裝路徑。現在可以將Greenplum 集群配置模板文件復制到本地目錄中進行編輯(命令cp $GPHOME/docs/cli_help/gpconfigs/gpinitsystem_singlenode)。
9.創建DATA_DIRECTORY目錄(命令:mkdir -p/data/primary1/;mkdir -p/data/primary2/;mkdir-p/data/greenplum/gpdata/gpmaster)。
10.新建hostlist_singlenode 這個文件并在里面保存外部應用訪問的主機名稱master。
11.對gpinitsystem_singlenode 文件進行如下編輯,如圖7 所示:
(1)更新MACHINE_LIST_FILE=./hostlist_singlenode 這一行:
(2)將declare -a DATA_DIRECTORY=(/gpdata1/gpdata2) 改為declare-a DATA_DIRECTORY==(/data/primary1/ /data/primary2/)。
請確保第9 步中的相關目錄已創建成功。
(3)將MASTER_HOSTNAME=hostname_of_machine 修改為MASTER_HOSTNAME=master,以用來保存外部應用訪問的主機名稱,如圖8 所示。
(4)更新進入主機的數據目錄。

圖7 對文件進行編輯

圖8 保存主機名稱
將MASTER_DIRECTORY=/gpmaster 修改為MASTER_DIRECTORY=data/greenplum/gpdata/gpmaster
通過以上步驟,初始化準備工作已就緒,現在我們關閉文件并開始初始化集群。
通過這些配置,一個master segmengt 主機和兩個primary segment 服務器的群集已經部署完成。
在更高級的安裝過程中,可以在另一臺主機上配置備用 的master 和segment 鏡像,數據將會分布式存儲在primary segment 之間,同時在mirror segement 中生成primary segement 中的數據的鏡像,這一切都是自動完成的。
12.首先,通過執行下面的命令來確保ssh 密鑰完成交換(命令:gpssh-exchkeys-fhostlist_singlenode)。
然后,再通過執行下面的命令啟動集群(命令:gpinitsystem-cgpinitsystem_singlenode)。在命令執行過程中,該程序請求確認下一步的操作。
以上就是Greenplum 全部的安裝步驟,下面你可以創建一個數據庫,登錄數據庫并開始查詢信息、插入信息。
1.為保證整個安裝過程順利進行,在安裝Ubuntu 系統時請注意勾選download updates while installing ubuntu 以 及 install third-party software for graphics and wi-fi hardware,flash,mp3 and other media 兩個選項。
2.為保證數據庫安裝過程順利,請提前關閉Ubuntu系統的防火墻。