劉丹楓 施佳馳

摘 要:本文是對湖南省MICAPS 4.0分布式數據環境運維方法的總結與歸納,詳細介紹了如何查看服務器監控頁面、Cassandra與DPC集群狀態、資料達到情況,并對現有的運維方法提出了改進思路,本文可視為對氣自動化運維技術應用的一次積極探索。
關鍵詞:MICAPS4.0,分布式數據環境,運維方法。
1? MICAPS4分布式數據環境背景介紹
MICAPS是中國氣象部門氣象衛星、天氣雷達和數值預報、站點實況等產品綜合應用最強有力的業務技術支撐平臺,是中國氣象部門氣象預報最主要的預報業務系統。自1995年起至今,它已經歷過4個版本的嬗變。MICAPS4作為其最新版本,首創海量數據分布式流式計算的前處理系統,衛星雷達數據可實現毫秒級寫入性能,數據訪問性能相比傳統訪問性能提升了兩個數量級。在氣象實時數據處理方面,MICAPS4首創從文件到數據庫,從集中式到分布式的解決方案,達到了國際先進水平。
2016年11月,在國家氣象中心、國家氣象信息中心、清華大學的大力支持下,湖南省順利完成CIMISS-MICAPS4數據環境部署。分布式數據環境目前已正常運行1000余天,可為預報員提供多源異構資料的集中整合與分析顯示、為預報員呈現清晰的四維大氣結構以及運動趨勢,為湖南省各級氣象部門提供高效、精準的氣象數據服務。并且,分布式數據環境可支持長達22天的模式實時數據存儲,目前已接入近10個模式系統數據,多達60個以上的模式空間層次,1700多個模式物理量。省級數據中心每分鐘訪問量可達1049次,全天訪問可達150萬次。
數據分布式流式計算的前處理系統,針對集合預報數據可以實現“到達即可見”的效果,衛星雷達數據可以實現毫秒級寫入性能。其大規模擴展物理集群的架構,可以應對高并發訪問,解放市縣一級的數據維護負擔,湖南省所有 MICAPS4用戶可直連省級數據中心。
2? 湖南MICAPS4分布式數據環境檢查流程
湖南MICAPS4分布式數據環境日常巡檢主要查看Cassandra集群狀態、進程是否存在、磁盤利用率、資源狀況、服務器上一次啟動時間;查看DPC集群日志、進程是否存在、磁盤利用率、資源狀況、服務器上一次啟動時間等。
2.1? 查看服務器監控頁面
MICAPS4.0數據應用環境的網頁監控共需要查看三個網頁內容,分別是:查看CIMISS-MCP監控頁面有沒有EI告警信息、查看http://10.110.172.62:8080,確認所有的Workers是否都存在且狀態正常、查看http://10.110.172.62:4040,確認所有Jobs的Submitted是否為最近一次計算集合預報的時間以及原始數據是否到達及時。
2.2? 查看Cassandra集群狀態
通過ssh方式登入到Cassandra服務器,切換到/home/micapsserver/cassandra/bin目錄,執行命令:./nodetool status micapsdataserver,來查看集群運行狀態,確保所有節點的狀態都是UN(UN = Up Normal),保證負載基本均衡;使用df –h命令,查看所有磁盤的利用率,確保長期沒有變化(導入了新數據或者延長了數據的保存時效等情況除外);使用last reboot命令,查看服務器上一次啟動時間,確保服務器沒有意外斷電或重啟;使用ps - ef | grep java命令,查看進程號,確保Cassandra等進程處于運行狀態。
2.3? 查看DPC集群狀態
使用jps命令,查看進程號,確保DPC(DPC.jar)、JobScheduler(JobScheduler.jar)等進程處于運行狀態。使用top命令,查看系統的資源狀況,進入top后,可以使用x鍵高亮顯示,然后使用>鍵切換排序列,一般按照內存使用率排序的話,DPC、JobScheduler等Java進程會排在前幾位,便于查看;切換到/data/DPC/log與/data/JobScheduler/log,查看日志文件,確保當前進程工作正常。使用df –h命令,查看所有磁盤的利用率,確保長期沒有變化;使用ps - ef | grep java命令,查看進程號,確保DPC等進程處于運行狀態。
2.4? 查看資料達到情況
分布式數據環境里的資料來大多源于廣播衛星CMACast下發,經省級CIMISS接收后再分發至分布式數據環境各個DPC服務器的ftp接口目錄,現有ftp接口目錄接收資料如圖1所示。運維檢查時需要查看接口目錄下的資料達到情況,由于接收資料繁多,因此檢查時需要耗費較多時間。
3? 改進方法思考
原有的MICAPS4分布式數據環境檢查流程比較繁瑣,對分布式數據環境進行一次完整的檢查至少需要耗費半個小時,因此可采用自動化運維方式對檢查流程進行優化。自動化運維方式可通過開發監控系統來實現,監控系統采用C/S結構,在服務器中部署通過python編寫的監控進程,通過ssh、ftp等方式遠程登入DPC與Cassandra集群,將檢查后的運行結果情況寫入到MySQL數據庫。通過桌面客戶端訪問MySQL數據庫獲取集群運行狀態。
4? 小結
本文是對湖南省MICAPS 4.0分布式數據環境運維方法的總結與歸納,并對現有的運維方法提出了大致的改進優化思路,下一步的工作是將改進優化思路通過程序開發加以實現。