王亮 魯曉帆 郭邦圣 劉鑫 高曉佳

摘 ?要:高可用集群環境構建中,部署應用的流程,主要由管理進程資源組中的帶入和帶出任務,修改資源刪除資源測試資源。當客戶端訪問時,支持手動切換資源調集。應用過程中,支持魯棒測試,如熱插拔、關機、進程殺掉;測試過程中支持分布式和單元測試。經過一系列的部署、安裝和測試,發現不當配置與應用效果,需進一步完善機制與策略控制,再次進行大規模應用與監測。
關鍵詞:高可用 ? 安全存儲 ? 集群構建 ? 應用研究
中圖分類號:P209 ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:1672-3791(2021)08(c)-0011-03
Application Research on the Construction of High Available Secure Storage Cluster
WANG Liang ?LU Xiaofan ?GUO Bangsheng ?LIU Xin ?GAO Xiaojia
(Jilin University of Architecture and Technology, Changchun, Jilin Province, 130114 China)
Abstract: In the construction of high availability cluster environment, the process of deploying applications is mainly carried in and out by the tasks in the management process resource group, modify resources, delete resources and test resources. When the client accesses, it supports manual switching of resource mobilization. During the application process, it supports robust testing, such as hot plug, shutdown, process kill, and distributed and unit testing. After a series of deployment in the test, found the improper configuration and application effect need to further improve the mechanism and strategy control, and carry out large-scale application and monitoring again.
Key Words: High availability; Secure storage; Cluster construction; Application research
在大數據、人工智能領域開展深入研究,實現高校服務器采用HA(High Available)高可用及高可用安全存儲集群構建,一旦發生服務器陣列故障,則面臨多個單點服務故障或校園多樣服務大數據(教務系統數據、網站系統數據、監控系統數據、學科平臺科研建設數據等)損毀及停頓。因此,要實現業務數據的高可靠性,必然要保證存儲高可用性,針對這類情況,提出高可用安全存儲集群構建應用研究[1]。
1 ?高可用集群系統
當前,大學校園或中小企業對信息化高度重視,大都建立了計算機應用系統,支持其自身的環境、運營和管理工作。然而不論是校園還是企業,最重視的核心問題是如何建立并維護其系統的運行持續性及穩定性。由此,高可用對于計算機應用系統極其重要。在正常的業務運行過程當中,軟硬件系統不可避免地會發生故障,可能還會導致系統的整體癱瘓,這樣會影響用戶的響應請求及用戶的信任,損失會難以估計,所以采取必要的防范和應用措施來保證計算機系統的高可用和不間斷業務服務等,來保障系統的安全性、穩定性[2]。
2 ?RoseHA概述
RoseHA高可用系統是實現兩節點的集群構建環境,用戶只需在原有系統上附加同類服務器及IP-SAN即可,通過監控系統的卷資源、別名資源、繪畫資源、存儲資源及應用程序和操作系統,各類計算機硬件和軟件資源的運行狀態,實現某個關鍵核心業務的高可用性。當某個活動節點不工作或宕機,RoseHA將活動業務的系統主機遷移至備援主機,有效地降低計劃內外的主機非正常運轉時間,提高業務系統穩定性和高可用性[3]。
3 ?RoseHA的產品結構與工作原理
支持動態卷切換,增強卷切換的工作效率及支持LINUX系統平臺下的邏輯卷設備切換。針對不同的特定應用代理程序,將服務監控按照實際有效的方式切換,提供API用戶開發代理程序,針對企業編寫特定專用的代理程序,指定與專用服務相關的狀態診斷與錯誤恢復機制。集群具有容錯可靠,具有兩個或多個核心進程,互相監控,如果其中一個失敗,另一個進程自動執行恢復,避免單點故障發生在自身服務。支持多心跳路徑,避免心跳故障單點產生,支持仲裁資源,使集群節點全部通信斷開,通過仲裁確定集群運行狀態,避免節點競爭[4]。
4 ?基于ORACLE+RoseHA的高可用安全存儲集群構建
4.1 ORACLE的構建部署
啟動實例的過程是加載內存的過程,將主服務部署聯機共享,部署后刪除主實例后部署的備用服務器,常規劃于RAID磁盤陣列中,磁盤陣列隸屬于當前某個活動的基于ISCSI映射連接的磁盤空間中,啟動數據庫:startup nomount:啟動實例;startup mount:只允許本地操作;startup open:打開數據庫,所有用戶可使用;startup restrict:以受限模式打開數據庫。Alter database db01 mount轉換數據庫狀態Alter database db01 only read把數據庫轉換成只讀的Start database restrict數據庫受限狀態。構建集群狀態下的核心數據庫,具體情況如圖1所示。
4.2 RoseHA的構建部署
服務器主備均需安裝RHA,可無序安裝,部署向導中,根據實際需要進行路徑和模塊選擇。在配置上,首先訪問RHA的控制中心,通過默認密碼webadmin訪問,創建方案選擇活動SERVER,根據活動服務器的狀態及網絡虛擬指定的IP,作為指定服務器的IP地址,根據登錄界面輸入ROSE的內置密碼,設置注冊碼,復制主備server的ID,通過注冊碼將授權導入。
配置鏈路,添加鏈路,選擇心跳IP,根據經驗需要兩組心跳效果最好。結合需求,選擇數據庫的應用類型,添加數據庫后,根據“磁盤列表”選擇磁盤ID,確認并格式化磁盤。若安裝lvm或multi-path,需手動輸入仲裁設備名,IP-SAN網絡存儲需要ISCSI連接成為本地磁盤后格式化磁盤,進行仲裁加入。卷資源添加后磁盤ID要保持一直,在掛載和驅動器號上,指定分區盤符。IP資源處選擇添加,網卡處掛在活動的網卡,在資源處輸入activety的IP地址和掩碼。根據應用類型,RHA自動添加系統服務,進程資源是根據配置需要添加的.exe程序,默認無監控端口[5]。
集群環境部署應用設計過程。(1)帶入:需主機開啟活動IP,啟動每個業務服務系統,數據實現實時同步,集群中的備機會自動停止。(2)帶出:當前Active主機會休眠所有同步業務系統,實時監聽同步數據,暫停全部活動數據及業務,屬于對等層業務的暫停執行。(3)資源切換:處于正常與非正常狀態的切換資源方式,主機業務正常,但主機資源需要硬件維護或其他使用目的,則強制切換資源給備機使用,同步會通過心跳線路將IP資源、別名資源、會話資源、RAID卷資源及所有服務資源切換給備機運行。當主機出現異常宕機或其他非正常運行狀況,則主機自動實現帶出全部資源,將主動權資源切換給備機,主機離線狀態,也會把所有資源權限全部帶出交付給備機,使其處于活動狀態。主機關機及主機心跳或鏈路被拔掉及主機進程被KILL掉,則全部資源自動被帶出,交付備機接管,備機接收后按照RoseHA的自定向下服務執行模式,將資源接管,繼續為用戶提供連續不間斷服務業務[6]。
4.3 單元與分布式測試
4.3.1 單元測試
(1)結合該項目實例,根據集群關鍵業務,通過RoseHA啟動,JOB是否被正常運行、停止。
(2)通過RoseHA進行Take Over測試是否正常。
(3)通過RoseHA進行Fail Over測試是否正常。
(4)通過RoseHA進行Agent功能保護測試是否正常。
(5)網卡保護功能測試,拔除AS心跳線路測試是否提示出現Fail Over,并進行遷出操作,立即插上后,AS是否恢復主機關鍵服務業務。
4.3.2 分布式測試
(1)修改活動IP,選中配置好的RESOURCES池,執行帶出操作,停止整個業務集群幾桶,在RESOURCES lists里,選中IP資源,操作屬性中修改IP地址,修改后保存執行代入資源測試。
(2)新增監控資源,在資源列表里如新增NT服務,依賴關系處選擇依賴資源配置后執行帶入,然后立即監控。
(3)刪除部分資源,在選中配置好的資源組中帶出并停止真個集群服務業務,在資源列表中刪除某個測試資源,操作-刪除,刪除后,選中資源組,執行帶入。
4.4 故障排錯與解決方案
主機狀態顯示主機離線,備機心跳紅色,確認備機take in成功,此時故障情況為服務器網絡中斷或主機宕機,解決網絡中斷或服務器宕機問題即可。
卷資源顯示故障,則OS提示無法連接本地RAID,檢測RAID指示燈是否異常,RAID是否解散,RAID成員是否故障,連接服務器的RAID光纖鏈路狀態及操作系統是否正常。
應用服務主題資源顯示故障,部分資源無法正常使用與運行,在資源列表中查看無法與運行的主體應用服務。
心跳故障顯示為紅色或者黃色標識,心跳無法正常通信在接管與遞交資源過程中是無法實現實時通信的,選擇某個心跳查看具體故障。
如果為Linux系統,則采取日志收集方式,在RoseHA的INFO文件中,默認路徑為/opt/HA/info,如果是windows系統則路徑為c:\Program Files\HA\info,執行gatherinfo,運行需要一段時間。在info目錄下生成host.rar的日志和配置壓縮包文件。分別在RoseHA集群的服務器上執行相同操作,獲取這2臺服務器的配置和日志信息。
5 ?結語
通過高可用安全存儲集群的構建實現各類高校及中小企業的集群服務,保障業務的連續性迫在眉睫,目前對高可用集群與安全存儲這類信息化建設較薄弱,原因在于意識不夠和構建成本較高,因此需要把高可用及安全存儲列入常規運維中,這樣不僅可以加強信息化的建設,而且對后期維護與安全性會起到重要的保護作用。
參考文獻
[1] 冷迪.基于集群架構的物聯網動態數據安全存儲方法[J].中國新通信,2020,22(6):136.
[2] 吳俊鵬,劉曉東.一種基于集群的動態負載均衡算法研究[J].電子設計工程,2021,29(16):75-78.
[3] 鄭增乾,王錕,趙濤,等.帶寬和時延受限的流媒體服務器集群負載均衡機制[J].計算機科學,2021,48(6):261-267.
[4] 吳天宇,馮蕊,楊翠.Oracle數據庫批量數據無損遷移技術[J].電子技術與軟件工程,2021(8):204-205.
[5] 葛鈺,李洪赭,李賽飛.一種web服務器集群自適應動態負載均衡設計與實現[J].計算機與數字工程,2020,48(12):3002-3007.
[6] 張鳳瓊.基于云計算技術的計算機網絡安全存儲技術[J].數字技術與應用,2021,39(8):176-178.
基金項目:吉林省教育廳“十三五”科學技術研究項目《高可用安全存儲集群構建應用研究》階段成果(項目編 ? ? ? ? ? ? ? ?號:JJKH20201232KJ)。
作者簡介:王亮(1986—),男,碩士,實驗師,研究方向為高可用集群、網絡工程。