馬迅飛 張進鐸 李碩 尹龍 向光陽 陳翔


摘 要: 高性能計算機系統在企業中的應用越來越廣泛,隨之而來的是機房內設備的日益復雜化,系統搬遷與集成已成為IT領域中的一項任務。文章就計算機系統搬遷與集成的目標、原則、方案設計、準備工作,以及在具體任務實施過程中應高度關注的各個環節進行了總結與歸納,給出了高性能計算機系統搬遷與集成的成功實例。希望能為超級計算機或高性能計算中心以及類似數據中心的機房設計和建設,高性能計算機系統的搬遷和集成等提供借鑒。
關鍵詞: IT; 高性能計算機; 系統搬遷; 機房; 搬遷方案
中圖分類號:TP399 文獻標志碼:A 文章編號:1006-8228(2016)08-35-05
Abstract: The application of high performance computer system in enterprise is more and more extensive, and the following is the increasing complexity of equipment in the computer room. The relocation and integration of the system has become a task in the IT field. In this paper, the objectives, principles, scheme design, preparation of the computer system relocation and integration, and the various aspects should be highly concerned about in the specific implementation process are summarized in detailed. And a successful example of high performance computer system relocation and integration is given; hope to provide reference for the design and construction of the computer room of the supercomputer or high performance computing center and the similar data center, and for the relocation and integration of high performance computer system.
Key words: IT; high performance computer; system relocation; computer room; relocation scheme
0 引言
隨著高性能計算機系統的更新換代以及其自身規模的不斷擴大,數據中心的機房無論是從面積還是基礎配套設施等方面,都逐漸不能滿足用戶新的需求。另外,由于城市規劃與發展,導致需要新建、擴建數據中心機房,或者由于機房的租約到期,或者為滿足建設綠色機房等要求,需要對現有機房內的計算機系統進行搬遷與集成,而系統搬遷與集成任務正日益成為一項常規的IT業務內容[1-2]。
東方地球物理公司研究院計算機技術服務中心,自二十世紀七十年代開始,就全方位致力于高性能計算機系統集成、軟件開發與信息化建設等服務。多年來,中心在持續為研究院提供技術保障的同時,也造就出一支高素質的IT專業化技術人才隊伍。
中心的IT技術人員對高性能計算機軟硬件及網絡系統等,有著透徹的理解和廣泛應用,在超級并行計算機、大型服務器、工作站,以及PC集群等系統的集成與維護方面,都具有獨特和豐富的寶貴經驗,并在石油系統的IT領域中享有一定的聲譽(圖1)。
1 搬遷的各項準備工作
1.1 系統搬遷目標
計算機系統搬遷與集成過程,就是將原有機房內設備搬遷至新建機房內,并將系統原有的全部設備再重新集成起來的過程。這些系統設備包括不同種類的服務器、存儲、網絡設備,以及為系統提供保障的安防設備、動環監控系統、UPS、精密空調及新風設備等。系統搬遷的主要目標有以下幾點。
⑴ 系統現狀梳理。對原機房內的系統現狀進行詳細整理,理清原機房內所有設備狀況、設備和應用之間的對應關系、設備連接關系、信息點狀況、信息系統架構、應用關聯關系、應用服務要求等基礎信息,并編寫成原機房的詳細勘察報告,為搬遷方案的制定及后期系統維護提供重要的基礎信息。
⑵ 新機房合理規劃。在滿足現有搬遷設備運行需求的基礎上,從長期業務發展的需求角度出發,有責任幫助系統擁有方對機柜、設備布局、網絡分區、應用分類等進行規劃與部署,以期達到建設成一個更易于管理、便于維護、綠色節能的新機房。
⑶ 系統平穩搬遷。通過對硬件關聯、應用關聯、業務影響及風險因素等進行分析,制定出一套行之有效的整體搬遷方案,減少業務中斷次數與時間,最低限度地減少對業務的影響,同時還要規避搬遷風險,最大限度地保障業務的連續性。
⑷ 資源有效投入。對業務需求所用硬件及應用中的關鍵節點進行認真分析,以降低搬遷風險并提高搬遷效率,合理投入備機、備件、備品,以期節約新投入的費用。
⑸ 搬遷周期可控。充分分析主機、存儲、網絡、業務等各種關聯關系,按計劃、按步驟、分批次進行搬遷,把搬遷時間控制在預訂的周期之內[3-5]。
1.2 搬遷準備工作
⑴ 搬遷前新機房要開展強電網絡、弱電網絡、供電系統工作狀態的測試工作。
⑵ 編制新機房服務器布局圖表。在搬遷之前,要提供新機房詳細的機柜位置布局圖、設備物理位置圖、線纜連接線圖。
⑶ 如果有異型機柜需要搬遷,則必須測量異型機柜尺寸,精確地預留好異型機柜所需空間。
⑷ 如果被搬遷的設備需要使用新機房內的機柜,則要提前調研原設備的導軌或托盤,以確定其是否符合新機房機柜的要求,調研內容包括導軌間距、孔徑、卡扣螺絲、托盤的寬度與深度,以及固定螺絲孔位置等信息。
⑸ 關鍵業務設備要進行備機、備件準備。
⑹ 對系統的應用軟件,包括中間件、數據庫、操作系統等安裝程序,集中準備、歸檔、打包以備急需。
⑺ 分析應用系統之間的相互聯系、邏輯依存關系、數據交換、共用硬件設備情況等,從而得出系統停機、開機順序,確保系統搬遷科學有序。
1.3 拓補圖與連接表
根據系統設備在原、新機房的安裝位置,制作原、新機房的機柜布局圖,以及機柜內設備的安裝位置圖,這些圖紙是機柜在新機房內的擺放、設備下架、上架和再集成時的重要依據。
⑴ 網絡拓撲圖及其端口連接表。原機房的網絡拓撲圖及網絡設備端口連接表,用于記錄原機房的網絡連接,便于了解原設備和網絡交換機的端口連接情況;新機房的網絡拓撲圖及網絡設備端口連接表,同時記錄了新機房網絡連接的變動情況,既為再集成時提供網絡連接依據,也為網絡的快速連接提供技術指導。
⑵ KVM拓撲圖及其端口連接表。原機房的KVM拓撲圖及端口連接表,用于記錄原機房的KVM連接,便于了解原設備和KVM交換機的端口連接情況;新機房的KVM拓撲圖及端口連接表,同時記錄了新機房KVM連接的變動情況。
⑶ 存儲拓撲圖及其端口連接表。原機房的存儲拓撲圖及存儲設備端口連接表,用于記錄原機房的存儲連接,便于了解原設備和存儲交換機或服務器的端口連接情況;新機房的存儲拓撲圖及存儲設備端口連接表,同時記錄了新機房存儲連接的變動情況。
根據系統在新機房內的機柜、設備的命名規則,對所有搬遷的設備進行統一命名,并對每臺設備及其連接的線纜進行標記,其目的是用于在設備搬遷之后能快速連接,避免由于線纜連接錯誤而導致服務、數據不能正常訪問(圖2)。
1.4 系統操作與場地檢查
⑴ 系統數據備份操作。系統在長時間運行后關機或在搬遷過程中,可能會由于磁盤損壞或文件系統破壞而造成數據丟失,而交換機的配置丟失可造成網絡連接錯誤。因此,在系統搬遷之前,必須由系統管理人員認真完成最后一次系統數據備份,以確保搬遷前后數據的完整性和正確性,確保在搬遷過程中一旦設備出現故障能快速恢復。如果條件允許,一定要對重要的操作系統進行磁帶或磁盤備份。
⑵ 系統重啟操作。系統在長時間運行之后,即使是正常關機再啟動,也有可能造成主板、CPU、內存、磁盤、擴展卡、電源等硬件的損壞。因此,搬遷前的系統重啟操作是必要的,以進一步確定搬遷前的系統硬件狀態。
⑶ 系統軟硬件狀態檢查。系統運行中的軟硬件狀態檢查,其目的是為了在搬遷之后,如果系統出現故障能方便分清責任。系統檢查的內容主要包括:查看設備外觀是否有破損;設備故障報警燈是否有報警情況;查看系統運行、CPU、內存、磁盤使用情況;以及系統日志分析等。
⑷ 重要場地環境設施檢查。在搬遷設備之前,需要檢查新機房內的必要設備和設施,看是否符合要求且可用,檢查的內容包括場地環境設施如裝修、UPS、配電、空調、溫濕度、潔凈度;設備配套設施如新購機柜、網絡、綜合布線系統;安保消防設施包括安防系統、消防系統、接地與防雷系統等。
2 搬遷與集成的實施過程
2.1 系統關機斷電
當系統運行狀態正常,并已具備關機條件時,由相關負責人下達關機指令。系統的關機斷電操作必須按照操作規程按順序執行,在每一步操作正確完成之后,才能對系統進行關機斷電操作。
在系統關機并切斷電源之后,需等到設備內部原件充分放電(尤其是UPS系統)之后才可以拆遷,以避免觸電風險,減少搬遷過程中對原器件的損壞。
2.2 設備下架過程
在設備下架之前,要再次確認設備的連線是否被全部拔除。在設備搬遷過程中,要防止靜電給設備帶來的致命傷害,尤其可能對主板芯片造成永久性損壞。防止靜電危害發生的主要措施有以下。
⑴ 搬遷設備要遠離能夠產生靜電的手機、對講機等。
⑵ 機柜接地良好。
⑶ 搬遷人員佩戴防靜電手套、穿防靜電服裝。
⑷ 設備在打包裝箱之前,先用防靜電薄膜和氣泡膜進行包裹或包裝。
⑸ 如果有接觸設備內部部件的操作,須佩戴防靜電護腕;在接觸部件之前,先用手觸摸金屬機箱外殼。
⑹ 對沒有接地的設備,先用導線對其進行放電操作。
⑺ 在設備運輸過程中,要盡量避免設備之間、設備與運輸工具之間的摩擦。
機柜里的設備按從下到上的順序拆卸,防止在拆卸上面的設備時,由于向下滑動而造成與下面的設備發生碰撞。
在設備下架時,所有設備都要輕拿輕放,以免造成不必要的損壞;應將下架后的設備放在指定區域內,然后,再搬運到指定地點,并對設備進行除塵處理。
2.3 系統設備運輸
系統設備裝車完之后,在從原機房到新機房的運輸過程中,要嚴格按照提前踏勘的行車線路行進,并由技術人員隨車對整個運輸過程進行監督。如果是在高速公路上行駛,車速應控制在最低速度要求;在其他路段上行駛時,車速應控制在每小時30公里以內。
2.4 系統重新集成
所謂計算機系統集成就是指以計算機為應用基礎,把各個復雜、分散部分的設備、結構、功能、信息等,經過處理將其整合形成一個整體、一個系統,并能夠高效運作。計算機系統集成又分為設備系統集成和應用系統集成兩部分[6-7]。
⑴ 系統設備現場清點與檢查。在系統設備運抵新機房裝卸區之后,要對設備進行現場卸貨、清點、搬運工作,其技術要求與設備在原機房的裝車、清點、搬運相同。在設備拆包之前,要對其外包裝和外觀進行現場檢查,如果發現有破損或磕碰情況,需要立即照相,并在裝箱清單上標注清楚。
⑵ 防靜電與設備上架。在設備上架時,也需要嚴防靜電對設備的損害。嚴格按照標定的設備位置進行上架,由具有多年施工經驗的專業技術人員現場對上架操作進行監督和指導。設備上架按從上到下的順序進行,以防止在安裝上面的設備時,由于向下滑動而造成設備碰撞。在所有設備上架完成之后,要再次確認安裝位置是否與所標定的設備位置一致。
⑶ 確保各種拓撲圖與端口連接表的對應關系正確。在設備上架完成之后,嚴格按照網絡拓撲圖、KVM拓撲圖、存儲拓撲圖,網絡設備端口連接表、KVM設備端口連接表、存儲設備端口連接表等對應關系,對各種線纜進行準確無誤的連接,以保證系統各設備連接的正確性。
⑷ 設備加電測試操作。設備加電測試分為兩種情況:一種是在設備測試間進行,另一種是設備在機房上架就位后進行。在設備測試間完成的測試工作,主要是在加電后對單個設備的硬件狀態進行測試,以便查看在搬運過程中是否有設備部件損壞。而設備在機房上架就位后完成的測試工作,主要是對高端磁盤存儲、磁帶庫等不易單獨加電測試,或不要求單獨在測試間加電的設備進行測試操作。
⑸ 系統應用測試操作。在所有設備上架、線纜連接、設備加電測試完成,且已滿足系統運行條件之后,即進入最后的系統應用測試,在此期間,要安排相關技術人員進行現場值守,以保障業務正常運行。
3 成功案例分析
北京某單位高性能計算機系統被部署在數據中心內,其系統總共涉及到86個機柜(其中異形機柜70個)內的不同設備。主要設備包括EMC Symmetrix DMX存儲設備、HP Superdome小型機,以及服務器、交換機等設備。其中最核心的設備就是4套22臺EMC Symmetrix DMX存儲設備,用于存放重要的應用數據。
搬遷前的主要準備工作包括核對設備信息、貼標簽和地面保護。按照設備信息、機房安裝位置、新數據中心安裝位置貼標簽,并對搬運路線上的地面、電梯進行保護,以防止在搬運過程中發生不可預知的事故。
按照新數據中心對接收設備的要求,對所有進入新數據中心的設備進行除塵處理,以滿足A級機房環境對設備的進入要求。利用防靜電薄膜和氣泡膜對整機柜的設備進行包裹,這是由于冬季的北京氣候干燥,防靜電薄膜能夠有效防止靜電對設備的損害,而氣泡膜能夠有效緩沖對設備產生的震動。
在系統安全到達新數據中心之后,首先對所有設備進行清點,對照規劃中的安裝位置圖進行上架安裝。然后,對服務器、交換機等重點設備進行加電測試,所有設備均能啟動并正常運行,設備的所有功能全部達到了搬遷前的水平。
4 結束語
高性能計算機系統搬遷與集成是一項復雜的工程,特別是針對及時性要求很苛刻的系統,這就要求參與系統搬遷與集成工作的IT技術人員既要有精湛的專業知識,又要有豐富的工作經驗,更要有高度的職業責任心,因為所搬遷與集成的高性能計算機既精密又昂貴,一旦在執行搬遷與集成任務過程中出現問題,其產生的后果和由此導致的影響將難以想象。
在系統開始搬遷之前,一定要制定一個完善的搬遷方案。應盡可能考慮到各種因素存在的可能性,要有針對解決出現各種問題的預案,多去現場實地了解與系統搬遷相關的情況。
在系統開始搬遷之后,要確保按已制定好的搬遷方案完成各項任務。在遇到問題時要冷靜處理,如果不能及時解決問題,則應果斷按應急預案處置。注重搬遷過程中的每一個環節,要特別注意設備清點與登記、系統關閉、測試和開機等各個關鍵過程,將系統出現問題的可能性減少到最低程度[8-9]。
參考文獻(References):
[1] 伊露,許春玲,宋應文.超級計算機機房搬遷策略與實踐[J].科研信息化技術與應用,2011.5:58-61
[2] 韋慶寶.供電局數據網和信息機房搬遷安全風險管控措施研究[J].廣西電力,2013.36(1):35-39
[3] 王鵬.關于數據中心機房搬遷的幾點建議[J].計算機光盤軟件與應用,2013.10:160-162
[4] 彭倫剛.關于通信機房搬遷的要點解析[J].通訊世界,2014.5:31-32
[5] 彭江強.企業信息化機房搬遷解決方案[J].湖南郵電職業技術學院學報,2015.1:32-35
[6] 遲學斌,顧蓓蓓,武虹,等.高性能計算機系統及平臺發展狀況分析[J].計算機工程與科學,2013.35(11):6-12
[7] 梁瑞虹.探討高性能計算機的可靠性技術與發展趨勢[J].網絡安全技術與應用,2014.10:187-189
[8] 吳鑫.中心機房搬遷的總結與思考[J].網絡安全技術與應用,2014.4:232-233
[9] 王晶.上海超算中心機房基礎設施建設與管理[J].建筑電氣,2011.9:69-72