隨著IT的不斷發展,數據中心內的系統越來越多,從而導致需要更多的服務器、存儲和網絡設備。設備的不斷增多,所帶來的管理和運維壓力和復雜度也隨之增加。
后來,服務器虛擬化技術(即軟件定義計算)的應用雖然減緩了隨著應用系統的增加而導致服務器數量增加的問題,實現了計算資源的按需提供,并且將之前要為業務系統上線而準備服務器從最初的按天計甚至按月計(含采購流程)縮短至幾分鐘。
但是,仍沒有解決存儲和網絡的按需提供。而軟件定義數據中心就是綜合了服務器虛擬化(軟件定義計算)、存儲虛擬化(軟件定義存儲)、網絡虛擬化(軟件定義網絡)等技術,在數據中心將傳統的計算、存儲、網絡等設備通過軟件抽象成各種對應的資源,實現了各種資源的按需分配。例如:數據中心內網絡不需要重新連線就可以被劃分成不同的隔離區域、實現應用的負載均衡也不再需要變動硬件,需要VPN也不再需要購買單獨的設備,唯一需要的僅是管理員點幾下鼠標。
在2015年時,除了火熱的軟件定義數據中心概念,還有超融合架構、云計算等熱門概念,所以當時在規劃2016年數據中心架構時比較彷徨,不知道數據中心該怎么去改造,才能適合單位的發展需求,同時也能便于以后的擴展。
當時單位數據中心面臨的問題就是:業務系統逐年不斷增多,需要不斷增加計算資源和存儲資源,隨之也需要不斷的增加網絡設備,以滿足新設備的互聯,同時網絡規模不斷擴大,安全策略也越來越龐大和復雜。由于一直采用服務器虛擬化技術,虛擬機創建的便捷性,也導致虛擬機越來越多,從最初幾十個到目前五六百個虛擬機,對虛擬機的管理維護難度也越來越大。
所以筆者當時在做數據中心改造方案時,一方面詳細了解當時各種新興的技術,另一方面也從所面臨的主要問題著手,才逐步地形成最終而可行的改造方案,當然也走了不少彎路,下面筆者將自己的經歷與大家分享下, 以供參考。
當時單位數據中心最突出的問題是存儲的問題,數據中心內早已采用了服務器虛擬化技術,采用的就是常見的前端服務器加后端集中共享存儲的傳統部署模式。隨著虛擬機數量的增加,在服務器可利用資源還剩余很多的情況下,存儲首先出現了瓶頸,所導致的現象就是虛擬機響應變慢。但存儲的采購、部署、以及后續資源的分配都不是那么容易。
當時融合架構的出現,給這問題的解決帶來了新的思路,于是接下來對融合架構做了詳細了解,才發現融和架構也不是一個標準的定義,各個廠商對其定義解讀都不一樣,所提供的產品解決方案也差距很大。
不過,超融合解決方案大致可以分類兩類:一類是超融合設備,一類是純軟件解決方案。前一個解決方案就是在單個機箱內提供完整的虛擬機平臺解決方案的設備,實質就是一個部署了多個虛擬管理程序的商用X86服務器,并利用相關軟件將本地存儲匯聚到一個大的共享池里,以供上層虛擬化平臺使用。
當時典型的產品有Nutanix、Scale Computing等。如Nutanix,就是在一個2U的機箱里集成了4臺主機,向上層虛擬化平臺同時提供計算和存儲資源。其優點就是上線時間短、易于管理和集成、能同時在容量和性能上進行橫向擴展。但缺點就是因為是一體化架構,軟件和硬件都是來自于同一廠商,受制于廠商的發展。
后一個解決方案就是純軟件解決方案,其實現也是利用軟件將底層的物理資源池化為一個共享的存儲設備,不過硬件只要在軟件要求的兼容列表即可。
2015年筆者專門去上海考察了Nutanix,了解了其具體運行機制和細節,Nutanix能在超融合做到國際前列,確實有其超強的專有技術,當時軟件銷售除了綁定一款Dell的服務器,也開始有綁定的第三方服務器,后來考慮到價格及其綁定服務器銷售的模式而放棄了這種方案。因為筆者所在單位是一所高校,在選擇技術方案時,一般都傾向于更靈活,限制少的技術方案。
隨后,筆者也考查了國內的一些解決方案,諸如H3C、華為等,不過當時兩家公司在存儲虛擬化上還不是很成熟,僅建議用于小規模環境,撰寫該文時,不知不覺已過去兩年了,不知道現在技術是否已成熟。
經過反復的調研和了解,最后存儲虛擬化最終鎖定了 VMware的 VSAN,因為 當時VSAN商業版已正式推出一年多,在部分行業已經大規模運用,其技術很類似于Nutanix,但是以純軟件的方式銷售,可以自行選擇或組裝符合其兼容性列表要求的服務器。
由于單位之前服務器虛擬化一直采用VMware的vSphere,在存儲虛擬化鎖定VSAN后,其網絡虛擬化就開始鎖定為VMware的NSX。
其間也了解過微軟的虛擬化解決方案,微軟的方案也很好,而且如果服務器環境是純Windows或Windows占絕大多數的情況下,購買了其底層虛擬化平臺,上面虛擬化機運行的Windows系統可以不用再購買License,如果是新建數據中心或數據中心Window系統很多,可以詳細了解下微軟解決方案。
通過反復的考查和了解,在技術方案方向基本確定后,就開始了一系列的測試,特別是針對網絡虛擬化的測試。
因為網絡虛擬化在2015年落地的項目很少,唯一看到的案例都是電信行業,其具體使用如何不得而知。通過大量長時間的測試,對整體方案的確定和實施是很有幫助的。2015年下半年所做的工作主要就是測試項目實施時會用到的相關產品,除了存儲虛擬化、網絡虛擬化等,同時還考察了數據中心相關的其它解決方案,例如虛擬化環境下的數據容災備份、系統的防病毒、安全、用戶的自主式管理等。
經過2015年的反復考察和測試確定技術方案后,2016年上半年就開始了項目的實施。項目主要分了幾個階段:第一階段,相關硬件設備的采購,如服務器和交換機。第二階段,相關軟件產品的采購。第三階段,軟件的部署和相關功能、性能、穩定性的測試。第四階段,現有系統的遷移。第五階段,容災和安全實施。
因為單位現有服務器、存儲、交換機等設備幾乎都是2010年左右的,所以改造價值不高,主要利舊用于災備環境,所以為了數據中心的建設,專門采購了一批新的服務器和交換機。
服務器均是按照VMware VSAN的硬件兼容列表進行配置的,選擇的是2U的機架式X86服務器,每臺服務器前端有24個2.5寸的硬盤插槽,每臺服務器分別配置了3塊SSD硬盤和21塊SAS硬盤,SSD硬盤用于讀寫緩存,21塊SAS用于數據存儲。最終,每臺服務器除了能提供計算資源,還能提供幾十TB的存儲空間。由于VSAN對網絡要求較高,為了獲得更好的性能,所以交換機均采用的是純萬兆交換設備。
由于軟件定義數據中心方案主要采用的是VMware的解決方案,所以支撐這個數據中心的主要幾款軟件分別是VMware的vSphere(服務器虛擬化)、VSAN(存儲虛擬化)、NSX(網絡虛擬化)。
為了輔助這些產品的運維管理,還需要vRealize Operations、vRealize Log Insight等軟 件,vRealize Operations主要用于虛擬化平臺使用的性能監控和分析,而vRealize Log Insight是一款強大的可視化日志系統,除了可以搜集主機、vCenter等的相關日志信息,如果采用了網絡虛擬化,主要能用于查看軟件防火墻策略的相關命中和詳細信息。
為了解決容災備份和虛擬機的防病毒、安全等,還采購了備份軟件Veeam Backup&Replication,以 及防病毒和安全防護產品亞信的Deep Security。
Veeam備份軟件是從虛擬化環境起家的,雖然公司成立時間不是很長,但由于純粹是從虛擬化環境起家,所以其獨有的許多技術和功能設計都超過了老牌備份方案,像Syamantec的NBU等。
Veeam,筆者在2013年左右就對該產品功能做過測試,當時感覺到該產品許多功能令人耳目一新,讓備份和恢復及災備演練都變得很輕松。所以此次解決方案中,果斷地選擇了該產品。而亞信的Deep Security前期也做了測試,主要采用其防病毒模塊、IPS等。
當采購的硬件和軟件產品到位后,就開始了整套系統的部署,由于前期規劃和測試比較充分,所以整個系統部署都比較順利。當整個系統部署完畢后,就利用相關工具做了一周左右的壓力和穩定性測試。其間,個別主機也出現過問題,主要就是主機部分硬件的驅動版本和軟件不兼容導致,最后升級相關硬件的驅動以及主機的BIOS,問題都得到了解決。
總之,在部署系統時,最容易出現問題的地方就是采用存儲虛擬化后,對硬件的兼容性要求比較高,軟件兼容這塊兒容易出現問題。所以在部署的時候,要按照軟件的兼容性列表來采購硬件,并且將相關硬件的驅動以及主機的BIOS升級到與軟件平臺相兼容的版本。
而服務器虛擬化都是很成熟的產品,不太容易出現問題,至于網絡虛擬化,由于是部署在虛擬化平臺之上,屬于純軟件產品,和硬件不存在任何兼容性問題,如果出問題的基本都是軟件的一些小bug,都可以通過升級軟件版本或打補丁輕松解決。
當整個新的平臺部署完畢,并且經驗證測試以后,就開始業務系統從舊平臺向新平臺的遷移,這是整個項目里最耗時間和最費精力的工作。
當時現有業務系統已超過了400多個虛擬機,且數據容量也超過了100TB,所以整個業務系統的遷移花了差不多1個月的時間。
在業務系統的遷移時,其經驗就是提前最好規劃,分批遷移,先遷移重要度最低的業務系統,最后再遷移最重要的業務系統,每遷移完一批業務系統,都要對遷移后的系統進行測試,保證其運行安全可靠。
由于采用網絡虛擬化后,需要將服務器網段網關下移至虛擬化平臺上,所以網絡虛擬化的相關設置除了測試驗證配置外,在業務系統遷移之前是沒有按照最終需求進行配置,主要是為了減少業務系統遷移的復雜度。
當所有業務系統都遷移到新的平臺后,才開始網絡虛擬化的配置,將現有業務系統的網關從硬件設備上遷移至虛擬化平臺上,由于網關下移,虛擬機到網關的網絡會臨時中斷,所以網絡拓撲架構的變更最好放在業務不太繁忙的時間進行。
當所有業務系統遷移完畢且網絡拓撲也更改完畢后,就可以推進容災和安全配置等工作,進一步完善數據中心。前面所做的工作主要是新環境的建設及業務系統的遷移,剩下的是為了讓數據中心能夠更好更完善。
大家對災備應該都很熟悉,其過程和傳統的很類似,就不在這里贅述。唯一的區別就是現在是在純虛擬化的環境之下,所采用的平臺不一樣,依然都是根據業務系統的重要性制定相應的數據備份計劃,以及異地或不同數據中心業務平臺的恢復或者雙活之類,在虛擬化環境下是較容易實現的。
除了業務系統的災備外,剩下的就是各個業務系統安全策略的設置,之前數據中心主要是通過硬件防火墻、IPS、WAF等設備在數據中心出口進行防護,采用網絡虛擬化后,很多安全策略就已經下移到虛擬機層面,即可以細化到每個虛擬機。
所以當業務系統很多的時候,細化每個業務系統需要對外開放的端口也是一件非常繁瑣但意義重大的工作。在安全這方面,筆者所在單位主要采用了NSX的分布式防火墻,精確控制每個虛擬機的通訊,以及通過Deep Security的防病毒和IPS等進一步防護每一個虛擬機。
筆者所在單位將現有數據中心改造成軟件定義的數據中心之后,主要解決了以下一些問題:
當硬件性能不足時,可以通過升級單臺服務器內部組件實現性能的縱向擴展,也可以通過增加服務器的數量實現整體性能的橫向擴展。數據中心整體架構擴展的靈活性決定了可以很好的滿足以后各種業務需求的變更。
例如,數據中心可以不再需要硬件的防火墻、WAF、VPN、負載等諸多硬件設備,都可以通過網絡虛擬化本身的軟件功能實現,而且其功能會隨著軟件的發展而不斷地豐富和完善,不再像以前過幾年就因為性能或功能的原因需要升級替換諸多網絡安全設備。
在軟件定義的數據中心環境下,數據中心僅僅需要的是高性能的網絡交換設備,甚至純二層交換設備都可以,很大程度上降低了網絡的復雜度以及對網絡設備高級功能的依賴。
在沒有實現網絡虛擬化之前,可能會因為內部業務系統存在漏洞被攻破后,其它主機都被暴露在被攻破的主機前,因為傳統的安全防護都在數據中心出口,數據中心內部很難實現精細化的管控。雖然之前也有廠商通過一些技術和方案解決了虛擬化環境下內部安全問題,但基本都是讓所有虛擬機流量必須出去到安全設備繞一圈再回來。不論通訊的虛擬機是否在同一臺主機,這樣所導致的結果就是數據流量的途徑并不是最優路徑,而成了常說的發卡彎路徑。
說了這么多好處,下面說一說目前不足的地方。其實不足的地方并不是軟件定義數據中心本身的問題,而是相關的一些產品或者輔助產品仍然存在待完善的地方。
例如Deep Security的防病毒,目前要使用防病毒功能,需要在每個虛擬機安裝VMware Tools,并需要選擇相應的組件,另外當某個虛擬機真被感染時,有大量文件被刪除或隔離時,常會超出其緩存限制,需要人為手動的干預。
Deep Security為了保證性能,對每臺物理主機上運行的虛擬機數量有建議值,但該建議值有點偏小,所以不適合配置很高的服務器,單臺運行上百個虛擬機的環境。
Deep Security的IPS功能目前偏弱,和硬件IPS相比還有差距。當然這些問題并不是軟件定義數據中心本身的問題,軟件定義數據中心將硬件和軟件解耦,通過軟件的發展來完善數據中心所需功能,以及其靈活的擴展方式注定會吸引越來越多的用戶。
未來,數據中心管理工作將越來越自動化和簡單化。