袁怡男

企業的核心業務在上云的過程中對性能、穩定性和安全性有諸多考慮,企業原有的核心應用需適配虛擬機進行調整,企業核心數據庫業務對高性能的要求給虛擬機帶來很大挑戰。基于此,金山云攜手英特爾打造裸金屬服務,通過以第二代英特爾至強可擴展處理器為主的產品應用,實現性能、穩定性、安全性等大幅度提升,同時降低成本,優化資源配置,加速助力企業數字化轉型。金山云與英特爾打造的裸金屬服務到底是“何方神圣”,且聽金山云裸金屬&異構計算產品總監金旭先生在8月6號舉行的英特爾至強可擴展平臺用戶經驗分享會上的分享。
Q:一般什么樣的用戶會選擇使用裸金屬(Bare Metal)產品?和傳統的云主機服務相比,它有什么好處?兩者的使用場景如何區分?
A:目前金山云裸金屬(物理機)的使用客戶基本上是中型或者大型客戶,同時還有一部分的CTI(呼叫中心)客戶。裸金屬產品服務的第一個優點是可以構建更安全的生態。裸金屬服務是把物理服務器的全部權限開放給客戶,因為有些客戶覺得服務器都在自己手里控制時數據才是安全的。而裸金屬產品實現了物理層面上的數據隔離,并不是傳統為了網絡邏輯化而做出的虛擬化隔離,這就保證了它的安全性。
我們在運營裸金屬服務時發現,有一部分客戶用它來跑容器服務(Container Service)。在業界,大家看到的容器形態是基于云主機或者云物理主機的形態去擴展,雖然容器本身有一定的隔離性,但物理服務器本身就是隔離的,用來裸金屬來跑容器安全性更強。
其次,某種程度上裸金屬產品單位性能成本更優秀。用戶選擇云服務是因為云主機把計算單元更小化了,所以可以降低成本。而容器則會進一步降低客戶的成本。不過對于物理服務器來說,如果在CPU、內存和硬盤的使用率非常高的情況下,物理機的單位性能成本其實是優于云主機的。
云計算的核心目的是幫客戶減少運維的壓力,減少開支。從常見的應用來看,云主機通常能比較好地支持橫向可快速擴展的場景,比如8核、16GB內存或者16核、32GB內存的場景,可以大規模地應用于網站、應用的搭建。物理服務器則更多的是用來運行更穩定的業務。雖然金山云具備在20分鐘內開一千臺裸金屬服務器的能力,但是它的物理資源還是有一定限度的。反過來,云主機的擴展能力則更強,橫向擴展的數量會更大一些,這是兩者應用場景的區隔。
物理服務器有一些更適合的場景,比如某些大數據應用的場景。普通的大數據場景會使用SATA硬盤來存放客戶的數據,此時依托于物理機就能提供更大的帶寬。業界的云主機一般提供1Gbps、2Gbps到7.5Gbps的帶寬,而物理機可以提供20Gbps的帶寬來應對大存儲的場景,這樣一來單位成本下的價格會遠優于各種各樣的云存儲和云盤。也就是說,在數據量比較大的情況下,比如單機超過15TB的時候,物理機的成本會降低。所以,金山云可以為不同場景的用戶提供云主機或者物理機,最終讓客戶在不同應用上的TCO花費變得更低。總體來說,裸金屬產品服務的目標應用有四個:大數據場景、高性能場景、AI場景以及基于英特爾傲騰數據中心級持久內存的高內存需求場景。
對于AI來說,由于其對整個算力的要求是極其高的,甚至會在物理機也出現10瓶頸,所以我們引入了英特爾的P4510企業級SSD來全面滿足AI客戶訓練的需求。同時我們還推出了基于英特爾傲騰數據中心級持久內存的產品,比如用戶如果需要自建Redis的服務,包括其他類似的AI算法推薦,或者對內存消耗相對比較高的業務,比如需要512GB或者1TB的內存,甚至更大容量內存的時候,同時對成本也有一定控制,那么他們可以使用配備了英特爾傲騰數據中心級持久內存的產品。
Q:我們發現新推出的裸金屬產品不少都采用至強可擴展處理器金牌6240,為什么沒有選擇用8系列的處理器呢?
A:在業界,更高的8系列至強可擴展白金系列處理器基本上是使用在云主機上去做虛擬化應用,因為它的CPU核心數量更多,可以提供給更多的用戶。8系列處理器雖然性能更高,但是在裸金屬的應用環境,至強金牌6240有18核,主頻和睿頻也比較高,總體比較均衡,性價比更高,所以我們和客戶更傾向于如此選擇。現在的物理機所采用的至強金牌6240處理器雙路有36個核心72個線程,其實已經能滿足大多數計算密集型應用的需求了。
另外,為什么我們在大數據場景上用至強金牌5218處理器呢?這是因為大數據場景本身對CPU資源的消耗并不是那么大,基本上處理器不會成為瓶頸,而其他部件比如網絡可能存在瓶頸,或者普通的SSD也是瓶頸,這就像一個桶一樣,會有短板存在。我們設計的目標就是去把這些短板補齊,讓用戶把費用花在刀刃上。
還有,對于Redis這樣的場景來說,基本上如果核心在10核心以下時,處理器有可能會成為瓶頸。不過如果采用14核以上的處理器,那么瓶頸就不會出現在處理器上,而主要出現在內存容量上。那么無論處理器是增加到16核還是18核,對于Redis這種場景的整體性能影響是不那么大的。最后,金山云現在已經引入了擁有更多核心的英特爾至強白金8270來應對虛擬化場景下的多核需求,所以是在不同場景下有不同的選擇。
Q:從現在的用戶需求來看,還有沒有對處理器主頻有著更高要求的場景或者需求?
A:目前我們看到的情況來說,超過3.0GHz以上主頻的需求在某些計算場景有可能會遇到,但是體量不會特別大。我們最近在探索云游戲場景(包括8月3日金山和英特爾一起發布的云游戲場景解決方案)時發現,云游戲對主頻要求比較高,需要在3.0GHz以上。因為這個游戲和普通游戲不太一樣,它是把計算性能全部放在云端,手機端或者電視端只做圖像的視頻流處理,比如我們到酒店的時候只需要隨身攜帶一個盒子連接電視,接一個外接鍵盤就可以玩大型游戲。
Q:是不是可以理解為做云游戲的時候對高頻CPU的需求會更高?
A:其實現在大家都是在找一個均衡點:核心數量多一點,主頻也適當高一點。因為高主頻的CPU其實是很昂貴的。對于游戲而言,如果跑在單線程上,在一個核上跑,主頻高可以跑得非常好。但游戲開發商現在都希望相對采用“Scale out”模式,橫向擴展利用到多個核的性能,讓主頻不需要那么高,這才是比較均衡的軟件架構。這樣主頻也可以不要那么極致,性價比比較高,還可以根據不同的工作負載來選擇變化。
Q:在實際使用英特爾的做騰數據中心級持久內存(Optane DC Persistent Memory)時,應該如何利用好其內存特性呢?
A:這個要分傲騰數據中心級持久內存應用的初階和高階。初階是大家希望擁有TCO優勢,用戶需要看到的是增大內存,操作系統是不知道底層有數據中心級持久內存的,所以應用、操作系統都不需要更改,直接就是作為內存模式,這對客戶來講投資回報比較高,TCO比較好。當傲騰數據中心級持久內存直接作為內存使用時,搭配的DRAM會成為持久內存的緩存,這樣可以保持整個系統的性能平衡,就好像你用SLC作為TLCSSD的緩存一樣。
不過對于高階客戶來講,怎么把優勢更進一步發揮出來呢?這就需要根據應用本身進行技術實力要求更強的聯合研發,把其不同的特性利用起來,讓TCO可以進一步下降,英特爾和金山云也在針對云數據庫Redis做類似研發。因為Redis也能進行冷熱分層,超熱或者小的數據可以放在內存里,剩下的相對偏冷和溫的數據,以及較大的數據就放在持久內存里,有各種方式來充分發揮出各個性能,確保沒有性能瓶頸,最大限度地發揮出投資的價值。
總之,想要最大化地體現出英特爾傲騰數據中心級持久內存的價值,—方面整個應用本身的需求應該是偏內存型的,內存在服務器投資里的占比越大,換用傲騰數據中心級持久內存之后受益也就越大。另—方面就是要進行深度開發優化,進一步提升效率。
結語
兼具物理機性能,且適配高性能、大吞吐、數據大容量、對安全性要求高、又要快速交付的場景,裸金屬服務憑借自身優勢已成為云計算演進的一個新方向,而金山云攜手英特爾打造的創新型裸金屬服務憑借強大的軟硬件支撐和不斷創新的技術體系也被視為業界下一個“爆款”。