深圳市億威爾信息技術(shù)股份有限公司 孫大勇 王 鵬 陳德彬 徐安舒 張 軍
分布式系統(tǒng)是有一組通過(guò)通訊協(xié)議通信、為了完成共同的任務(wù)而協(xié)調(diào)工作的計(jì)算機(jī)節(jié)點(diǎn)組成的系統(tǒng),分布式系統(tǒng)的出現(xiàn)是為了用廉價(jià)的、普通的機(jī)器完成單個(gè)計(jì)算機(jī)無(wú)法完成的計(jì)算、存儲(chǔ)任務(wù)。分布式系統(tǒng)難于理解、設(shè)計(jì)、構(gòu)建和管理,它們比單個(gè)機(jī)器數(shù)倍還要多的變量引入到設(shè)計(jì)中,使應(yīng)用程序的根源問(wèn)題更難發(fā)現(xiàn),面臨著諸多的挑戰(zhàn):異構(gòu)的機(jī)器與網(wǎng)絡(luò),節(jié)點(diǎn)故障容災(zāi)性,不可靠的網(wǎng)絡(luò),計(jì)算和存儲(chǔ)的一致性,數(shù)據(jù)存儲(chǔ)的可用性,系統(tǒng)的高性能,系統(tǒng)的擴(kuò)展性等。
基于分布式式系統(tǒng)面臨的一系列挑戰(zhàn),本文基于兆芯的自主可控分布式計(jì)算與安全存儲(chǔ)系統(tǒng),研究采用由上層應(yīng)用軟件、中間件和底層硬件基礎(chǔ)設(shè)施組成。上層應(yīng)用和中間件為主流的分布式應(yīng)用架構(gòu),底層硬件基礎(chǔ)設(shè)備包括計(jì)算節(jié)點(diǎn)、存儲(chǔ)節(jié)點(diǎn)、管理節(jié)點(diǎn)、網(wǎng)絡(luò)交換節(jié)點(diǎn)和UPS電源、線纜等附件。系統(tǒng)組成如圖1所示。

圖1 分布式系統(tǒng)組成框圖
構(gòu)建這樣可重構(gòu)、高計(jì)算性能、高實(shí)時(shí)性、低延遲大數(shù)據(jù)量的綜合計(jì)算和存儲(chǔ)系統(tǒng),是對(duì)基礎(chǔ)軟件、中間件、管理軟件及應(yīng)用軟件的整合。標(biāo)準(zhǔn)化的接口兼容主流的分布式計(jì)算框架和云計(jì)算虛擬化應(yīng)用,軟件架構(gòu)圖如圖2所示。

圖2 軟件架構(gòu)圖
所支持的操作系統(tǒng)有:Windows Server、Suse、RedHat/CentOS/Vmware/銀河麒麟、中標(biāo)麒麟等主流國(guó)內(nèi)外服務(wù)器OS。中間件包括通信中間件、計(jì)算中間件、數(shù)據(jù)庫(kù)中間件、分布式架構(gòu)軟件、虛擬化套件等。應(yīng)用軟件可根據(jù)客戶(hù)需求預(yù)裝。
硬件采用4U機(jī)箱和刀片節(jié)點(diǎn)形態(tài),包括24個(gè)支持熱插拔的計(jì)算/存儲(chǔ)節(jié)點(diǎn)、2個(gè)主備網(wǎng)絡(luò)接口節(jié)點(diǎn),2個(gè)主備管理節(jié)點(diǎn),4個(gè)電源模塊和8個(gè)風(fēng)扇模塊。建立兩個(gè)計(jì)算集群,在兩個(gè)計(jì)算集群中構(gòu)建8個(gè)x86內(nèi)核,通過(guò)內(nèi)部主機(jī)互連結(jié)構(gòu),以連接芯片組和處理器集群,采用安全哈希算法SHA-1,SHA-256和加密算法SM3,SMS4很大程度上增強(qiáng)了安全保密性能支持能力;而且該平臺(tái)支持硬件虛擬化,可以同時(shí)操作不同的內(nèi)核,通過(guò)不同等級(jí)的指令緩存和硬件預(yù)取,使其設(shè)備間的交換傳輸速率比原來(lái)提升了兩倍以上,可達(dá)到1000Mb/s。該系統(tǒng)原來(lái)的單通道支持模式現(xiàn)在變?yōu)閱坞p通道同時(shí)支持,其通道內(nèi)存容量可達(dá)到64GB;在該平臺(tái)下采用支持C0~C4的增強(qiáng)型省電裝置和支持p態(tài)轉(zhuǎn)換,大大降低了同等應(yīng)用場(chǎng)景整機(jī)能耗;同時(shí)該系統(tǒng)平臺(tái)增加了熱檢測(cè)和熱保護(hù)功能,可實(shí)時(shí)監(jiān)控可監(jiān)控管理性能;其在處理2D和3D圖形方面平均無(wú)故障時(shí)間可近乎消除,通過(guò)采用完全國(guó)產(chǎn)CPU和加密算法和哈希算法,大大增強(qiáng)了安全保密性能支持能力。
硬件平臺(tái)均采用兆芯CPU解決方案。開(kāi)勝KH-30000系列8核處理器是兆芯自主研發(fā)的最新一代服務(wù)器通用X86 SOC處理器產(chǎn)品,主頻2.7GHZ,國(guó)內(nèi)率先采用16nm CMOS工藝制程工藝,兼容最新的X86指令集,可支持64位系統(tǒng)以及CPU和IO硬件虛擬化技術(shù)。同時(shí)支持SM3/SM4國(guó)密算法,可提供硬件級(jí)別的數(shù)據(jù)加密保護(hù),支持CPU雙路互連大大提高計(jì)算密度。主要面向服務(wù)器和存儲(chǔ)應(yīng)用領(lǐng)域。
ZX-200 IO擴(kuò)展芯片是兆芯自主研發(fā)德新一代、高性能IO擴(kuò)展芯片,可擴(kuò)展PCIE2.0,USB3.0/2.0,SATA3,GNIC等服務(wù)器通用接口。
計(jì)算/存儲(chǔ)節(jié)點(diǎn)采用開(kāi)勝KH-37800D 2路互連方案,支持4通道DDR4 ECC UDIMM/RDIMM,單節(jié)點(diǎn)最大內(nèi)存容量128GB。搭配ZX-200擴(kuò)展芯片。支持配置2塊3.5寸HDD或者4塊2.5寸HDD/SSD。板載GE管理網(wǎng)卡和業(yè)務(wù)網(wǎng)卡。板載BMC管理芯片,支持通用的IPMI協(xié)議,實(shí)現(xiàn)節(jié)點(diǎn)的本地實(shí)時(shí)狀態(tài)監(jiān)控、管理和遠(yuǎn)程管理維護(hù)功能。
采用分布式計(jì)算和存儲(chǔ)算法,將應(yīng)用計(jì)算或存儲(chǔ)的任務(wù)分割成一個(gè)個(gè)小任務(wù),分布到各計(jì)算節(jié)點(diǎn)與存儲(chǔ)處理單元節(jié)點(diǎn)上,由計(jì)算節(jié)點(diǎn)與存儲(chǔ)處理單元節(jié)點(diǎn)完成各自對(duì)應(yīng)的任務(wù)后,再匯總整合結(jié)果,得到完成的計(jì)算處理結(jié)果。分布式計(jì)算原只用于大型超算中心。但由于技術(shù)的發(fā)展與生產(chǎn)能力的提高,在小型的服務(wù)器也以刀片節(jié)點(diǎn)的方式,達(dá)到分布式節(jié)點(diǎn)的要求,實(shí)現(xiàn)小型整機(jī)或區(qū)域服務(wù)器實(shí)現(xiàn)分布式計(jì)算和安全存儲(chǔ)系統(tǒng)的應(yīng)用,是大型應(yīng)用集群框架的小型化實(shí)現(xiàn)。
本文所研究的基于兆芯的自主可控分布式計(jì)算與安全存儲(chǔ)系統(tǒng),使用國(guó)產(chǎn)CPU實(shí)現(xiàn),自主可控;兼容性高可100%替換原X86計(jì)算機(jī),支持主流應(yīng)用如WPS,畫(huà)圖等應(yīng)用程序,測(cè)試無(wú)兼容性問(wèn)題;最大容量為單機(jī)箱768TB,可橫向擴(kuò)展擴(kuò)容;節(jié)點(diǎn)數(shù)可達(dá)24節(jié)點(diǎn);增強(qiáng)的可監(jiān)控管理性能,支持整機(jī)CPU/風(fēng)扇/電源等部件可監(jiān)控管理,支持遠(yuǎn)程監(jiān)控管理;可支持并行計(jì)算可構(gòu)建高性能計(jì)算機(jī)集群;設(shè)備間數(shù)據(jù)交換傳輸速率不小于10Gbps;整機(jī)平均無(wú)故障時(shí)間(MTBF)≥5000h;同等應(yīng)用場(chǎng)景整機(jī)能耗降低25%;增強(qiáng)安全保密性能,支持IC卡/指紋等保密開(kāi)機(jī)模式,支持設(shè)備間的全加密聯(lián)網(wǎng)等。