陸 鋼
中國電信研究院 廣州 510630
數(shù)字信息基礎設施已經(jīng)成為社會運行的壓艙石,在經(jīng)濟社會發(fā)展中發(fā)揮著重要作用。算力是數(shù)字信息基礎設施的核心要素,算力就是生產(chǎn)力,算力每投入1元可帶動3~4元GDP經(jīng)濟增長,其戰(zhàn)略性、基礎性、先導性地位日益凸顯[1]。政府、企業(yè)和公眾已普遍接受云計算概念,云計算成為算力時代最重要的算力資源,成為數(shù)字信息基礎設施的核心組成部分[2]。
國家高度重視數(shù)字信息基礎設施建設,建設數(shù)字信息基礎設施成為國家發(fā)展戰(zhàn)略的重要組成部分,云計算技術創(chuàng)新成為關系我國發(fā)展全局的重大問題。國家要求加快構建以國內(nèi)大循環(huán)作為主題,形成國內(nèi)國際雙循環(huán),相互促進的新發(fā)展格局。新發(fā)展格局對數(shù)字信息基礎設施提出了更高水平發(fā)展的要求,必須大力提升自主創(chuàng)新能力,盡快突破關鍵核心技術。云計算技術創(chuàng)新是數(shù)字信息基礎設施向更高水平發(fā)展的關鍵,也是形成以國內(nèi)大循環(huán)為主體的核心基礎[3]。
從算力的基本構成來看,云計算的發(fā)展始終要考慮的三大關系,分別是軟件和硬件的關系、服務器和終端的關系、算力和網(wǎng)絡的關系,每個關系的兩端在生態(tài)上是互相促進、互相影響的,在技術上是互相協(xié)同、互相融合的,在市場上是互相補充、互相競爭的。
第一是軟件和硬件的關系,兩者互相協(xié)同、互相促進、互相補充。計算機軟件和數(shù)據(jù)存儲在存儲器中,轉(zhuǎn)換成可以理解執(zhí)行的指令送到硬件固化的CPU執(zhí)行,軟件可編程提供了更大的靈活性。現(xiàn)階段通用計算架構在效率上無法滿足各行各業(yè)多種專業(yè)化需求,因此FPGA、ASIC等多種專業(yè)硬件出現(xiàn),將部分軟件完成的功能通過硬件來實現(xiàn),目前還出現(xiàn)多類型融合芯片,將原本通用CPU上運行的部分軟件功能卸載到專用芯片上。軟件的靈活性、通用性和硬件的高效性如何平衡,是云計算發(fā)展過程中始終存在的一個問題。
第二是服務器和終端的關系,兩者互相協(xié)同、互相促進、互相競爭。服務器和終端都是算力的提供者,兩者間的算力博弈一直存在。云計算的出現(xiàn)改變了服務器生態(tài),服務器和終端的博弈演變成云計算和終端的算力博弈。從2021年半導體市場的出貨金額來看,智能手機占比25.3%,個人電腦占比11.3%,數(shù)據(jù)中心占比13%,邊緣占比增長最快,終端算力的占比最高[4]。云計算希望承載更多的算力并將終端變成瘦終端,終端希望承載更多的智能算力以進一步提升用戶體驗,邊緣計算實際上是云計算和終端算力競爭下出現(xiàn)的一種階段性產(chǎn)物。服務器和終端的算力之爭本質(zhì)上是圍繞客戶體驗,如何提供最經(jīng)濟高效的算力,如何保證算力在云服務和終端之間無縫流動的問題。
第三是算力和網(wǎng)絡的關系,兩者互相協(xié)同、互相融合、互相促進。一方面網(wǎng)隨云動、網(wǎng)隨算動,云和算力在哪里網(wǎng)絡就要到哪里,云和算力要求有云間互聯(lián),終端算力在用戶側(cè)要求有數(shù)據(jù)接入網(wǎng),算力需要一個最簡潔的高效、安全、實時性強的網(wǎng)絡;另一方面云網(wǎng)逐步走向一體,網(wǎng)絡需要利用算力提供一個最高效的運行環(huán)境,網(wǎng)絡上云已成為業(yè)界趨勢。算力和網(wǎng)絡永遠是在找一個滿足當前各自需求最經(jīng)濟安全高效的方案。
從全球云計算技術發(fā)展歷程來看,經(jīng)歷了三個階段:1.0是云計算培育期,以資源虛擬化和集中管理為核心技術特點;2.0是云計算成熟期,以云原生和資源編排為核心技術特點,大數(shù)據(jù)和人工智能成為熱點;3.0是云計算發(fā)展深化期,進入算力時代,政府和企業(yè)應用加速上云,應用領域觸及到政府和中大型企業(yè)核心系統(tǒng),以云網(wǎng)融合、云邊端協(xié)同為核心技術特點。
全球范圍內(nèi),以亞馬遜、微軟、谷歌為代表的云計算頭部企業(yè)占據(jù)全球市場一半以上份額,云計算資源節(jié)點遍布世界各地,產(chǎn)品和技術成熟度高。美國在云計算科技創(chuàng)新上引領全球發(fā)展,美國企業(yè)在云計算主流開源社區(qū)貢獻上排名第一,掌握了云計算關鍵軟硬件核心技術,在云計算產(chǎn)業(yè)中處于全球領先位置。
近年來我國云計算產(chǎn)業(yè)蓬勃發(fā)展,在全球開源軟件發(fā)展和全球供應鏈推動下,我國云計算技術創(chuàng)新和全球發(fā)展基本同步,1.0階段處于跟隨狀態(tài),2.0階段以互聯(lián)網(wǎng)企業(yè)為主的我國頭部企業(yè)已經(jīng)縮小差距,在主流開源軟件社區(qū)進入第二陣營,3.0階段我國加速追趕,提出云網(wǎng)融合、綠色低碳、安全可控等先進理念,開始走出差異化發(fā)展的創(chuàng)新之路,在部分領域有可能實現(xiàn)超越。同時我國在云計算上游關鍵芯片、基礎軟件等領域開始布局,培育國產(chǎn)自主可控的云計算產(chǎn)業(yè)。但是也必須承認,雖然我國云計算技術創(chuàng)新取得了長足進步,但是距離全球領先國家仍存在差距。
圍繞云計算發(fā)展三大關系,結(jié)合我國云計算技術發(fā)展現(xiàn)狀,現(xiàn)階段要推動我國云計算更高水平發(fā)展還需要解決以下四方面的問題。
1)基礎軟硬件技術掌控不足的問題。現(xiàn)階段在云服務器領域采用X86、ARM指令集的芯片占比超9成[5],自主指令集芯片占比低且與主流芯片存在較大代際差;操作系統(tǒng)國產(chǎn)化市場接受度不高,指令集和操作系統(tǒng)技術掌控不夠是關系云計算產(chǎn)業(yè)供應鏈安全的根本問題。
2)軟硬件協(xié)同的問題。現(xiàn)階段隨著數(shù)據(jù)中心規(guī)模的不斷擴大,對處理性能、效率、節(jié)能的要求不斷提升,摩爾定律失效,通用CPU和軟件架構已經(jīng)無法滿足這一要求,如何在軟硬件架構協(xié)同上實現(xiàn)突破,成為云計算發(fā)展必須解決的重要問題,其本質(zhì)是如何處理硬件和軟件的關系[6]。
3)云邊端資源調(diào)度的問題。現(xiàn)階段終端和邊緣算力占比大,邊緣和終端的算力沒有和云端算力充分協(xié)同,云、邊緣和終端算力運行環(huán)境不一致,如何充分利用邊緣和終端的算力資源,和云計算進行統(tǒng)一資源調(diào)度就成為一個新的發(fā)展問題,其本質(zhì)上是如何處理云計算和終端的關系[7]。
4)網(wǎng)絡云化的問題。現(xiàn)階段網(wǎng)絡調(diào)度不靈活、運行效率低、建設成本高,需要采用最先進的計算技術來升級,如何采用云化技術改造現(xiàn)有網(wǎng)絡成為當前運營商面對的一個主要問題,其本質(zhì)是處理計算和網(wǎng)絡的關系。
云計算技術創(chuàng)新總體目標是實現(xiàn)我國在云計算產(chǎn)業(yè)全面國產(chǎn)自主掌控,在以下關鍵技術領域?qū)崿F(xiàn)高水平突破,達到國際領先水平,支撐數(shù)字信息基礎高水平發(fā)展。
如圖1所示,云計算高水平發(fā)展要以問題為導向,結(jié)合三大關系圍繞四大問題,展開關鍵領域的研發(fā)攻關工作。

圖1 云計算技術創(chuàng)新關鍵領域示意圖
1)圍繞基礎軟硬件技術掌控不足的問題,需要打造基于RISC-V的新一代指令集,開發(fā)定制操作系統(tǒng),圍繞云計算應用場景進行系列基礎軟硬件技術攻關,從根本源頭上解決云計算供應鏈安全問題,逐步形成國產(chǎn)可控的計算指令集和操作系統(tǒng)生態(tài)。
2)圍繞軟硬件協(xié)同的問題,需要研究軟硬件融合技術,重點研究異構計算技術,圍繞定制服務器和新型終端的需求,實現(xiàn)通用CPU的軟件功能在專用芯片上的卸載,通過多種形式的芯片集成和封裝技術實現(xiàn)軟硬一體,建設云計算異構計算產(chǎn)業(yè)生態(tài)[8]。
3)圍繞云邊端資源調(diào)度的問題,需要突破邊緣和終端側(cè)的輕量級虛擬化技術,提供云邊端一致的運行環(huán)境,實現(xiàn)云端算力在邊緣、終端側(cè)的卸載;突破云邊端資源編排器技術,現(xiàn)階段聚焦Kubernetes生態(tài)在邊緣側(cè)的技術創(chuàng)新,提供算力在云邊端的運行調(diào)度能力;突破云網(wǎng)應用運行環(huán)境技術,為開發(fā)者提供類操作系統(tǒng)的應用開發(fā)、運行環(huán)境。
4)圍繞網(wǎng)絡云化的問題,要借助5G規(guī)模應用的發(fā)展窗口,研究網(wǎng)元云原生化技術,重點研究5GC云原生化技術,推動5GC云原生化改造后上云,并解決運營體制、安全機制等系列保障問題。
另外,存內(nèi)計算、量子計算是未來計算架構,創(chuàng)新空間大,從研究到應用還有較長周期;能力組件如大數(shù)據(jù)、人工智能是目前算力需求下增長最快的領域,是云計算重要應用場景和研發(fā)方向;云網(wǎng)安全屬于云計算發(fā)展的根本保障,也是技術創(chuàng)新需要攻關的重點領域。受限于篇幅和作者前期研究重點,本文中對這幾個領域的具體技術創(chuàng)新不做深入分析。
在下個章節(jié)中,重點圍繞現(xiàn)階段解決四大問題的熱點關鍵領域,以滿足新一代指令集應用能力提升、軟硬件協(xié)同提升性能、云邊端運行環(huán)境一致和網(wǎng)絡云化智能敏捷調(diào)度的需求為導向,聚焦RISC-V指令集應用技術、異構計算融合芯片技術、輕量級虛擬化技術、面向網(wǎng)絡的云原生技術,對其應用場景、技術路線和研發(fā)路徑等方面進行分析展望。
RISC-V 指令集是基于精簡指令集計算RISC原理建立的開放指令集架構,項目2010年始于加州大學伯克利分校,其誕生初期就備受關注,被認為是最有希望挑戰(zhàn)X86、AMR的指令集技術,目前RISC-V基金會(原名為RISC-V Foundation)推動該指令集的研發(fā)工作和生態(tài)建設[9],從目前的運作規(guī)則、產(chǎn)業(yè)生態(tài)和基金會成員構成來看RISC-V極有可能成為我國自主可控且發(fā)展?jié)摿ψ畲蟮闹噶罴?/p>
RISC-V指令集架構可以應用到通用微控制器、物聯(lián)網(wǎng)芯片、家用電器控制器、網(wǎng)絡通信芯片和高性能服務器芯片等[10]。RISC-V和ARM一樣都屬于精簡指令集,設計的芯片具備譯碼器簡單、運作時脈高、耗電量低等特點,同時也存在運行程序大、存儲占用較多等問題[11]。兩者成長路徑也會較為類似,RISC-V指令集初期會在終端側(cè)進行推廣,然后向?qū)S妙I域、邊緣領域逐步擴展到通用計算領域,目前物聯(lián)網(wǎng)設備、機頂盒的嵌入式處理器開始采用基于RISC-V指令集的處理芯片,預計2~3年后將在專用領域高性能計算場景下商用,5~8年后有可能在云計算通用計算處理器上應用。
國家需要更大力度推動相關企業(yè)和研究機構深入RISC-V指令集研究和應用,特別是芯片的下游云計算企業(yè)也要提前布局,從需求源頭引領RISC-V技術的發(fā)展,推動RISC-V指令集技術真正應用到云計算產(chǎn)業(yè)鏈中。未來2~3年在服務器領域,云計算企業(yè)需要積極融入RISC-V產(chǎn)業(yè)生態(tài),參與相關技術、標準的研究和制定,尋找具有一定規(guī)模的專用領域場景切入,從設計之初就瞄準極致性能、功耗和成本,滿足服務器差異化需求[12],借助目前日益壯大的RISC-V產(chǎn)業(yè)生態(tài),通過模塊化、可擴展的特性實現(xiàn)專用處理器的設計,通過極簡架構降低專用處理器硬件成本和功耗,并和主處理器集成融合形成定制芯片,從而提供定制服務器產(chǎn)品,打造自主可控、綠色低碳的云計算服務,加速RISC-V在云計算領域的產(chǎn)業(yè)化進展。
異構計算的核心理念是將通用計算芯片運行的特定軟件能力卸載,采用專用芯片承載,并和通用計算芯片進行集成融合[13],從而延續(xù)摩爾定律,突破芯片性能瓶頸,是當前云商研發(fā)和定制計算芯片的主要賽道。異構計算可以應用在云網(wǎng)融合、邊緣增強、高性能計算等場景下,從計算加速、算力增強、算力匯聚與動態(tài)調(diào)度等方面,打造高性能、多算力、低功耗的異構計算平臺。融合芯片異構計算平臺的一種應用形態(tài),可以進一步突破現(xiàn)有軟硬件架構限制,提升云計算性能和效率。
目前在云計算服務器領域異構計算主要包括兩條技術路線。一是傳統(tǒng)板級集成融合方式,在服務器層面將CPU和xPU通過外部總線進行連接,實現(xiàn)異構計算,但存在IO路徑較長、輸入輸出資源損耗等問題,此類技術現(xiàn)階段已經(jīng)應用較為廣泛。二是融合芯片方式,其中包括芯片集成融合和芯片封裝融合,集成融合是在單DIE片上融合各種計算核,多數(shù)采用CPU融合NPU等計算加速核,配合先進NOC技術和新型總線技術,提升異構計算單元的數(shù)據(jù)協(xié)同效率,緩解傳統(tǒng)板級異構的IO問題,應用范圍較廣;封裝融合是通過先進封裝工藝與互聯(lián)標準,把各種計算核封裝在一起,構建超異構平臺,從根本上解決傳統(tǒng)板級異構的IO問題,實現(xiàn)計算最優(yōu)化[14]。
在未來3年內(nèi),傳統(tǒng)板級集成和芯片集成融合方式依舊是重點抓手,在通用計算芯片CPU上融合NPU等計算加速核,并通過新型總線技術提升CPU與GPU、DPU等數(shù)據(jù)協(xié)同效率,打造高效異構計算平臺,云計算企業(yè)需要研究專用計算加速核、新型NOC技術和總線技術,并結(jié)合特定場景需求,定制專用芯片和服務器,進一步提升云計算性能和效率。服務器領域芯片封裝融合方式還處于起步階段,初步判斷2024年以后這一技術才會真正在市場應用,云計算企業(yè)有必要從現(xiàn)在起跟蹤先進封裝工藝和芯片互聯(lián)標準協(xié)議進展,在專用領域中尋找通用需求場景,通過積極布局提前參與該領域的研發(fā)工作,為后續(xù)發(fā)展搶得先機。
輕量級虛擬化技術可以應用在邊緣和泛智能終端上,解決云邊端協(xié)同場景下邊緣和終端側(cè)資源和性能有限的問題。在一些算力協(xié)同調(diào)度場景下,如視頻識別場景下,可以將智能識別的算力從中心到邊緣到終端進行卸載,如圖像渲染場景下,可以將算力從終端遷移到邊緣或者云端上。通過輕量級虛擬化技術實現(xiàn)一致的運行環(huán)境,配合云邊端資源調(diào)度技術,保證算力自由流動提升云邊端算力的整體使用效率。
虛擬化技術本質(zhì)上是一種資源隔離技術,現(xiàn)階段輕量級虛擬化有三條技術路線,一是針對傳統(tǒng)虛擬化的裁剪和硬件卸載方案,適用于公有云場景,解決公有云高虛擬化損耗、網(wǎng)絡和存儲性能瓶頸等問題;二是輕量化容器技術,針對容器虛擬化進行裁剪,可以解決云邊端協(xié)同場景下邊緣和終端側(cè)部署容器引擎占用資源過高的問題,前期研究測試表明,基于Containerd裁剪和結(jié)構優(yōu)化后的輕量級容器引擎部署在樹莓派開發(fā)板上進行測試,可使flash使用量減少80%,內(nèi)存平均占用減少45%,可解決容器運行在邊緣或終端上的儲存空間和內(nèi)存空間的不足問題;三是WASM(WebAssembly)技術,是一種新型代碼運行隔離技術,基于web引擎運行C/C++、Java等多語言程序,具有性能好、占用資源少、多語言兼容的特點,可解決邊緣和終端場景下資源隔離性能和效率問題[15],近期CNCF社區(qū)也出現(xiàn)基于WebAssembly標準的開源項目,可以基于云原生生態(tài)和工具,在容器環(huán)境下實現(xiàn)WASM技術和Kubernetes的集成,經(jīng)過對比測試,資源占用量減少一個數(shù)量級,其性能對比傳統(tǒng)容器技術有較大提升,執(zhí)行效率提升20%,冷啟動時間大幅縮短[16]。以上三條技術路線不是替代的關系,而是場景有側(cè)重、技術補充和協(xié)同的關系。
目前輕量級虛擬化還面臨著場景不夠豐富、適配性不強、產(chǎn)業(yè)生態(tài)不完善等問題,預計真正規(guī)模應用還需要2~3年時間,后續(xù)需要云計算產(chǎn)業(yè)界一起豐富場景,制定標準和完善產(chǎn)品,推動產(chǎn)業(yè)生態(tài)建設促進技術落地應用。
作為云計算的最新技術成果,云原生技術可以為通信運營商網(wǎng)絡提供更加經(jīng)濟、便捷的部署和運營方法[17],隨著運營商云網(wǎng)融合工作推進,云原生成為運營商網(wǎng)絡云化的核心技術和關鍵抓手。
基于云原生技術實現(xiàn)云網(wǎng)融合成為業(yè)界共識,現(xiàn)階段云網(wǎng)融合最迫切的問題就是網(wǎng)絡上云,目前正處于5G網(wǎng)絡規(guī)模部署和5G專網(wǎng)大力發(fā)展階段,網(wǎng)絡云原生當前的抓手就是5GC的云原生化[18]。需要深入研究5GC系統(tǒng)架構、組網(wǎng)、高可靠、轉(zhuǎn)發(fā)加速等CT屬性,研究云原生承載5GC的技術要求,為各專業(yè)網(wǎng)元云原生化改造提供技術指引及范例。進一步結(jié)合技術要求,聚焦網(wǎng)元微服務化、高性能多網(wǎng)絡平面、承載網(wǎng)絡感知、資源編排等關鍵技術進行重點攻關,提供滿足網(wǎng)絡云化需求的云原生底座[19]。后續(xù)依托云原生底座,實現(xiàn)5GC上公有云,為公有云全面解耦承接各專業(yè)網(wǎng)絡上云打造良好開端。
目前中國電信依托自研高性能虛擬化平臺,已經(jīng)完成全面的5GC異廠家三層解耦測試并正在開展現(xiàn)網(wǎng)實驗,即將在全網(wǎng)有序開展全云化5GC商用部署,并且正在積極推進5GC云原生化改造和輕量級5GC上天翼云的工作。云原生技術從本質(zhì)上來說是軟件技術,網(wǎng)絡運營商一定要用IT軟件的視角來看待未來的網(wǎng)絡研發(fā)、建設和運維,積極擁抱這一變化,才可能在未來國家新基建領域中承擔主力軍的角色。
技術創(chuàng)新永遠都是產(chǎn)業(yè)發(fā)展最重要的原動力,自主研發(fā)在新的形勢下成為國家戰(zhàn)略發(fā)展的根本性保障需要,對云計算技術創(chuàng)新提出了更高要求。云計算發(fā)展已經(jīng)進入“下半場”,其市場格局和產(chǎn)業(yè)邏輯都在發(fā)生根本性的轉(zhuǎn)變。在下半場開局時期,科研機構必須找準研發(fā)突破點,搶占技術創(chuàng)新戰(zhàn)略高地,將關鍵問題分解為近中遠期目標攻堅克難;企業(yè)需要把握計算產(chǎn)業(yè)發(fā)展的規(guī)律和節(jié)奏,以需求和場景為導向,積極培育產(chǎn)業(yè)鏈引導技術創(chuàng)新;國家需要加強戰(zhàn)略研究,完善資源布局,堅持深化改革和開放,做好人才培養(yǎng),加強市場培育和資金扶持,為自主創(chuàng)新做好支撐保障。只有在國家戰(zhàn)略引導下,立足國內(nèi),放眼世界,產(chǎn)學研用一起發(fā)力,才能夠加速云計算技術創(chuàng)新,進而推進數(shù)字信息基礎設施更高水平發(fā)展。