朱明偉
工程與應用
網絡智能化中的AI工程化技術方案
朱明偉
(中國移動通信集團設計院有限公司,北京 100080)
網絡智能化是通信行業借助AI技術,對外增強網絡賦能能力,對內實現降本增效的重要舉措。從AI工程化的視角系統分析網絡智能化應用落地的難點,提出了包括數據采集處理、訓練計算資源的管理與任務調度、推理部署優化在內的面向生產環境的AI工程化技術方案,探討網絡智能化生態發展的策略。
網絡智能化;人工智能;云原生;模型壓縮;推理服務
2012年神經網絡在圖像識別領域的成功應用拉開了本輪人工智能熱潮的帷幕,并相繼在語音識別、自然語言處理等領域取得了突破性發展,改變了行業生態。目前,人工智能技術正向縱深方向發展,從互聯網領域的推薦、廣告、搜索,到科學計算領域的分子動力學模擬[1]和蛋白質結構預測[2],人工智能在越來越多的場景中推廣和落地。
在通信領域,人工智能的影響力同樣與日俱增。標準化組織、設備商、運營商等產業各界立足自身,積極探索人工智能在通信網絡的應用,為網絡智能化的落地做出了大量有益的工作。ITU、3GPP、ETSI、CCSA等國內外標準組織設立相關課題,從網絡智能化的體系框架、互通接口、網元、流程、用例等方面進行研究[3];華為、中興等通信設備提供商則以解決方案為突破口,推出諸如華為自動駕駛網絡[4]、中興自主進化網絡[5]等網絡智能化產品;運營商則以采購建設廠商AI設備/服務與自建AI能力平臺相結合的方式,不斷提升自身網絡智能化水平,如中國移動自主開發的九天人工智能平臺的智能交互、智慧稽核、網絡自服務等AI服務已大規模商用[6]。
運營商網絡是一個按照不同地域、不同專業領域和不同層級進行分布式部署的半自治網絡,網絡結構極為復雜,難以對全網進行統一建模。網絡智能化需要從局部入手,實現場景化的網絡智能,并逐步拓展智能化應用范圍。
網絡智能化應用場景大致可以分為基礎網絡、網絡管理和對外服務3類[7]。其中,基礎網絡智能化的關注點在網絡設備層面,場景包括基站的無線資源管理和流量預測、核心網的用戶策略管理和移動性管理、承載網的路由調度等。這類場景的AI算法往往緊密嵌入網元邏輯功能或業務流程中,對于處理時延和廠商互通性要求較高。網絡管理智能化的關注點在網絡規劃運維層面,通過分析網絡的規劃、建設、維護、優化、運營等各方面的海量數據,實現智能化的網絡/切片參數配置、故障定位、根因分析等。對外服務智能化的關注點在產品和服務層面,主要為對用戶提供智能客服、產品推薦等運營商特色AI產品,以及圖像分類、語音識別、自然語言處理(natural language processing,NLP)、光學字符識別(optical character recognition,OCR)等通用化AI產品,此類場景對于通信的領域知識要求相對較低。
由上文可知,網絡智能化應用與圖像識別、NLP等通用AI在業務場景上既有共性又有差異。隨著場景廣度和深度的不斷發展,網絡智能化需要借鑒通用AI的技術和經驗構建一套生產級別AI工程化系統作為各類網絡智能化應用的技術底座。但由于領域特殊性,網絡智能化系統的生產級別落地在數據采集和特征抽取、模型訓練、模型部署等AI工程化環節還存在以下難點。
(1)數據采集和特征抽取
運營商的無線接入網、核心網、傳輸網、云資源池、運維系統、業務支撐系統中散布著的海量指標、日志、調用鏈(trace)數據及用戶使用網絡留下的數據,這些數據符合大數據的大量(volume)、價值稀疏(value)、多元(variety)、高速(velocity)、真實(veracity)的5V特性,同時具備多維、多邊、多粒度、個性化等特點[8]。采集這些散布且異構的海量數據并統一處理存儲的難度很大、成本很高:首先,數據質量不高,存在多源數據易缺失、統計口徑不一致、大量數據沒有標注或標注質量不一致等問題;其次,同一主題的網絡數據具有高維的特點,這種高噪聲增加了網絡智能化特征選擇的難度;第三,不同于圖像識別和NLP利用神經網絡進行特征抽取的方式,網絡智能化需要根據場景不同而手工進行特征選擇和抽取,增加了特征向量的構造難度。
(2)模型訓練
網絡智能化在不同場景下所用的模型各不相同,根據訓練數據的不同,總的來說表格類數據、小數據應優先采用以集成學習模型為代表的機器學習模型進行訓練,而非結構化數據、大數據則一般采用深度學習算法,其中,網絡流量預測等時間序列場景常用循環神經網絡(recurrent neural network,RNN)、長短期記憶(long short-term memory,LSTM)網絡等深度學習算法,以及梯度提升決策樹(gradient boosting decision tree,GBDT)、極限梯度提升(extreme gradient boosting,XGBoost)算法、支持向量機(support vector machine,SVM)等有監督機器學習算法,也會用到線性回歸、移動平均等傳統算法;故障檢測等分類場景中主要使用輕量梯度提升機(light gradient boosting machine,LightGBM)、XGBoost等集成學習算法和多層感知機(multilayer perceptron,MLP)等深度學習算法,也會用到均值(-means)聚類算法、基于密度的噪聲應用空間聚類(density-based spatial clustering of applications with noise,DBSCAN)算法等聚類算法,差分、核密度估計等傳統算法和決策樹等簡單機器學習算法在數據分布較為匹配時也能取得不錯效果;對于智能客服、圖像識別等通用化AI場景則必須使用卷積神經網絡(convolutional neural network,CNN)、基于變換器的雙向編碼表示(bidirectional encoder representation from transformers,BERT)算法、視覺變換器(vision transformer,ViT)算法等大型深度學習模型。上述各類模型在訓練過程中對算力資源消耗的差異極大,而且大量訓練和推理任務在云上混合部署,對云的算力資源管理、多訓練任務調度能力提出了高要求。
(3)模型部署上線
無線資源調度等部分網絡智能化應用對于模型推理時延要求高,可低至毫秒乃至微秒級別,導致此類網絡智能化應用的模型只能部署在網絡設備側,而網絡設備計算資源高度異構,設備的算力有限,現網網絡設備的系統較為封閉,芯片不支持AI模型編譯或者適配效果不好。此外,模型部署上線需要解決模型的持久化、模型服務的構建及模型與網元系統的集成或服務調用等一系列問題。
面對以上問題,本文按照數據準備—模型訓練—模型部署的AI工作流順序,研究和提出一套網絡智能化的AI工程化技術方案,并闡述對于打造網絡智能化生態的思考。
高維、海量、治理良好的訓練數據和實時準確的推理數據是網絡智能化應用落地的前提,因此,需要建立包括采集、處理、存儲等功能在內的AI數據管理平臺,AI數據管理平臺架構如圖1所示,統一管理全網與網絡智能化相關的歷史數據與實時數據。
不同于通用AI模型訓練中常使用數據集,網絡智能化領域的數據大多需要從網元和系統運行的各類指標、埋點日志、接口信令監控中采集。目前運營商普遍通過數據中臺或數據倉庫對網絡數據進行統一管理。為避免重復建設,以降低成本,網絡智能化的數據采集應充分利用已有數據,所需原始數據如果已納入數據中臺或數倉的管理范圍則通過采集工具從數據中臺或數倉采集;對于未納入數據中臺或數倉的數據,IT系統中的指標、日志、調用鏈數據通過消息隊列推送至平臺,網絡設備中的數據通過在網絡設備側的信令采集機進行數據采集。訓練數據并非越多越好,模型的精度在達到一定程度后,訓練數據的增長將越來越難以帶來精度的進一步提升;另一方面,增加特征參數不一定能提升模型性能,特征太多反而更易出現過擬合。因此,為了控制數據采集成本,在實際應用中應控制采集數據的指標維度、單指標的數據采集區間,從而減少信令采集機和IT系統監控模塊的改造量。

圖1 AI數據管理平臺架構
AI數據管理平臺針對采集數據的特點,需要對多源異構海量的數據進行包括數據提取、缺失值補齊、多源數據的合并/去重/歸一化在內的各種處理,對于無標簽數據的標注通過少量標簽數據結合算法進行標簽生成[9],保證數據質量還需要通過schema規則等方法進行數據校驗[10]。目前網絡智能化多為離線訓練、在線推理模式,因此,數據管理平臺既需要對離線數據進行批量計算,也需要對采集到的實時數據進行增量計算或流式計算。為了在保證批量數據和實時數據處理時效性的同時簡化平臺架構,平臺需要采用流批一體的大數據計算引擎進行數據處理,將消息隊列中或已入湖的數據導入Spark或Flink的工作節點進行計算。如果部分場景計算規則較為簡單,則可以在消息隊列中直接計算,以降低通信時延。數據特征的提取緊接著數據處理之后進行,選擇和構造特征向量和特征向量維數直接影響模型精度、泛化性、計算量,目前自動機器學習(auto-machine learning,AutoML)方式的特征搜索尚不足以取代人工方法,因此,使用非深度學習算法的情況下,網絡智能化的特征提取主要依靠領域專家知識和特征工程經驗。
海量網絡數據經過處理后需要在AI數據管理平臺中存儲,由于網絡智能化應用具有場景化、碎片化、長尾化特點,只有在網絡智能化場景需求明確時才能確定對應數據處理和特征抽取的方式,難以提前建立數據處理模型,因此,平臺的數據存儲應采用數據湖架構,使各網絡智能化場景的數據能夠快速入湖存儲,以供后續AI訓練或推理任務讀取。為降低云上部署的在線推理任務的數據讀取時延,數據處理完成后的數據不落盤直接從消息隊列推送至推理模型。此外,為降低數據存儲成本,平臺的底層存儲應綜合采用自有的分布式文件系統、對象存儲,并根據數據治理要求將部分低密級的冷數據轉存公有云存儲。
生產級別的網絡智能化模型訓練需要處理好大規模計算資源的管理、訓練任務算力需求異構、大量訓練任務的編排調度等問題。將AI計算框架與云原生技術結合,構建面向網絡智能化各場景的統一AI訓練平臺,能夠很好地解決這些問題。
云原生基于容器輕量、快速、易于遷移的特點,依托k8s對各類資源進行定義、調度、控制和編排,實現了算力的精細化管理與高彈性伸縮;同時,k8s的系統設計擁有很強的開放性,易于擴展。隨著近年來云原生的快速發展,以其為中心形成了包括容器運行時、存儲、網絡、安全、服務網絡、無服務器(serverless)、持續集成/持續部署(CI/CD)工具鏈、可觀測性工具鏈在內的云原生生態圈[11]。云原生極大地提高了IT產業的開發、測試、部署、運維的工作效率,包括數據庫、消息隊列在內的各類基礎中間件軟件和各種業務軟件都已經或正在重構以適應云原生環境。目前,TensorFlow、PyTorch等主流AI計算框架都已支持云原生,具備分布式部署能力。
AI訓練平臺架構如圖2所示,網絡智能化的AI訓練平臺采用k8s作為資源管理和任務調度的樞紐,硬件方面支持x86、ARM、NVIDIAGPU及專用AI芯片(ASIC),滿足各類機器學習和深度學習算法訓練的算力需求。平臺基于云原生AI領域的事實標準KubeFlow[12],通過創建操作器(operator)的方式,對TensorFlow、PyTorch等機器學習框架的訓練任務進行自定義資源聲明和資源狀態控制,并將訓練的工作負載部署在k8s集群的節點中;平臺從AI數據管理平臺的存儲中拉取訓練數據集、測試數據集,寫入訓練任務所在k8s節點的內存,并通過分布式緩存和遠程直接內存訪問(remote direct memory access,RDMA)加速數據寫入速度;平臺同時支持面向模型研發和面向生產部署的模型訓練任務,提供各類算法庫進行模型訓練和驗證,提供推理模型部署工具和超參搜索工具,并通過工作流編排工具將AI訓練流程串聯起來。此外,平臺可通過Spark操作器同網絡智能化的AI數據管理平臺的大數據計算體系打通,將網絡智能化的模型訓練任務與數據處理階段的批量計算任務混合部署,提高資源池整體利用率。
網絡智能化的AI訓練平臺需要針對訓練任務特點對資源調度器進行功能增強。k8s原生的調度器是針對微服務架構設計的,適合對小顆粒度、長時間運行的互聯網業務進行資源調度,但機器學習訓練屬于批處理任務,存在作業、任務隊列、流水線等概念,k8s原生調度器對此是不支持的;另一方面,為防止死鎖發生,滿足多租戶、二次調度等需求,機器學習訓練的調度需要滿足批量pod調度、多隊列調度、動態調度、任務間公平性等能力,原生k8s調度器同樣不支持。AI訓練平臺架構如圖2所示,解決方案有兩個:在k8s集群中部署一套專用批處理調度器,如volcano調度器[13],此方案存在一個集群中的兩套調度器沖突的問題,雖然最新版本中支持了多調度器混合部署,但實際部署時仍建議按調度作用范圍把集群拆開;采用k8s原生的調度器框架(scheduling framework)方案[14],即把k8s原生調度器插件化,將批處理調度算法以插件形式整合進k8s調度器。
近年來各類AI的模型規模普遍增大,并出現了以預訓練為主要目的超大通用AI模型,以NLP領域的第三代生成式預訓練變換器(generative pretrained transformer 3,GTP-3)模型為例,其最大支持1 750億參數[15],單張GPU卡的內存和算力已遠無法滿足此類訓練需求,需要多張GPU卡或多個GPU服務器進行并行訓練。網絡智能化領域中同樣存在大模型訓練需求,如無線網時序數據預測的LSTM模型,又如智能客服語義理解和對話生成的變換器(transformer)模型。為處理好網絡智能化領域的大模型并行訓練問題,首先AI訓練平臺需要在支持主流AI訓練框架的數據并行、模型/流水線并行訓練功能的基礎上,結合網絡智能化領域知識,不斷完善和豐富混合并行、自動并行等復雜并行的訓練策略。其次,平臺需要優化并行訓練的節點彈性伸縮能力,彈性需求在很多并行訓練場景中存在,如在GPU資源池資源空閑時增加訓練的GPU卡數量,又如在部分訓練節點宕機時保持訓練不中斷,與一般的無狀態微服務不同,并行訓練屬于復雜的有狀態任務,GPU之間存在大量參數傳遞,以數據并行的環形全局規約(ring allreduce)算法為例,其將模型存儲在各個GPU上,每張GPU卡只對部分數據進行訓練,節點之間有嚴格的前后次序,ring allreduce算法中的GPU結構如圖3所示。AI訓練平臺應引入Horovod等支持ring allreduce彈性訓練[16]的分布式訓練框架,為各個訓練任務的operator設置動態可調的訓練節點數量,進一步提高資源池的GPU利用率。

圖2 AI訓練平臺架構

圖3 ring allreduce算法中的GPU結構[17]
網絡智能化的模型部署方案需要考慮以下幾個因素。
●時延,即模型推理環節消耗的時間,包括推理的計算時延,以及業務與推理模型之間的通信時延。
●模型服務上線,即在網絡中部署模型推理服務。
●數據隱私,即推理是否在本地進行,或數據加密傳遞。
●精度,即推理模型的精度與訓練模型相比是否降低。
網絡管理類的網絡智能化應用一般對時效性要求不高,時效性要求在小時級/天級,此類應用一般采用在云上部署推理模型,充分利用云資源池算力。對于毫秒級和微秒級的實時類網絡智能化場景,如空口物理層智能算法、核心網的移動性管理,必須采用在網元側部署模型的方案以消除長距離通信時延,具體而言,網元側需要預先部署推理框架,模型在AI訓練平臺完成訓練后下發至相關網元,經過編譯后加載到計算芯片內存,在本地對數據進行預測。需要說明的是,部分網絡智能化場景的數據概率分布會隨時間推移或地域不同發生偏移,影響推理模型效果,因此,模型需要周期性重新訓練和部署,或按地域部署對應的模型。
網絡智能化推理模型部署在網元側時,需要解決有限的網元計算資源影響模型推理速度的問題。模型計算時延與模型結構和模型大小直接相關,機器學習模型一般對算力要求不高,計算時延較低,無須專門進行模型加速處理;如果部署的是深度學習模型,則通過選擇MoblieNet等專門為資源受限場景設計的小模型[18]、模型壓縮、編譯優化3種方法減少模型推理對網絡設備有限算力和內存的需求,從而降低模型計算時延。
模型壓縮主要方法如圖4所示,有以下3類。
(1)模型剪枝
深度學習模型中存在權重接近0的參數,這些參數對模型輸出影響不大,因此可對訓練模型中特定層內的權重低于設定閾值的參數進行裁減[19],減少層間參數的連接和網絡規模,剪枝之后需要對裁剪后的模型進行重新訓練。
(2)參數量化
參數量化即降低模型參數精度(如參數精度從fp32降到int8將使模型大小降為原模型的1/4),減少模型計算過程中對內存的訪問,提升計算芯片每條指令中的數值數量,從而加速模型計算速度[20]。
(3)知識蒸餾
通過調整算法中的“溫度”超參、進行softmax變換[21],并將完成訓練的大模型同另一個小的模型進行聯合訓練,較小模型能在大模型的監督下獲得大模型的泛化能力,從而得到可用于推理的小模型。

圖4 模型壓縮主要方法
編譯優化一方面通過推理框架中的前端(優化器)對訓練后的模型進行優化[22],如圖4所示,通過算子融合合并模型中的部分層或相同結構降低模型計算量和冗余度,從而降低計算過程中因訪問內存導致的計算芯片等待時間;另一方面通過推理框架的后端(編譯器)對網元側的專用計算芯片進行適配,優化模型在專用硬件上的計算效率,實現降低計算時延的效果。
模型推理需要與網絡系統深度融合,推理模型服務上線運行圖如圖5所示,推理模型與數據預處理和后處理功能模塊一起打包為軟件開發工具包(software development kit,SDK)或鏡像上傳到模型倉庫,云上集中推理部署工具或網元側推理部署工具從模型倉庫拉取所需要的SDK或鏡像,并以SDK軟件集成、容器、serverless等形式將推理服務部署上線[23-24],推理服務對外提供API,用戶通過HTTP/RPC向其發起服務請求。推理服務監控模型運行狀態,模型精度低于設定閾值將觸發新一輪模型訓練[25]。
網絡管理類、對外服務類等非時延敏感型網絡智能化推理服務宜采用容器方式在云上集中部署,其中,低頻、突發、定時啟動等非長期運行的推理服務可采用serverless的彈性容器或函數方式部署。與網元業務處理邏輯強相關的時延敏感型網絡智能化推理服務需要在網元內部或靠近網元部署,運營商網絡設備上的計算芯片既有較為通用的x86 CPU、ARM CPU、GPU,也有FPGA、ASIC等專用芯片,編譯器需要針對不同種類的芯片進行定制化適配,使得推理服務能以SDK方式與網元軟件系統集成,但架構封閉難以適配或適配改造成本較高的網元應將推理服務外置部署,即采用網絡數據分析功能(network data analytics function,NWDAF)和無線網智能控制器(RAN intelligent controller,RIC)等標準組織推動的在網元側構建專用AI控制器的方案,專用AI控制器的資源管理應采用k3s等輕量級k8s集群[26]或KubeEdge[27]、OpenYurt[28]等云原生邊緣k8s節點方案,使得推理服務能以容器或serverless方式部署并使用相關推理部署工具,與云上集中部署保持一致的管理和使用體驗。

圖5 推理模型服務上線運行圖
此外,對于推理模型精度這一問題,由于推理精度同時受網絡智能化業務要求、硬件資源、壓縮優化方法三者的共同影響,應根據具體情況進行平衡。對于數據隱私問題,目前可以以數據通過IP承載網等運營商內網傳輸的方式解決,如后續有明確需求則需要考慮數據加密或聯邦學習等隱私方案,但需要做好安全與性能的平衡。
網絡智能化想要真正成為運營商網絡發展的原生動力,就不只需要數據和算力,更需要AI算法的支持,三者缺一不可。AI算法是本輪人工智能熱潮的根本推動力,目前其發展呈現3個態勢:AI算法的研究主力軍從以學術界為主,發展到學術界和產業界并重;AI算法紛紛開源,極大地提高了研究效率和技術迭代速度;AI算法與領域知識更加緊密地結合,AI在更多行業得以落地。
網絡智能化要充分認識和借助這種發展趨勢,打破CT-IT產業之間巨大的思維代溝,填補AI產業界與長尾化、碎片化的網絡智能化應用場景之間的價值鴻溝,構建一個健康繁榮的產業生態圈。目前,產業界已有美國電話電報公司(AT&T)的Acumos開源平臺在此方面提供了借鑒[29],其支持各主流計算框架和編程語言、提供可視化模塊化的開發環境、提供模型庫和模型商店,降低了AI開發的門檻,有利于CT行業的技術人員使用平臺進行模型訓練和數據挖掘。
對于運營商而言,應以自有AI平臺為基礎,為更多用戶和產業伙伴提供開放能力:開放網絡數據集,并向網絡設備供應商、AI硬件提供商、AI軟件開源組織、高校研究機構、AI技術服務商等合作伙伴及個人開發者提供真實網絡測試環境;提供低代碼和圖形化開發環境,提供模型市場、特征倉庫、詳細使用文檔、最佳實踐,推動公司內部相關員工提升數據分析與AI算法的應用能力,推動網絡智能化問題以內部研發方式解決;基于模型市場和特征倉庫,與產業各方探索中/高價值的網絡智能化場景的“需求挖掘/發布——內、外部協同開發測試——上線測試/運行——成果分享”的合理商業模式。通過多種手段,將AI產學界的技術能力吸引到網絡智能化領域當中,提升CT行業內部的AI應用能力,在越來越多的網絡設備、管理系統、業務系統中集成AI能力,最終實現網絡的泛在智能。
首先,本文針對網絡智能化提出了一套AI工程化的技術解決方案,但目前AI技術在算法和部署框架等方面的發展日新月異,各種技術百花齊放,未來需要對方案中每個環節進行更加細致的技術方案研究和比選。其次,網絡智能化在數據采集側和部署側屬于典型的分布式架構,和邊緣計算的場景基本重合,目前邊緣計算也是ICT產業重要的研究方向,因此網絡智能化的研究工作應充分借鑒邊緣智能領域的經驗。再次,本文的分析建立在網絡智能化訓練為集中式訓練的基礎上,隨著網絡智能化的不斷發展,網元側、網元間閉環訓練的需求會陸續浮出水面,因此下一步需要對遠程分布式訓練、聯邦學習等技術進行研究。再其次,AI的加速技術不只限于部署環節,在數據側和訓練側存在著大量可加速空間。最后,進一步研究MLOps等AI工程的自動化流水線技術方案,不斷提升網絡智能化大規模應用的工程效率。從技術、標準、產業、應用、生態等方面來看,網絡智能化目前仍處于初級階段,有大量的問題等待攻克,有大量的需求等待滿足,需要CT產業界和AI產學界更加緊密的合作,不斷提升網絡智能化水平,為我國構筑更加智能開放的信息基礎設施。
[1] JIA W L, WANG H, CHEN M H, et al. Pushing the limit of molecular dynamics with ab initio accuracy to 100 million atoms with machine learning[J]. arXiv: 2005. 00223, 2020.
[2] JUMPER J, EVANS R, PRITZEL A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 596(7873): 583-589.
[3] 歐陽曄, 王立磊, 楊愛東, 等. 通信人工智能的下一個十年[J]. 電信科學, 2021, 37(3): 1-36.
OUYANG Y, WANG L L, YANG A D, et al. Next decade of telecommunications artificial intelligence[J]. Telecommunications Science, 2021, 37(3): 1-36.
[4] 華為技術有限公司. 華為自動駕駛網絡解決方案白皮書[R]. 2020.
Huawei Technologies Co., Ltd.. Huawei's white paper on autonomous driving network solutions[R]. 2020.
[5] 中興通訊股份有限公司. 中興自主進化網絡白皮書[R]. 2020.
ZTE Technology Co., Ltd.. ZTE’s white paper on autonomous evolution network[R]. 2020.
[6] 鄧超, 王斌, 朱琳, 等. 人工智能在電信運營中的典型應用實踐[J]. 信息通信技術與政策, 2019(7): 34-38.
DENG C, WANG B, ZHU L, et al. Typical applications of artificial intelligence in telecom operation[J]. Information and Communications Technology and Policy, 2019(7): 34-38.
[7] 馮俊蘭. 5G自身智能化及賦能智能產業之路[J]. 電信工程技術與標準化, 2020, 33(1): 1-8.
FENG J L. Intelligent 5G network and 5G+AI applications[J]. Telecom Engineering Technics and Standardization, 2020, 33(1): 1-8.
[8] 程強, 劉姿杉. 數據驅動的智能電信網絡[J]. 中興通訊技術, 2020, 26(5): 53-56.
CHENG Q, LIU Z S. Data empowered intelligent communication networks[J]. ZTE Technology Journal, 2020, 26(5): 53-56.
[9] RATNER A, BACH S H, EHRENBERG H, et al. Snorkel: rapid training data creation with weak supervision[J]. The VLDB Journal: Very Large Data Bases: a Publication of the VLDB Endowment, 2020, 29(2): 709-730.
[10] BRECK E, CAI S Q, NIELSEN E, et al. The ML test score: a rubric for ML production readiness and technical debt reduction[C]//Proceedings of 2017 IEEE International Conference on Big Data (Big Data). Piscataway: IEEE Press, 2017: 1123-1132.
[11] CNCF. Cloud Native Interactive Landscape[EB]. 2021.
[12] Kubeflow. Kubeflow Overview[EB]. 2021.
[13] Github. Volcano[EB]. 2021.
[14] Kubernetes. Scheduling Framework[EB]. 2021.
[15] BROWN T B, MANN B, RYDER N, et al. Language models are few-shot learners[J]. arXiv: 2005. 14165, 2020.
[16] Horovod. Elastic Horovod[EB]. 2021.
[17] GIBIANSKY A. Bringing HPC techniques to deep learning[EB]. 2021.
[18] HOWARD A G, ZHU M L, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB]. 2017: arXiv: 1704. 04861, 2017.
[19] HAN S, MAO H Z, DALLY W. Deep compression: compressing deep neural network with pruning, trained quantization and huffman coding[J]. ICLR. 2015.
[20] INTEL. Accelerate lower numerical precision inference with Intel? deep learning boost[EB]. 2021.
[21] HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[J]. Computer Science, 2015, 14(7):38-39.
[22] LI M Z, LIU Y, LIU X Y, et al. The deep learning compiler: a comprehensive survey[J]. IEEE Transactions on Parallel and Distributed Systems, 2021, 32(3): 708-727.
[23] Github. KFServing: predict on an InferenceService with TensorFlow model[EB]. 2021.
[24] TensorFlow. TFServing:train and serve a TensorFlow model with TensorFlow serving[EB]. 2021.
[25] Google Cloud. MLOps:continuous delivery and automated pipelines in machine learning [EB]. 2021.
[26] Rancher. K3s[EB]. 2021.
[27] GitHub. KubeEdge[EB]. 2021.
[28] Gitee. OpenYurt[EB]. 2021.
[29] 劉騰飛, 李奧. Acumos: 一種人工智能開放平臺[J]. 郵電設計技術, 2018(12): 46-50.
LIU T F, LI A. Acumos—an artificial intelligence open platform[J]. Designing Techniques of Posts and Telecommunications, 2018(12): 46-50.
AI engineering technology solutions in network intelligence
ZHU Mingwei
China MobileGroup Design Institute Co., Ltd., Beijing 100080, China
Depending on AI technology, network intelligence is becoming an important initiative for communication industry to enhance network empowerment externally, and to achieve cost reduction and efficiency internally. The difficulties implementing network intelligence applications from the perspective of AI engineering were analyzed. The industrial grade AI engineering technical solutions were proposed, including data collection and processing, computing resources management and task scheduling, and inference deployment optimization. The strategies of network intelligence’s ecosystem development were studied.
network intelligence, artificial intelligence, cloud native, model compression, inference service
TP181;TN929.5
A
10.11959/j.issn.1000?0801.2022016
2021?09?08;
2022?01?12
朱明偉(1986?),男,現就職于中國移動通信集團設計院有限公司,主要研究方向為5G、邊緣計算、云原生。
