史天運(yùn),侯 博,李國(guó)華,代明睿,楊濤存
(1.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司, 北京 100081;2.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081)
人工智能作為新一代信息技術(shù),與5G移動(dòng)通信、云計(jì)算和大數(shù)據(jù)等技術(shù)相互交織,共同構(gòu)筑起賦能千行百業(yè)的新型基礎(chǔ)設(shè)施[1]。這種融合創(chuàng)新的趨勢(shì)為人工智能在各個(gè)領(lǐng)域帶來(lái)了廣泛的應(yīng)用潛力,推動(dòng)著效率提升、創(chuàng)新發(fā)展和社會(huì)進(jìn)步。近年來(lái),伴隨著人工智能技術(shù)的不斷發(fā)展與應(yīng)用,各國(guó)紛紛將人工智能納入國(guó)家戰(zhàn)略層面,參與這場(chǎng)技術(shù)制高點(diǎn)之爭(zhēng)。我國(guó)從政策層面全面推進(jìn)人工智能產(chǎn)業(yè)發(fā)展,并在“十四五”規(guī)劃中將人工智能納入國(guó)家戰(zhàn)略科技力量。當(dāng)前,人工智能競(jìng)賽已經(jīng)拉開(kāi)序幕,如何利用人工智能技術(shù)推動(dòng)產(chǎn)業(yè)升級(jí)是各行業(yè)當(dāng)下亟須思考的問(wèn)題。
中國(guó)鐵路作為國(guó)家戰(zhàn)略性、先導(dǎo)性、關(guān)鍵性重大基礎(chǔ)設(shè)施,貫徹執(zhí)行國(guó)家“科技強(qiáng)國(guó)”“交通強(qiáng)國(guó)”戰(zhàn)略部署,積極推進(jìn)鐵路人工智能技術(shù)的發(fā)展與創(chuàng)新應(yīng)用[2]。鐵路各專(zhuān)業(yè)不斷探索和研究適應(yīng)于鐵路業(yè)務(wù)場(chǎng)景的人工智能應(yīng)用,在基礎(chǔ)設(shè)施和移動(dòng)裝備動(dòng)態(tài)監(jiān)控領(lǐng)域,運(yùn)用圖像處理技術(shù)對(duì)車(chē)輛運(yùn)行安全監(jiān)控系統(tǒng)(5T系統(tǒng))、牽引供電監(jiān)測(cè)系統(tǒng)(6C系統(tǒng))、機(jī)車(chē)車(chē)載安全防護(hù)系統(tǒng)(6A系統(tǒng))等系統(tǒng)中的設(shè)備和移動(dòng)裝備故障進(jìn)行監(jiān)控和識(shí)別;在旅客服務(wù)領(lǐng)域,運(yùn)用人臉識(shí)別、語(yǔ)音購(gòu)票、智能客服、客流預(yù)測(cè)等技術(shù)保障鐵路客運(yùn)服務(wù)質(zhì)量;在行車(chē)安全領(lǐng)域,運(yùn)用軌道落石檢測(cè)、人員入侵檢測(cè)、接觸網(wǎng)異物檢測(cè)等技術(shù)提高鐵路運(yùn)行效率和安全性。相關(guān)技術(shù)的應(yīng)用不僅在提高運(yùn)輸效率、保障運(yùn)輸安全、改進(jìn)服務(wù)質(zhì)量等方面發(fā)揮了重要作用,更有助于優(yōu)化鐵路資源配置、提升管理水平、提高經(jīng)濟(jì)效益。
隨著人工智能技術(shù)在鐵路行業(yè)的逐步深化應(yīng)用,在建設(shè)方面,存在研發(fā)成本高、開(kāi)發(fā)周期長(zhǎng)、缺少平臺(tái)支持等困難;在應(yīng)用方面,缺乏共性能力體系的頂層規(guī)劃,各類(lèi)人工智能應(yīng)用業(yè)務(wù)之間難以形成有效的共享機(jī)制;在資源方面,缺乏統(tǒng)一的資源調(diào)度與管理,分散的計(jì)算資源難以支撐大模型的訓(xùn)練與部署。本文針對(duì)鐵路人工智能建設(shè)應(yīng)用中資源利用率低,缺乏應(yīng)用共性研究等問(wèn)題,提出了建設(shè)全國(guó)鐵路(簡(jiǎn)稱(chēng):全路)統(tǒng)一的鐵路人工智能平臺(tái),研究鐵路領(lǐng)域人工智能平臺(tái)設(shè)計(jì)方案及關(guān)鍵技術(shù),以提升人工智能資源利用率,降低人工智能應(yīng)用門(mén)檻,加快推進(jìn)鐵路人工智能高質(zhì)量發(fā)展。
基于鐵路人工智能應(yīng)用現(xiàn)狀,綜合鐵路各類(lèi)人工智能應(yīng)用場(chǎng)景,當(dāng)前鐵路人工智能的應(yīng)用需求有以下幾個(gè)方面。
在樣本數(shù)據(jù)標(biāo)注方面,制定鐵路統(tǒng)一的數(shù)據(jù)標(biāo)注規(guī)范,設(shè)計(jì)團(tuán)隊(duì)標(biāo)注的協(xié)同流程,構(gòu)建完備的數(shù)據(jù)標(biāo)注體系與質(zhì)量審查標(biāo)準(zhǔn),形成鐵路專(zhuān)業(yè)樣本分類(lèi)目錄;在樣本標(biāo)注工具方面,鐵路人工智能平臺(tái)應(yīng)提供圖像、視頻、文本、語(yǔ)音、3D點(diǎn)云等多種類(lèi)標(biāo)注工具,并根據(jù)鐵路的數(shù)據(jù)標(biāo)注特性制定高效的標(biāo)注項(xiàng)目管理流程,保障數(shù)據(jù)標(biāo)注全流程的高質(zhì)量、高效率和高保密。
在算法研發(fā)層面,鐵路人工智能平臺(tái)應(yīng)提供可兼容Tensorflow、PyTorch、MindSpore、PaddlePaddle等多種國(guó)內(nèi)外模型框架的在線(xiàn)研發(fā)工具,提供穩(wěn)定、靈活、高性能的機(jī)器學(xué)習(xí)訓(xùn)練環(huán)境,并支持運(yùn)行超大規(guī)模的分布式訓(xùn)練任務(wù),為鐵路研發(fā)人員提供完整的人工智能模型全生命周期管理服務(wù);在模型推理層面,鐵路人工智能平臺(tái)應(yīng)支持人工智能模型在多元異構(gòu)硬件上一鍵部署,提供高性能、高可用、可伸縮的多卡并行推理環(huán)境,使推理服務(wù)更加高效、安全與可靠;同時(shí),鐵路人工智能平臺(tái)應(yīng)支持深度學(xué)習(xí)模型部署至云端與邊緣側(cè),為鐵路多元場(chǎng)景下的模型推理應(yīng)用提供保障。
在硬件設(shè)施方面,須升級(jí)鐵路現(xiàn)有服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)帶寬及人工智能計(jì)算卡等硬件資源,使之具備鐵路人工智能各業(yè)務(wù)場(chǎng)景應(yīng)用的基礎(chǔ)條件;在服務(wù)建設(shè)方面,改變傳統(tǒng)單機(jī)單卡、單機(jī)多卡的資源調(diào)度模式,科學(xué)統(tǒng)籌全路計(jì)算資源,通過(guò)多云協(xié)同、云邊協(xié)同等多種協(xié)同方式實(shí)現(xiàn)對(duì)全路算力資源的高度協(xié)同與統(tǒng)一管理,構(gòu)建全路高性能計(jì)算網(wǎng),提供高效、靈活、穩(wěn)定的資源調(diào)配策略;同時(shí),保障服務(wù)在異構(gòu)物理設(shè)備間平滑遷移和無(wú)縫協(xié)同,實(shí)現(xiàn)一云多生態(tài)。
構(gòu)建開(kāi)放共享的鐵路人工智能專(zhuān)業(yè)樣本庫(kù)、算法庫(kù)與模型庫(kù),收集鐵路旅客運(yùn)輸、貨物運(yùn)輸、運(yùn)輸調(diào)度等部門(mén)鐵路人工智能專(zhuān)業(yè)樣本集;集成通用與鐵路專(zhuān)業(yè)的人工智能算法,抽象各業(yè)務(wù)領(lǐng)域生產(chǎn)應(yīng)用的模型服務(wù),制定人工智能服務(wù)接口標(biāo)準(zhǔn)規(guī)范,打破數(shù)據(jù)與技術(shù)壁壘,促進(jìn)鐵路人工智能數(shù)據(jù)、算法、模型的共建共享。
在樣本數(shù)據(jù)方面,積累鐵路行業(yè)垂直領(lǐng)域數(shù)據(jù),匯集鐵路專(zhuān)業(yè)知識(shí)與經(jīng)驗(yàn),根據(jù)大模型遷移學(xué)習(xí)需求對(duì)多模態(tài)數(shù)據(jù)進(jìn)行清洗、標(biāo)注,形成高質(zhì)量的數(shù)據(jù)集;在模型建設(shè)方面,加強(qiáng)大模型頂層設(shè)計(jì),融合鐵路行業(yè)特色數(shù)據(jù)與知識(shí),構(gòu)建鐵路行業(yè)大模型;在模型應(yīng)用方面,以鐵路場(chǎng)景創(chuàng)新為驅(qū)動(dòng),推動(dòng)大模型技術(shù)迭代升級(jí),加快大模型技術(shù)在鐵路各領(lǐng)域落地應(yīng)用,賦能鐵路人工智能高質(zhì)量發(fā)展。
鐵路人工智能平臺(tái)架構(gòu)主要由人工智能基礎(chǔ)設(shè)施、人工智能算力調(diào)度、人工智能業(yè)務(wù)服務(wù)、人工智能開(kāi)放門(mén)戶(hù)及人工智能能力服務(wù)組成。以鐵路數(shù)據(jù)服務(wù)平臺(tái)、外部業(yè)務(wù)系統(tǒng)及鐵路采集樣本作為數(shù)據(jù)源,實(shí)現(xiàn)鐵路人工智能數(shù)據(jù)標(biāo)注、模型研發(fā)、模型評(píng)價(jià)、模型推理及服務(wù)運(yùn)營(yíng)維護(hù)(簡(jiǎn)稱(chēng):運(yùn)維)的全生命周期管理,為鐵路戰(zhàn)略決策、經(jīng)營(yíng)開(kāi)發(fā)、生產(chǎn)運(yùn)輸、資源管理、建設(shè)管理等業(yè)務(wù)領(lǐng)域的人工智能業(yè)務(wù)場(chǎng)景建設(shè)提供支撐,總體架構(gòu)如圖1所示。

圖1 鐵路人工智能平臺(tái)總體架構(gòu)
2.1.1 人工智能基礎(chǔ)設(shè)施
人工智能基礎(chǔ)設(shè)施主要包括物理服務(wù)器、人工智能訓(xùn)練與推理計(jì)算卡、存儲(chǔ)設(shè)備及網(wǎng)絡(luò)資源等,為鐵路人工智能的場(chǎng)景應(yīng)用提供基礎(chǔ)硬件設(shè)施保障。
2.1.2 人工智能算力調(diào)度
人工智能算力調(diào)度運(yùn)用資源池化、多云協(xié)同等技術(shù)搭建鐵路人工智能計(jì)算資源池,制定資源統(tǒng)籌分配策略,實(shí)現(xiàn)資源動(dòng)態(tài)彈性擴(kuò)展、按需分配[3]。運(yùn)用異構(gòu)資源納管技術(shù)實(shí)現(xiàn)不同架構(gòu)人工智能計(jì)算芯片在資源池中無(wú)縫協(xié)同,實(shí)現(xiàn)一云多芯、多芯協(xié)同的多種資源調(diào)度能力。
2.1.3 人工智能業(yè)務(wù)服務(wù)
人工智能業(yè)務(wù)服務(wù)主要包括數(shù)據(jù)標(biāo)注子系統(tǒng)、模型研發(fā)子系統(tǒng)、模型評(píng)價(jià)子系統(tǒng)、模型推理子系統(tǒng)及運(yùn)行監(jiān)控子系統(tǒng)。
數(shù)據(jù)標(biāo)注子系統(tǒng)提供鐵路圖像、視頻、語(yǔ)音、文本及3D點(diǎn)云等多領(lǐng)域數(shù)據(jù)標(biāo)注工具,支持團(tuán)隊(duì)化、規(guī)模化的標(biāo)注生產(chǎn)作業(yè),實(shí)現(xiàn)樣本數(shù)據(jù)精細(xì)化運(yùn)營(yíng)管理;模型研發(fā)子系統(tǒng)為鐵路人工智能研發(fā)人員提供一站式人工智能開(kāi)發(fā)服務(wù),實(shí)現(xiàn)模型多機(jī)多卡并行分布式訓(xùn)練,幫助用戶(hù)快速構(gòu)建算法模型;模型評(píng)價(jià)子系統(tǒng)提供多維模型評(píng)價(jià)體系,集成多種類(lèi)人工智能評(píng)價(jià)引擎,幫助用戶(hù)評(píng)估、選擇、優(yōu)化與解釋深度學(xué)習(xí)模型;模型推理子系統(tǒng)提供人工智能模型云端推理、云邊聯(lián)合推理、離線(xiàn)推理等推理部署方式,支持多種模型編排方式,運(yùn)用負(fù)載均衡、彈性伸縮、服務(wù)自愈等技術(shù)保障推理服務(wù)的平穩(wěn)運(yùn)行;運(yùn)行監(jiān)控子系統(tǒng)運(yùn)用監(jiān)控與日志采集技術(shù),構(gòu)建平臺(tái)運(yùn)行監(jiān)控體系,實(shí)現(xiàn)平臺(tái)及運(yùn)行服務(wù)的實(shí)時(shí)監(jiān)控和預(yù)警。
2.1.4 人工智能開(kāi)放門(mén)戶(hù)
人工智能開(kāi)放門(mén)戶(hù)主要包括人工智能分類(lèi)目錄[4]、樣本庫(kù)、算法庫(kù)及模型庫(kù)。
人工智能分類(lèi)目錄中包括通用分類(lèi)目錄與行業(yè)分類(lèi)目錄,通用分類(lèi)主要涉及計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、音頻信號(hào)處理、數(shù)據(jù)深度處理等多個(gè)通用領(lǐng)域分類(lèi),行業(yè)分類(lèi)主要涉及智能建造、智能裝備、智能運(yùn)營(yíng)等多個(gè)鐵路專(zhuān)業(yè)領(lǐng)域分類(lèi);樣本庫(kù)、算法庫(kù)及模型庫(kù)以人工智能分類(lèi)目錄為核心,收集行業(yè)通用及鐵路專(zhuān)業(yè)的樣本、算法及模型,建設(shè)鐵路人工智能共享機(jī)制,促進(jìn)鐵路共性技術(shù)能力的開(kāi)放共享,推動(dòng)鐵路各專(zhuān)業(yè)人工智能樣本、算法、模型的統(tǒng)一管理、共建共享。
2.1.5 人工智能能力服務(wù)
人工智能能力服務(wù)包括通用能力服務(wù)與鐵路專(zhuān)業(yè)能力服務(wù)。
通用能力服務(wù)主要包括人臉識(shí)別、以文搜圖、語(yǔ)音識(shí)別等多領(lǐng)域的通用人工智能服務(wù);鐵路專(zhuān)業(yè)能力服務(wù)主要包括動(dòng)車(chē)組車(chē)輛故障檢測(cè)、軌道落石檢測(cè)、遺失物品檢測(cè)、調(diào)度命令識(shí)別等多個(gè)鐵路專(zhuān)業(yè)領(lǐng)域的人工智能服務(wù),通過(guò)標(biāo)準(zhǔn)服務(wù)接口為鐵路各類(lèi)應(yīng)用場(chǎng)景共享鐵路人工智能服務(wù)。
2.2.1 人工智能算力調(diào)度功能
人工智能算力調(diào)度主要包含資源池化、算力調(diào)度、資源分配、多云協(xié)同、異構(gòu)資源納管、拓?fù)涓兄裙δ埽嫒莶煌軜?gòu)計(jì)算資源,構(gòu)建全路統(tǒng)一人工智能算力網(wǎng)絡(luò),動(dòng)態(tài)感知底層計(jì)算資源的負(fù)載情況,實(shí)現(xiàn)人工智能任務(wù)的資源合理分配[5]。
2.2.2 人工智能業(yè)務(wù)服務(wù)功能
人工智能業(yè)務(wù)服務(wù)主要包含數(shù)據(jù)標(biāo)注、模型研發(fā)、模型評(píng)價(jià)、模型推理及運(yùn)行監(jiān)控等功能。
(1)數(shù)據(jù)標(biāo)注
主要包含圖像、視頻、語(yǔ)音、文本、3D點(diǎn)云等多種類(lèi)標(biāo)注工具,支持標(biāo)注生產(chǎn)作業(yè)流程定制化配置,提供可視化流程監(jiān)控服務(wù)與多級(jí)數(shù)據(jù)標(biāo)注質(zhì)量審查機(jī)制,預(yù)置多種類(lèi)智能輔助標(biāo)注模型,實(shí)現(xiàn)樣本數(shù)據(jù)自動(dòng)標(biāo)注。
(2)模型研發(fā)
主要包含算法管理、算法研發(fā)、模型訓(xùn)練、模型管理、鏡像管理等功能,集成高效算法研發(fā)工具,提供算法在線(xiàn)開(kāi)發(fā)環(huán)境,支持模型多機(jī)多卡并行分布式訓(xùn)練,為算法研發(fā)人員提供一站式人工智能開(kāi)發(fā)服務(wù)。
(3)模型評(píng)價(jià)
主要包含評(píng)價(jià)引擎、在線(xiàn)評(píng)估、結(jié)果展示、可視化分析等功能,集成多維模型評(píng)價(jià)體系,提供圖像、文本、語(yǔ)音等多領(lǐng)域模型評(píng)價(jià)引擎,支持模型性能在線(xiàn)評(píng)價(jià),為算法研發(fā)人員提供模型優(yōu)化依據(jù)。
(4)模型推理
主要包含云端推理、邊緣推理、批量推理、模型編排等功能,提供彈性伸縮、服務(wù)自愈、健康檢查等服務(wù),為模型推理服務(wù)的運(yùn)行提供多種部署方式,保障生產(chǎn)服務(wù)的穩(wěn)定運(yùn)行。
(5)運(yùn)行監(jiān)控
主要包含集群監(jiān)控、節(jié)點(diǎn)監(jiān)控、任務(wù)監(jiān)控、異常告警、鏈路追蹤等功能,提供可視化的監(jiān)控工具,實(shí)現(xiàn)鐵路人工智能平臺(tái)異常情況實(shí)時(shí)告警,保障鐵路人工智能平臺(tái)及人工智能服務(wù)的安全可靠。
2.2.3 人工智能開(kāi)放門(mén)戶(hù)功能
人工智能開(kāi)放門(mén)戶(hù)主要包含人工智能分類(lèi)目錄、樣本庫(kù)、算法庫(kù)、模型庫(kù)等,收集行業(yè)通用與鐵路專(zhuān)業(yè)的人工智能樣本、算法及模型,實(shí)現(xiàn)鐵路各專(zhuān)業(yè)樣本、算法及模型的分類(lèi)分級(jí)展示,提供人工智能資產(chǎn)管理流程與共享機(jī)制,為鐵路人工智能的開(kāi)放共享與共性能力體系搭建提供支撐。
鐵路人工智能平臺(tái)服務(wù)對(duì)象主要是樣本標(biāo)注人員、人工智能專(zhuān)職研發(fā)人員、應(yīng)用研發(fā)人員、鐵路建設(shè)運(yùn)營(yíng)人員、鐵路人工智能平臺(tái)運(yùn)維人員等。
在鐵路人工智能平臺(tái)建設(shè)過(guò)程中,樣本標(biāo)注人員利用樣本標(biāo)注子系統(tǒng)開(kāi)展樣本的數(shù)據(jù)標(biāo)注作業(yè),形成高質(zhì)量鐵路樣本集;人工智能專(zhuān)職研發(fā)人員利用模型研發(fā)子系統(tǒng)、模型推理子系統(tǒng)與模型評(píng)價(jià)子系統(tǒng)開(kāi)展人工智能科研工作與生產(chǎn)模型研發(fā)工作;算法研發(fā)人員可利用鐵路人工智能平臺(tái)中預(yù)置算法與樣本進(jìn)行場(chǎng)景實(shí)驗(yàn)驗(yàn)證,也可上傳自研算法進(jìn)行模型的訓(xùn)練與調(diào)優(yōu),形成高性能鐵路人工智能模型;應(yīng)用研發(fā)人員利用模型推理子系統(tǒng)部署模型,調(diào)用模型服務(wù)接口,為鐵路生產(chǎn)系統(tǒng)提供人工智能推理服務(wù);鐵路建設(shè)運(yùn)營(yíng)人員利用樣本庫(kù)、算法庫(kù)與模型庫(kù)為鐵路人工智能提供建設(shè)需求,收集生產(chǎn)一線(xiàn)的樣本數(shù)據(jù),將鐵路人工智能平臺(tái)能力服務(wù)與鐵路生產(chǎn)場(chǎng)景結(jié)合應(yīng)用;運(yùn)維人員利用運(yùn)行監(jiān)控子系統(tǒng)對(duì)鐵路人工智能平臺(tái)及其生產(chǎn)運(yùn)行服務(wù)進(jìn)行監(jiān)控,保障鐵路人工智能平臺(tái)及其服務(wù)的穩(wěn)定運(yùn)行。
鐵路人工智能平臺(tái)為鐵路應(yīng)用系統(tǒng)提供在線(xiàn)推理、批量推理、邊緣推理、云邊聯(lián)合推理等多種模式推理服務(wù)。在高并發(fā)實(shí)時(shí)請(qǐng)求場(chǎng)景下,提供在線(xiàn)推理服務(wù),滿(mǎn)足應(yīng)用大業(yè)務(wù)量實(shí)時(shí)推理請(qǐng)求;在大批量、低頻次推理預(yù)測(cè)任務(wù)場(chǎng)景下,提供離線(xiàn)批量推理服務(wù),快速解決應(yīng)用沉積數(shù)據(jù)推理訴求;在具備邊緣推理設(shè)備場(chǎng)景下,提供邊緣推理、云邊聯(lián)合推理等服務(wù),將推理能力拓展至應(yīng)用現(xiàn)場(chǎng),實(shí)現(xiàn)高效、低延時(shí)的推理服務(wù)。
隨著深度學(xué)習(xí)模型需要的標(biāo)注樣本數(shù)量不斷增加,傳統(tǒng)的標(biāo)注模式難以支持大規(guī)模數(shù)據(jù)集的樣本標(biāo)注。鐵路人工智能平臺(tái)預(yù)置圖像檢測(cè)、圖像分類(lèi)、圖像分割、實(shí)體抽取、文本摘要、3D物體識(shí)別、音頻信息提取等多種智能標(biāo)注模型,實(shí)現(xiàn)樣本數(shù)據(jù)的自動(dòng)標(biāo)注,通過(guò)自動(dòng)標(biāo)注與人工反饋系統(tǒng)的結(jié)合,顯著減少樣本標(biāo)注工作量,提高樣本標(biāo)注效率,降低人工標(biāo)注偏差。樣本自動(dòng)標(biāo)注流程如圖2所示。

圖2 樣本自動(dòng)標(biāo)注流程
鐵路人工智能平臺(tái)智能標(biāo)注模型可利用難例集進(jìn)行遷移學(xué)習(xí)優(yōu)化,不斷提升智能標(biāo)注模型的泛化性能與標(biāo)注質(zhì)量;此外,通過(guò)模型推理子系統(tǒng)的核心功能,提供標(biāo)準(zhǔn)化的智能標(biāo)注模型接口服務(wù),用戶(hù)可根據(jù)接口協(xié)議將場(chǎng)景優(yōu)化模型接入數(shù)據(jù)標(biāo)注子系統(tǒng),實(shí)現(xiàn)樣本的定制化自動(dòng)標(biāo)注。
由于缺乏鐵路場(chǎng)景數(shù)據(jù)集進(jìn)行訓(xùn)練與調(diào)優(yōu),深度學(xué)習(xí)通用大模型無(wú)法遷移至鐵路場(chǎng)景直接應(yīng)用,運(yùn)用分布式訓(xùn)練、遷移學(xué)習(xí)等技術(shù)構(gòu)建鐵路行業(yè)大模型是鐵路人工智能平臺(tái)的核心服務(wù)之一[6]。鐵路人工智能平臺(tái)預(yù)置多種分布式訓(xùn)練策略與精調(diào)算法,運(yùn)用可視化分析工具實(shí)時(shí)監(jiān)控訓(xùn)練任務(wù)運(yùn)行狀態(tài),簡(jiǎn)化大模型遷移學(xué)習(xí)訓(xùn)練流程。大模型遷移應(yīng)用過(guò)程如圖3所示。

圖3 大模型遷移應(yīng)用過(guò)程
3.2.1 樣本庫(kù)
基于鐵路人工智能平臺(tái)樣本庫(kù)收集鐵路行業(yè)高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)集,利用數(shù)據(jù)標(biāo)注子系統(tǒng)實(shí)現(xiàn)對(duì)數(shù)據(jù)集的清洗、標(biāo)準(zhǔn)化、降噪、特征選擇等數(shù)據(jù)預(yù)處理,形成適應(yīng)鐵路行業(yè)大模型特征的數(shù)據(jù)集。
3.2.2 精調(diào)算法
鐵路人工智能平臺(tái)預(yù)置LoRA、Prefix Tuning、Prompt Tuning、P-Tuning、AdaLoRA等多種精調(diào)算法,利用通用大模型的預(yù)訓(xùn)練權(quán)重初始化鐵路行業(yè)大模型,選擇需要的訓(xùn)練算法與數(shù)據(jù)集進(jìn)行模型訓(xùn)練。
3.2.3 訓(xùn)練工具
鐵路人工智能平臺(tái)預(yù)置參數(shù)調(diào)優(yōu)工具、模型評(píng)價(jià)引擎與可視化分析工具,提供大規(guī)模分布式訓(xùn)練環(huán)境[7]。利用平臺(tái)訓(xùn)練工具進(jìn)行行業(yè)大模型精調(diào)訓(xùn)練,根據(jù)模型在驗(yàn)證集上的評(píng)價(jià)結(jié)果,調(diào)整精調(diào)算法與訓(xùn)練策略,并增加場(chǎng)景數(shù)據(jù)集進(jìn)行多輪精調(diào)訓(xùn)練,形成具備鐵路專(zhuān)業(yè)知識(shí)與經(jīng)驗(yàn)的行業(yè)大模型。
鐵路人工智能平臺(tái)利用容器化、分布式計(jì)算、資源調(diào)度、彈性擴(kuò)容等技術(shù)搭建高效、靈活、準(zhǔn)確的模型編排服務(wù)。同時(shí),運(yùn)用模型融合、并行處理、性能評(píng)估、特征工程、集成學(xué)習(xí)等關(guān)鍵技術(shù),動(dòng)態(tài)生成靈活、高效的模型編排運(yùn)行方案,實(shí)現(xiàn)模型推理的靈活性、可解釋性和可擴(kuò)展性,提高模型的準(zhǔn)確性、魯棒性和泛化能力。模型編排方式如圖4所示。

圖4 模型編排方式
3.3.1 串行方式
統(tǒng)一模型的輸入、輸出標(biāo)準(zhǔn)規(guī)范,將前一個(gè)模型的輸出作為后一個(gè)模型的輸入,將多個(gè)人工智能模型按照業(yè)務(wù)流程順序連接起來(lái)。
3.3.2 并行方式
應(yīng)用多個(gè)獨(dú)立業(yè)務(wù)模型進(jìn)行同步計(jì)算,并將多個(gè)模型結(jié)果進(jìn)行合并或融合,實(shí)現(xiàn)大量數(shù)據(jù)并行處理,并將不同業(yè)務(wù)模型的處理結(jié)果進(jìn)行集成,滿(mǎn)足鐵路業(yè)務(wù)復(fù)雜場(chǎng)景的智能分析需求。
3.3.3 集成方式
融合模型編排的串行與并行方式,將多個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行合理組合,運(yùn)用加權(quán)融合、投票融合、規(guī)則融合、堆疊泛化等方法得到更準(zhǔn)確和穩(wěn)定的預(yù)測(cè)結(jié)果,提高整體模型的性能和泛化能力。
3.3.4 動(dòng)態(tài)選擇方式
根據(jù)智能分析任務(wù)的需求和數(shù)據(jù)特點(diǎn),綜合既有模型的準(zhǔn)確率、召回率和處理速度等指標(biāo),自動(dòng)選擇模型推理組合。通過(guò)對(duì)模型整體推理結(jié)果進(jìn)行評(píng)估監(jiān)測(cè),動(dòng)態(tài)調(diào)整模型組合和推理權(quán)重。
邊緣推理靠近數(shù)據(jù)生產(chǎn)者,可提供低延遲、高吞吐的推理服務(wù);云端推理基于大規(guī)模算力,可提供泛化能力更強(qiáng)、推理精度更高的推理服務(wù)[8]。模型推理子系統(tǒng)融合云端推理與邊緣推理的優(yōu)勢(shì),運(yùn)用云邊協(xié)同推理技術(shù)實(shí)現(xiàn)高精度、低消耗、快響應(yīng)、低延時(shí)的人工智能模型應(yīng)用需求。云邊協(xié)同架構(gòu)如圖5所示。

圖5 云邊協(xié)同架構(gòu)
3.4.1 云邊聯(lián)合推理
利用邊緣側(cè)算力進(jìn)行樣本初篩檢測(cè)出難例推理樣本,將其發(fā)送至云端進(jìn)行二次復(fù)核。較簡(jiǎn)單的樣本在邊側(cè)推理保障時(shí)延和吞吐,較復(fù)雜的樣本在云上推理保障整體精度實(shí)現(xiàn)提升。
3.4.2 數(shù)據(jù)處理
在邊緣側(cè),對(duì)數(shù)據(jù)采用壓縮和加密技術(shù)進(jìn)行預(yù)處理,減少數(shù)據(jù)傳輸量和響應(yīng)延遲,保障數(shù)據(jù)的安全;在云端側(cè),將多個(gè)邊緣設(shè)備的數(shù)據(jù)結(jié)果進(jìn)行合并融合,保障數(shù)據(jù)結(jié)果的一致性與推理結(jié)果的準(zhǔn)確性,提高整體推理效率。
3.4.3 任務(wù)調(diào)度
在云邊協(xié)同推理過(guò)程中,基于模型推理業(yè)務(wù)的復(fù)雜性、邊緣設(shè)備的負(fù)載情況、網(wǎng)絡(luò)帶寬的利用率等因素的考慮,將任務(wù)動(dòng)態(tài)分配給邊緣設(shè)備和云端服務(wù)器,以實(shí)現(xiàn)最優(yōu)的資源利用和推理性能。
3.4.4 網(wǎng)絡(luò)負(fù)載優(yōu)化
實(shí)時(shí)監(jiān)測(cè)邊緣節(jié)點(diǎn)的負(fù)載情況和網(wǎng)絡(luò)狀況,根據(jù)實(shí)時(shí)數(shù)據(jù)進(jìn)行任務(wù)調(diào)度和數(shù)據(jù)傳輸決策,平衡網(wǎng)絡(luò)負(fù)載與資源請(qǐng)求,減少網(wǎng)絡(luò)擁塞。
3.4.5 異構(gòu)設(shè)備協(xié)同
邊緣設(shè)備和云端服務(wù)器通常具有不同的硬件架構(gòu),鐵路人工智能平臺(tái)基于人工智能算力管理服務(wù)實(shí)現(xiàn)異構(gòu)設(shè)備之間的協(xié)同工作,保障數(shù)據(jù)的無(wú)縫傳輸和推理的一致性。
人工智能推理應(yīng)用通常具有算力動(dòng)態(tài)變化、數(shù)據(jù)傳輸量大、服務(wù)實(shí)時(shí)響應(yīng)等特點(diǎn)。鐵路人工智能平臺(tái)制定多云協(xié)同的動(dòng)態(tài)調(diào)度策略,通過(guò)將中國(guó)國(guó)家鐵路集團(tuán)有限公司(簡(jiǎn)稱(chēng):國(guó)鐵集團(tuán))云端密集型計(jì)算轉(zhuǎn)化為多區(qū)域部署的分布式多云協(xié)同資源管理架構(gòu),實(shí)現(xiàn)以數(shù)據(jù)為中心的管理策略、多鐵路局集團(tuán)公司分布式協(xié)同推理計(jì)算架構(gòu)。多云協(xié)同架構(gòu)如圖6所示。

圖6 多云協(xié)同架構(gòu)
圖6中,國(guó)鐵集團(tuán)負(fù)責(zé)管理和監(jiān)控全路計(jì)算資源,協(xié)同調(diào)度各鐵路局集團(tuán)公司之間資源以滿(mǎn)足應(yīng)用需求,并為鐵路局集團(tuán)公司算力峰值時(shí)段提供算力補(bǔ)充;鐵路局集團(tuán)公司負(fù)責(zé)就近處理具體的存儲(chǔ)和計(jì)算任務(wù),形成協(xié)同運(yùn)行、統(tǒng)一管理、互聯(lián)互通的鐵路人工智能算力網(wǎng)絡(luò)生態(tài)。在多云架構(gòu)下,平臺(tái)的資源利用率、存儲(chǔ)利用率、網(wǎng)絡(luò)利用率的需求計(jì)算如式(1)所示。式(1)中,鐵路人工智能業(yè)務(wù)i的算力網(wǎng)絡(luò)需求為Ci;計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等方面算力需求的映射關(guān)系為fc、fn和fs;計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)需求所對(duì)應(yīng)的映射比例系數(shù)為α、β、γ[9]。
算力網(wǎng)絡(luò)通過(guò)拓?fù)涓兄治銎錁I(yè)務(wù)需求情況,利用智能算法定制化生成算力網(wǎng)絡(luò)節(jié)點(diǎn)資源的調(diào)度方案,滿(mǎn)足鐵路不同應(yīng)用場(chǎng)景的差異化算力需求,并根據(jù)算力網(wǎng)絡(luò)的環(huán)境變化動(dòng)態(tài)調(diào)整調(diào)度方案[10]。有效促進(jìn)鐵路算力網(wǎng)絡(luò)的資源平衡,極大提升鐵路人工智能計(jì)算資源的利用率。
鐵路人工智能平臺(tái)以“開(kāi)放平臺(tái)”為主要賦能載體,以全路高質(zhì)量的算力網(wǎng)絡(luò)為關(guān)鍵支撐,形成面向鐵路業(yè)務(wù)的“平臺(tái)+應(yīng)用”服務(wù)模式,已為國(guó)鐵集團(tuán)電子公文資源庫(kù)、線(xiàn)路安全環(huán)境管控平臺(tái)等多個(gè)應(yīng)用提供高效穩(wěn)定的人工智能服務(wù)。在國(guó)鐵集團(tuán)電子公文資源庫(kù)應(yīng)用中,鐵路人工智能平臺(tái)提供智能檢索、智能糾錯(cuò)、智能摘要等模型服務(wù),實(shí)現(xiàn)公文質(zhì)量和工作效率的提升,推動(dòng)公文系統(tǒng)智能化升級(jí);在線(xiàn)路安全環(huán)境管控平臺(tái)應(yīng)用中,鐵路人工智能平臺(tái)基于軌道落石檢測(cè)、周界人員入侵檢測(cè)等模型的云邊協(xié)同推理服務(wù),實(shí)現(xiàn)巡防效率與遠(yuǎn)程管控能力的提升,保障了鐵路運(yùn)輸安全。
本文分析了當(dāng)前鐵路人工智能的現(xiàn)狀與應(yīng)用需求,研究了鐵路人工智能平臺(tái)的設(shè)計(jì)方案與關(guān)鍵技術(shù)。鐵路人工智能平臺(tái)以“數(shù)據(jù)、算法、算力”為核心能力要素,為鐵路人工智能的建設(shè)與應(yīng)用提供基礎(chǔ)平臺(tái)支撐,有利于提高鐵路人工智能模型研發(fā)效率,縮短鐵路人工智能應(yīng)用上線(xiàn)周期,加速鐵路人工能技術(shù)的迭代升級(jí),推動(dòng)鐵路人工智能共性能力體系的建立,為鐵路共建共享的人工智能生態(tài)建設(shè)提供保障。未來(lái),鐵路人工智能平臺(tái)將在引領(lǐng)鐵路人工智能科技攻關(guān)、產(chǎn)業(yè)優(yōu)化升級(jí)、生產(chǎn)效率提升等方面發(fā)揮更大作用。