侯俊亮
(中國鐵路信息科技集團有限公司 北京市 100844)
經過40 多年的持續迭代,國鐵集團及其所屬運輸企業已經建立了數以千計的信息系統,信息系統已深入到鐵路生產與運輸的各個環節,生產作業對信息系統的依賴程度日益提升。信息系統投產運行以后,確保其安全穩定也是一項長期而艱巨的任務,一旦信息系統發生故障,可能會嚴重影響鐵路的正常生產經營活動,并有可能造成重大社會影響或經濟損失。
目前,以ITIL 體系架構為核心,鐵路運營維護服務已基本建立起標準化、流程化的運行維護管理體系,以確保鐵路業務安全、穩定和可用[1-2]。但是,與國內外先進行業相比,鐵路信息系統的運行維護存在一定差距,主要表現在:一是運維流程尚未實現業務全覆蓋,部分工作流程不規范;二是技術支持手段分散獨立,端到端可視化程度不高,自動化水平較低;三是故障分析、故障自愈、態勢感知等智能化運維手段尚未投入使用,部分運維工作呈現被動、滅火狀態。
隨著鐵路主數據中心的建成投產,鐵路局級信息系統逐步上移,另外,云計算、大數據等新技術、新業態也日趨成熟,業務部門對鐵路運行維護的要求日趨增高,鐵路分級分層運營維護的局限性也日益凸顯[3]。因此,改善鐵路信息系統運維現狀,構建一套統一、集中、高效、完善的運行維護體系,保障鐵路信息系統長期安全穩定運行顯得尤為迫切。主要包括三個方面:
(1)在客戶服務方面,要通過客戶服務部門向內部用戶提供統一的技術支援;
(2)在運維調度方面,要實現日常運行維護流程的自動化、智能化;
(3)在應急指揮方面,要基于應急平臺集中開展應急指揮與救援組織。
通過對鐵路運維調度和應急指揮平臺的客戶服務、運維調度以及應急指揮等關鍵技術的研究,充分運用云計算、智能化、大數據等先進技術,建立集中統一的運維調度和應急指揮中心,集中受理全路信息系統客戶服務需求,統一調度運維資源,統一指揮故障應急處置,以支撐鐵路業務的迅速發展。
1956年,泛美航空首次提出客戶服務,即通過電話進行客戶服務、營銷等商業活動,主要用于訂購機票,此后,這種服務形式逐漸被各行各業所青睞[4]。經過60 余年的發展,客戶服務已從最初的人工客服熱線發展成以互聯網為基礎的多媒體服務。
基于主流的客服體系架構,結合鐵路業務自身特點,提出鐵路智能客服規范體系:利用90800 熱線,在國鐵集團本級集中接入全路服務電話,首先由智能機器人應答常見問題,如需轉接人工咨詢,則根據設定的路由規則,將來電自動分派至所屬鐵路局客服坐席,進行人工應答。在會話過程中,利用智能語音識別技術,針對用戶咨詢的問題,實時為人工坐席提供智能的參考解決方案,同時,平臺全程對客戶服務進行語音質檢。智能服務平臺業務全景如圖1所示。

圖1:智能客服平臺業務全景
智能客服平臺架構分為數據層、引擎層、服務層和業務層?;跀祿邮占脚_日志、各項知識庫等相關業務數據,通過引擎層提供對外語音、語義引擎,為服務層的智能語音應答、智能質檢和在線咨詢機器人提供支撐,最終為應答、報障、咨詢、調研、自助接線等實際業務提供服務,另一方面,針對具體的業務需求,通過接口網關與其他系統進行信息交換。智能客服平臺架構如圖2所示。

圖2:智能客服平臺總體架構
智能語音導航基于智能引擎,錄入專業知識,并對日常數據進行學習、訓練、修正,包含語音識別、自然語言理解、服務推薦等智能服務組件,實現智能語音導航、智能知識匹配與協助和智能咨詢回復[5]。
智能語音導航為客戶提供7*24 小時熱線服務,可精準識別客戶意圖,并根據客戶意圖自動匹配自助服務或快速轉接人工坐席,以說代按,避免傳統繁瑣的IVR 按鍵。在智能語音導航中,客戶只需口述問題,即可獲取所需服務,另一方面,智能機器人也可自動應答、解決咨詢和投訴、情緒安撫、轉接人工坐席??商峁┑姆罩饕P鍵詞識別與響應、情緒安撫響應、FAQ 應答、人工客服轉接、靜音識別、兜底話術等。
(1)關鍵詞識別與響應。主要用于敏感詞和緊急新增業務場景,包括系統關鍵詞(如整治、宗教、迷信等,當用戶咨詢包含這些關鍵詞時,平臺自動優先攔截應答,以避免整治風險)和自定義關鍵詞(客服人員為提高工作效率自定義的一套關鍵詞)。
(2)情緒安撫應答。安撫用戶在咨詢、投訴過程中所產生的負面情緒,平臺將語音情緒模型與語義情緒模型結合,多維度識別用戶負面情感、情感濃度,根據實際場景對用戶進行適當的安撫或按需轉接人工坐席。
(3)FAQ 應答?;赒(Question,用戶問法)和A(Answer機器人答案),實現應答機器人自動應答,適用于簡單的一問一答以及大部分知識檢索,常見模式包括FAQ、詞匹配、句匹配[6]。
(4)人工客服轉接。對于應答機器人回答不了的特殊問題或復雜問題,應答機器人通過語音指令自動識別,快速轉接到人工坐席,實現人工與機器系統高效協作、無縫銜接。
(5)靜音識別。當用戶不說話時,機器人自動識別場景,并默認重復播報三次后掛斷,以提示、引導用戶進行交流,讓客服過程更加智能化,極大地提高服務效率。
(6)兜底話術。當用戶咨詢的問題超出應答機器人知識范圍時,應答機器人統一容錯反饋,確保服務能夠在底線范圍內。
基于語音識別、自然語言理解和多位情感分析等技術,平臺對服務過程中的錄音進行處理,再利用數據分析構建數據分析模型,分析熱點問題,以便統計用戶咨詢問題的趨勢變化以及問題分布[7]。
3.4.1 熱詞分析
自動統計自定義時間范圍內除水詞外的轉義文本,利用數據分析,計算出高頻詞語和短語,分析、統計潛在客戶關注的熱點問題,以便提高客戶服務質量。熱詞分析如圖3所示。

圖3:熱詞分析
3.4.2 聚類分析
搜集客戶服務過程中的原始會話日志,再利用機器學習進行聚類分析,自動識別原始會話日志的結構模式,讓質檢和管理人員全方位了解來電詳情,以便了解客戶喜好。
3.4.3 關聯性分析
針對會話中的關鍵詞,利用統計方法分析并展示上下文可能的關聯性詞匯,確定實體之間的關系,選擇標簽模型進行交互分析,更有利于質檢人員全方位分析各種屬性與行為之間的相關性,從而發現當前存在的業務問題,其應用場景包括呼叫情緒、侮辱性詞語及其他特定語音的識別。
梳理不同流程之間的關系,完善多部門、多單位間的流程聯動,提高運維工作效率,能夠快速應對運維工作面臨的各項挑戰[8]。隨著鐵路內部組織機構、職責分工、應用系統架構等的升級調整,運維調度管理流程也需隨之優化改進,以滿足運維需求。
運維調度管理流程主要涉及運維計劃、變更管理等,運維工作需遵循既定的流程開展。
(1)運維計劃。根據實際工作制定全路一體化運維計劃,優化運維作業組織,提升運維作業質量,提高運維工作效率。主要包括計劃制定,計劃審批、計劃執行、計劃跟蹤、計劃監督。具體來說,首先由全路各級運維單位制定年度運維計劃,經過國鐵集團運維管理部門審批后,再按月制定月度運維計劃,經過本級運維管理部門審批后,按計劃開展各項運行維護工作,對運維作業期間發現的問題執行閉環管理,運維管理部門負責對運維計劃的執行進行監督、檢查。信息系統運維計劃流程如圖4所示。

圖4:信息系統運維計劃流程
(2)變更管理。變更管理主要是確保信息系統中的變更得到合理評估、批準,再以監督和受控的方式實施,且變更可追溯,從而最大限度地降低變更風險。變更流程主要包括變更準備、變更申請、變更審批、變更實施、變更總結。具體如下:一是變更準備,申請單位提出變更需求,依據需求編制變更實施方案,并進行方案驗證。二是變更申請,根據變更的影響范圍、時間、程度等因素確定變更級別,將實施方案提交至運維管理部門。三是變更審批。運維管理部門評估方案是否可行,研究變更風險,完成變更方案審批,審批通過后,即可納入下一階段的施工計劃,并進行統一管理。四是變更實施。申請單位按期開展變更施工,運維管理部門負責施工監督,避免施工超期、超限。五是變更總結。申請單位施工完成后,及時分析總結變更經驗,同時更新配置庫。變更流程如圖5所示。

圖5:變更流程
日常運維工作均需以運維工單形式開展,以保證運維工作規范、可控和可追溯,并由運維管理部門統一進行監督、考評,實現閉環管理。
(1)工單生成。根據業務需求,通過運維計劃、施工計劃自動創建工單,或由客服平臺、一鍵報障手動創建工單。
(2)工單流轉受理。根據運維計劃、施工計劃,審核運維工單的歸屬、性質、負責人、實施時間、實施內容等,再流轉至承辦人進行受理。
(3)工單執行。承辦人可查看待辦、關注、參與的工單,對派發的工單填報處理詳細信息并提交反饋。
(4)工單督辦。根據工單辦理時效,采用郵件、APP、智能外呼、站內信等方式,將工單催辦提醒消息發送至承辦人。
(5)工單關閉。處理完畢并經審核通過后,關閉已處理工單。
(6)工單管理。按用戶角色、工單類型、工單狀態、流轉狀態、今日新增數、本周待處理、本周逾期數、工單解決率、待處理工單優先級等條件進行查詢與統計。
應急指揮機制是鐵路系統應急管理工作的基礎,一個統一、高效、協調的應急管理機制,在應對突發的自然災害、緊急事件中起關鍵作用,可最大限度的降低社會影響和經濟損失[9]。
為應對鐵路信息系統架構日趨復雜、運行效率需求日益提高、運維單位穩步增加等現狀,聯合鐵路內各級運維單位技術資源和路外相關廠家力量開展綜合應急處置很有必要。開展統一規范的智能化應急指揮機制研究,匯聚信息系統全量運維數據,綜合運用AI、云計算和大數據等技術,對各類安全事件的響應和處置指揮進行統一調度,實現事件等級判定智能化,突發事件處置自動化記錄和評估。智能化應急指揮機制主要包括以下環節:
(1)指揮調度。依托基礎數據庫和基礎系統,綜合利用電話、網絡、視頻會議、遠程會商等手段,對相關運維單位的人員、物資等進行統一指揮調度,確保突發事件處理的及時、有效。
(2)預案管理。針對重要的應急場景,全方位模擬各種應急場景,對場景進行分析,提出針對性的解決方案,并進行多次場景模擬演練,在規定時間內恢復業務,通過每次的演練結果,不斷迭代優化解決方案,以便提高應急效率。
(3)應急方案。利用大數據分析構建處置模型,并對預案進行信息化、流程化處理,當事件發生時,根據處置模型實時生成處置預案,輔助人工完成監測監控、綜合研判、制定方案、指揮調度、事件預測等工作。
(4)應急處置。快速分析突發事件的影響范圍,判定事件等級,以恢復業務為第一要務,優先采用系統切換方式進行應急處置,同時對事件進行分析診斷,達到預定條件提升事件等級,啟動應急預案,業務恢復后關閉事件。參與人員包括一線值班人員、二線技術專家、三線服務商、應急指揮小組和應急決策小組。
(5)應急資源。建立應急資料庫,收錄各級、各類類應急預案及相關法律、法規、文件、典型案例等資料,為應急指揮調度提供知識保障;建立應急資源庫,收錄專家資源、物資儲備分布、裝備管理、通信保障等資源,并進行動態管理,為應急指揮調度提供物質保障。
根據事件現象、應急預案、知識庫、CMDB,運用預測預警模型對各類突發事件的發展情況、影響范圍、影響方式、持續時間和危害程度等進行智能分析、綜合研判和預警分級。
海恩法則表明,事件的出現通常是一個循序漸進的過程,如網絡事件,在網絡不可用之前,往往會有經常丟包的現象。事件預測主要通過特性數據對預測算法進行訓練學習,提前預測相關指標劣化趨勢,避免服務受損,常見的有磁盤故障預測、內存泄露預測、網絡故障預測等,故障預測算法和指標異常檢測算法較為類似,可采用Holt-Winters、ARIMA、指數平滑、LSTM 等算法。
5.2.1 事件的分類
信息系統事件可以定義為指標事件和系統事件。指標事件指某個設備、操作系統或軟件的某個監控指標異常;系統事件指因為一個或者多個指標事件、以及在不確定是否與指標事件是否有關系的情況下,某個業務系統出現的事件。
5.2.2 事件的變量
事件定級要考慮的變量包括事件的影響群體、影響范圍、影響程度和影響時段等。影響群體指業務分類,可分為一類、二類、三類業務等;影響范圍定義系統用戶范圍,可劃分為全路、某些鐵路局、國鐵級、局內部分區域等;影響程度表示受損的功能或性能,包括核心功能、輔助功能、性能下降等;影響時段表示事件持續的時長,如:0min-30min、30min-60min、60min-180min、180min 及以上。
5.2.3 事件的定級
綜合分析上述影響群體、影響范圍、影響程度和影響時段四個事件變量,即可對事件進行評級。事件的定級如圖6所示。

圖6:事件的定級
5.2.4 事件的智能分析預測
針對指標事件,可對歷史事件內容進行自學習,具體如下:首先,將該事件轉化為多KPI 異常檢測問題,收集某一監控實體(如機器)的各類監控指標,然后利用變分自編碼算法VAE對多KPI進行建模,描繪機器的正常行為,精確識別出該機器正常作業下KPI 的聯動模式,最后檢測未來多KPI 違反歷史規律的行為,在出現突發事件時進行準確預警[10]。
多KPI 異常檢測算法可分為三個步驟:二維數據構造、VAE訓練正常模式、判斷數據和正常的偏差。多KPI 異常檢測算法如圖7所示。

圖7:多KPI 異常檢測算法
(1)將多個KPI 窗口構建為二維數組,作為VAE 的輸入,數學表達式如圖8所示。

圖8:二維數組構造
(2)在VAE 算法中采用卷積和反卷積網絡結構,經過訓練得到多KPI 數據的正常模式。
(3)檢測數據中和正常模式偏離較大的部分視為異常。
其核心算法是變分自編碼算法VAE,VAE 算法使用了變分推理方法的深度貝葉斯網絡,同時又符合自動編碼器的基本結構[11]。如圖9所示,以VAE 算法在單維數據輸入上的表現效果為例,能夠很好地過濾掉異常行為,保留正常行為。通過降維強迫多條KPI曲線將關聯特性編碼在低維z 空間內,非常適用于挖掘多KPI 之間的聯動關系,從而進行多KPI 的反常行為檢測,用于早期識別機器故障識別。

圖9:VAE 算法在單維數據輸入上的表現效果
5.2.5 事件的主動分析和跟蹤技術
如果事件的級別較低且一直未解決,或者事件級別不斷升高,則進入自動監控模式,督促運維人員進行處置。
5.2.6 事件影響拓撲圖
當出現應急事件時,系統基于關系推導、集群高可用分析、故障等級自動判別等進行多維度分析,并根據應用拓撲,以圖形化的方式直觀的展示事件的業務和基礎設施資源影響范圍,運維人員則根據事件影響的可視化拓撲圖,準確判斷當前事件的緊急程度和嚴重性,以正確、及時應對故障事件。
將應急處置相關知識采集入知識庫,一方面可實現應急處置知識的積累沉淀和共享輸出,另一方面通過智能挖掘學習知識內容,為后續事件處置提供引導式服務,智能推薦解決方案,能夠縮短故障解決時間。
要實現智能發布和服務推送,需要從應急指揮、事件推演的源頭場景出發,同時考慮場景、用戶和內容的特殊性,從信息交互層、任務執行層、信息挖掘層三層構建智能發布服務和推送模型。具體如下:
(1)信息交互層。用戶或系統以語音、文字等方式將信息輸送給服務,并將其作為數據源,提交到任務執行層。
(2)任務執行層。實現針對信息交互層提交數據的各類動作,包括垂直搜索、開放式聊天、綜合搜索等,其內容來自信息挖掘層。
(3)信息挖掘層。負責信息、知識的抽取、組織和查詢,并根據用戶喜好對知識庫進行個性化整理。
本文首先分析了鐵路信息系統運維調度與應急管理的現狀,提出了運維調度與應急指揮平臺的建設目標,然后從智能客戶服務平臺、運維調度管理優化和應急指揮機制及事件智能化推薦三個方面對運維調度與應急指揮平臺關鍵技術進行了分析研究,并簡要闡述了關鍵技術的應用場景,為運維調度與應急指揮平臺的建設提供了技術思路。