李石鳳


南京地鐵運營有限責(zé)任公司
摘要:無線調(diào)度子系統(tǒng)為地鐵無線重要的用戶系統(tǒng),是行車的關(guān)鍵部件,主要由調(diào)度服務(wù)器和調(diào)度臺組成。調(diào)度子系統(tǒng)向中心調(diào)度員提供功能強大的調(diào)度指揮功能,是地鐵運營指揮的主要操作平臺,經(jīng)過二次開發(fā)后,調(diào)度子系統(tǒng)除能實現(xiàn)TETRA集群系統(tǒng)標(biāo)準(zhǔn)的調(diào)度功能外,還增加根據(jù)用戶要求定制的功能。本文重點研究調(diào)度子系統(tǒng)的組成及使用過程中出現(xiàn)的疑難問題,為系統(tǒng)維保提供技術(shù)支持,為故障提供解決措施。
關(guān)鍵詞:原裝調(diào)度臺;二次開發(fā)調(diào)度臺;心跳包;TETRA無線通信系統(tǒng)
一、系統(tǒng)概述
調(diào)度子系統(tǒng)包含二次開發(fā)部分和無線原裝部分,二次開發(fā)主要是調(diào)度服務(wù)器和調(diào)度終端;原裝部分主要調(diào)度終端MC7500C和相關(guān)配件。
南京地鐵的調(diào)度子系統(tǒng)包括互為備份的調(diào)度服務(wù)器和多個調(diào)度臺,根據(jù)用戶功能分為總調(diào)度臺、行車調(diào)度、維修調(diào)度、環(huán)控(防災(zāi))調(diào)度和車輛段調(diào)度。
調(diào)度服務(wù)器為高端的機架式服務(wù)器,該服務(wù)器上配置有windows服務(wù)器操作系統(tǒng)和SQLServer專業(yè)數(shù)據(jù)庫及二次開發(fā)的調(diào)度服務(wù)器軟件。
調(diào)度臺的硬件包括Motorola的MCC7500原裝調(diào)度臺、二次開發(fā)調(diào)度臺主機(即每個調(diào)度臺包括兩臺計算機主機)、1套計算機標(biāo)準(zhǔn)配件(顯示器、鍵盤和鼠標(biāo))、1套音頻附件(MIC、揚聲器和腳踏PTT)。每個調(diào)度臺配置一套簡易KVM切換設(shè)備,用戶通過該設(shè)備操作控制二次開發(fā)主機和MCC7500主機。每套調(diào)度臺的硬件配置都是一致的,但每個調(diào)度臺的用戶權(quán)限是不一樣,通過用戶名和密碼區(qū)分。調(diào)度用戶的管理對象(如通話組、電臺、車站等)由系統(tǒng)管理員進行設(shè)置,可以根據(jù)需要為調(diào)度用戶靈活設(shè)置管理對象。只有合法的調(diào)度用戶才能登錄調(diào)度臺軟件,如果用戶輸入錯誤的用戶名和密碼,調(diào)度臺軟件將彈出出錯提示框。
調(diào)度臺是用戶進行調(diào)度運行指揮的主要操作平臺,用戶可以通過它對系統(tǒng)內(nèi)的列車司機、車站值班員以及手持臺移動用戶發(fā)起各種呼叫,或者接收它們的呼叫,以建立與這些用戶之間的語音和數(shù)據(jù)通信。
二、問題研究
地鐵運營多年,調(diào)度子系統(tǒng)發(fā)生過多起故障,影響范圍大,故障處理的時間也較長。下面針對調(diào)度子系統(tǒng)出現(xiàn)的典型問題故障進行梳理分析。主要有以下兩類問題:
(一)調(diào)度臺注冊鑒權(quán)失敗
運營初期出現(xiàn)多次二次開發(fā)無法啟動的現(xiàn)象,大多為原裝主機沒有正常啟動,重新啟動硬件或軟件即可恢復(fù)。但有次問題比較典型,二次開發(fā)和原裝臺重啟,重裝都不能正常啟動。
調(diào)度臺問題現(xiàn)象為行調(diào)1(原裝10.142.116.7加二次開發(fā)192.168.11.122)控制臺燈顯黃,顯示調(diào)度臺鑒權(quán)失敗無法注冊。
排查過程:第一步二次開發(fā)主機與原裝主機通過IP進行ping通測試,數(shù)據(jù)正常,沒有延時,確認(rèn)兩者網(wǎng)絡(luò)通道是正常。第二步使用行調(diào)1的xd1用戶名登錄無線調(diào)度臺備件(原裝臺10.142.116.2和二次開發(fā)192.168.11.127),行調(diào)1的用戶名可以正常使用,說明用戶名和密碼是正確有權(quán)限的。由此判斷調(diào)度大廳行調(diào)調(diào)度臺軟件系統(tǒng)可能有問題。
使用無線原裝調(diào)度臺備機(OP210.142.116.2)替換調(diào)度大廳原裝調(diào)度臺(OP710.142.116.7)并修改IP地址為(10.142.116.7),復(fù)制心跳包“cram.ior”軟件仍無法正常登陸。把有問題的原裝主機(OP710.142.116.7)替換為OP2(10.142.116.2)。重新啟動原裝臺數(shù)據(jù)庫,開啟四個進程;開啟原裝臺監(jiān)控軟件,通過用戶名ConUser2和密碼motorola開啟原裝臺調(diào)度軟件;發(fā)現(xiàn)監(jiān)控軟件可以監(jiān)控原裝臺調(diào)度軟件的啟動和運行;接著把原裝臺的心跳包拷入二次開發(fā)主機;并把二次開發(fā)調(diào)度臺中windows/Systems/drivers/etc的“host”IP地址改成一對一映射。啟動二次開發(fā)的DPH程序后,發(fā)現(xiàn)依然登錄不上去,與初始的故障現(xiàn)象一致;但遠程連接原裝臺監(jiān)控軟件ManagerMonitor上有數(shù)據(jù)顯示,顯示二次開發(fā)調(diào)度臺調(diào)用的原裝臺的鑒權(quán)用戶名為ConUser2和密碼ConUser2,而實際上OP2的原裝臺軟件的鑒權(quán)用戶名為ConUser2,密碼為motorola。二次開發(fā)數(shù)據(jù)系統(tǒng)中原裝臺的鑒權(quán)用戶名ConUser2的密碼與原裝數(shù)據(jù)庫中的原裝臺ConUser2的密碼設(shè)置不一致,導(dǎo)致原裝臺用戶名ConUser2一直無法被二次開發(fā)調(diào)度臺調(diào)用。在原裝網(wǎng)管UCM軟件中更改用戶名ConUser2鑒權(quán)密碼由motorola改為ConUser2,二次開發(fā)調(diào)度臺重新覆蓋對應(yīng)的心跳包,二次開發(fā)上顯示控制臺鑒權(quán)正常,可登錄。
一套調(diào)度臺包含一臺二次開發(fā)主機和一臺原裝主機,每臺主機都有對應(yīng)的IP地址,二次開發(fā)主機必須得到原裝臺的合理授權(quán),才可以正常使用。此問題的原因有兩方面:一是新增一套調(diào)度臺備機,調(diào)試過程中把原裝臺ConUser2的密碼更改,二次開發(fā)中沒有對應(yīng)更改,導(dǎo)致二次開發(fā)一直沒法調(diào)用原裝ConUser2,即原裝系統(tǒng)內(nèi)密碼被原裝廠家修改,二次開發(fā)調(diào)度服務(wù)器內(nèi)未改,并且現(xiàn)場維保人員不知道。二是原裝用戶名與原裝主機的IP對應(yīng)關(guān)系可以靈活對應(yīng),不是唯一對應(yīng)。針對此次問題原因,平時設(shè)備調(diào)試過程中,要關(guān)注細(xì)節(jié),涉及的用戶名和密碼需做好記錄,并保證各個數(shù)據(jù)的用戶名和密碼一致,并告知團隊同事,同時要善于利用原裝調(diào)度臺的監(jiān)測軟件,掌握調(diào)度臺啟用的步驟。掌握用戶名和IP的對應(yīng)關(guān)系。
(二)調(diào)度臺組信息獲取失敗
運營過程出現(xiàn)二次開發(fā)調(diào)度臺的車組顯示打叉,及無車組信息,導(dǎo)致調(diào)度臺無法與行駛列車通話。查看數(shù)據(jù)庫核心路由等設(shè)備都正常,原裝調(diào)度臺與二次開發(fā)調(diào)度臺和中心設(shè)備的網(wǎng)絡(luò)通信正常。當(dāng)有部分調(diào)度臺出現(xiàn)這類現(xiàn)象,其他調(diào)度臺只要重啟就會出現(xiàn)此類現(xiàn)象,不重啟的話可以正常使用。原裝調(diào)度臺自檢發(fā)現(xiàn)trunkingsystemstatus狀態(tài)為“?”;正常狀態(tài)為“√”。
通過自檢軟件DiagnosticCentre連接驗證,發(fā)現(xiàn)MCC7500componentsVerification(組件驗證)和Upgradereadiness Verification (更新準(zhǔn)備驗證)為Failed狀態(tài)。
原裝網(wǎng)管UEM反復(fù)提示如下告警:
1、ConsoleSiteControlPath_1116.1:zone15DOWN,NOACTIVITYRECEIVEDDIMETRAZcConsoleSCP:3.4.92.1控制臺站點控制路徑處于斷開狀態(tài),沒有收到任何活動。
2、ConsoleSiteControlPath_1116.2:zone15DOWN,TRANSMITRETRYFAILUREDIMETRAZcConsoleSCP:3.4.92.2控制臺站點控制路徑處于斷開狀態(tài),傳輸重試失敗
3、Redundancyattributeoftheentityhaschanged-UNDETERMINED,LINKDOWN實體的冗余屬性發(fā)生變化,未確定連接斷開
MCC7500系列一個調(diào)度臺站點與區(qū)域控制器建立用于刪除調(diào)用和設(shè)置的控制會話。活動區(qū)域控制器到調(diào)度臺組的控制路徑由一個稱為LinkOp的調(diào)度臺處理,向系統(tǒng)注冊并分配資源的第一個調(diào)度臺成為LinkOp,它是與ZC保持通信的唯一活動控制臺。
調(diào)度臺組中,總是有一個在用LinkOp調(diào)度臺和一個備用的調(diào)度臺(在出現(xiàn)故障時準(zhǔn)備接管LinkOp調(diào)度臺的責(zé)任),其他調(diào)度臺保持非活動狀態(tài)(此處活動是指與ZC的通訊)。所有調(diào)度臺通過LinkOp調(diào)度臺將其消息發(fā)送到ZC,但所有調(diào)度臺都能夠通過多播接收ZC消息,除了與ZC通信外,還交換聲音信息,以確認(rèn)各自的正確操作。當(dāng)LinkOp調(diào)度臺發(fā)生故障時,其余的調(diào)度臺都知道,備用調(diào)度臺變成在用的LinkOp調(diào)度臺,轉(zhuǎn)換時間需要約10秒。
LinkOp即調(diào)度臺組與區(qū)域核心的邏輯連接,正常有兩個邏輯連接,此模式稱為路徑多樣性。控制路徑是創(chuàng)建的邏輯鏈接,以方便區(qū)域控制器與MCC7500系列調(diào)度臺組通信。控制路徑為冗余模式:活動路徑和備用路徑。
因之前所有的控制臺都正常注冊和使用,故障時,兩條控制通道處于斷開狀態(tài),導(dǎo)致原裝調(diào)度臺注銷之后再登錄,無法獲得ZC全部的資源信息,導(dǎo)致原裝控制臺某些監(jiān)測不過關(guān)。
MCC7500C調(diào)度控制臺提供一套應(yīng)用程序編程接口(API)供二次開發(fā)廠家使用。它可供第三方接口通過計算機輔助調(diào)度(CAD)系統(tǒng)連接非摩托羅拉其他調(diào)度臺,使之與摩托羅拉MSO系統(tǒng)通信。本線路使用的二次開發(fā)設(shè)備為五十四所的,即通過API接口兩者獲得聯(lián)系。
摩托羅拉MCC7500C調(diào)度控制臺允許其他軟件應(yīng)用程序監(jiān)視和控制其應(yīng)用軟件。它是通過應(yīng)用程序接口(API)完成的。API可以支持多個應(yīng)用程序同時訪問它們的,API可以同時服務(wù)調(diào)度控制臺用戶界面和第三方應(yīng)用程序,必須通過CAD系統(tǒng)協(xié)助。有三個API可供希望通過調(diào)度控制臺訪問無線電系統(tǒng)特性和功能的第三方使用。
控制臺調(diào)度接口API
控制臺調(diào)度接口API是一組函數(shù)或消息,用于全面管理和維護軟件應(yīng)用程序與調(diào)度系統(tǒng)之間的連接。此API中定義的函數(shù)和消息:允許應(yīng)用程序在控制臺系統(tǒng)中注冊和注銷。只有注冊的應(yīng)用程序才允許與控制臺功能API接口。本故障過程過程,二次開發(fā)調(diào)度軟件和原裝調(diào)度軟件都可以登錄。故控制臺調(diào)度接口的API可以正常使用。
資源配置API
資源配置API是一組用于檢索與調(diào)度系統(tǒng)相關(guān)的配置和別名信息的函數(shù)。配置信息包括:系統(tǒng)中資源列表(通話組或通播組);系統(tǒng)中每個資源上可用的容量及特征列表。別名信息通常指:用戶無線電單元ID(例如,單元6118301=“泰山新村組”);單元用戶狀態(tài),(例如,狀態(tài)7=“現(xiàn)場”)。配置和別名信息是通過系統(tǒng)網(wǎng)絡(luò)管理子系統(tǒng)輸入的。本故障現(xiàn)象顯示當(dāng)時資源配置API出現(xiàn)問題,各通話組的信息二次開發(fā)調(diào)度臺讀取不到。
控制臺功能API
控制臺功能API是一組功能消息,允許實時監(jiān)控和控制摩托羅拉調(diào)度通信系統(tǒng)。此API中定義的函數(shù)和消息用于:1監(jiān)視系統(tǒng)中的呼叫活動;2向用戶單元發(fā)起語音和數(shù)據(jù)通信。
本次故障時原裝臺和二次開發(fā)調(diào)度臺的組信息都處于打叉狀態(tài),因原裝臺無法獲得ZC的全部資源,原裝臺信息不全,從而導(dǎo)致二次開發(fā)調(diào)度臺無法從原裝臺的API獲取組信息,從而導(dǎo)致故障現(xiàn)象,所有的通話組都處于打叉的狀態(tài)。即故障點集中在原裝調(diào)度臺與ZC之間的通訊。原裝臺與ZC服務(wù)器之間的通信是通過核心交換機相連。分析交換機的VLAN配置,發(fā)現(xiàn)VLAN16為調(diào)度臺的網(wǎng)段。夜間34端口(接的總調(diào)調(diào)度臺)出現(xiàn)反復(fù)離線狀態(tài)。最終處理的措施是斷開此局域網(wǎng)段內(nèi)所有調(diào)度臺,重新連接,并重啟調(diào)度臺恢復(fù)。結(jié)合后續(xù)故障及資料分析,發(fā)現(xiàn)當(dāng)某個調(diào)度臺短時間反復(fù)重啟10多次之后,會出現(xiàn)此類組信息打叉的現(xiàn)象,故推測是此類行為被ZC認(rèn)為有病毒攻擊,激發(fā)系統(tǒng)高級行為阻塞,導(dǎo)致LinkOp調(diào)度臺至ZC控制的兩條邏輯鏈路處于幾乎斷開狀態(tài),調(diào)度用戶可以登錄,但是沒法獲得資源組信息,導(dǎo)致原裝調(diào)度臺也沒有資源組的API信息給二次開發(fā)。
三、總結(jié)
本文重點介紹調(diào)度子系統(tǒng)的硬件組成及兩個典型的問題的分析。調(diào)度子系統(tǒng)是硬件相對集成簡單的系統(tǒng),軟件比較復(fù)雜,平時維保過程要善于利用監(jiān)控軟件ManagerMonitor和診斷軟件DiagnosticCentre及原裝的UEM軟件掌握調(diào)度后臺軟件所處的狀態(tài),處理故障。平時維保過程中,禁止局部更改調(diào)度臺的密碼,導(dǎo)致二次開發(fā)和原裝系統(tǒng)的配置不統(tǒng)一;掌握調(diào)度臺問題的典型現(xiàn)象及處理措施,便于應(yīng)急處理,同時也要善于分析告警日志,進行預(yù)防性維修。