李 忠,趙興強,趙 學
(中國鐵路濟南局集團有限公司電務部,濟南 250001)
CTCS-3級列控系統(簡稱C3)作為高速鐵路運行控制系統,出于其安全運行的需求,對數據連接的可靠性要求很高。在導致數據連接異常斷開的各種因素中,數據鏈路層的幀校驗漏檢、錯檢等機制問題分析判斷頗有難度,其作為一大類問題越來越受到重視,針對C3列控系統數據鏈路層的幀校驗設計、設置、改進問題進行研究,對保障C3安全運行至關重要。
數據鏈路層是開放系統互聯(OSI)參考模型中的第二層,介乎于物理層和網絡層之間。數據鏈路層在物理層提供服務的基礎上向網絡層提供服務,其最基本的服務是將源自網絡層的數據可靠地傳輸到相鄰節點的目標機網絡層。為達到目的,數據鏈路必須具備相應的功能:一是將數據組合成數據塊(數據塊被稱為幀frame);二是數據鏈路層完成對幀的傳送。
《CTCS-3級列控系統無線通信功能接口規范》(Q/CR 604-201)第4章對C3的無線通信參考模型做出定義,其中數據鏈路層居于第二層,參考規范為ISO 7776和ISO 3309。如圖1所示。

圖1 C3列控系統的無線通信參考模型Fig.1 Reference model of radio communication system for C3 train control system
數據鏈路層主要負責如何控制幀在物理信道上的傳輸,包括如何處理傳輸差錯,如何調節發送速率使其與接收方相匹配,以及在兩個網絡實體之間提供數據鏈路通路的建立、維持和釋放的管理。
在C3無線通信功能接口規范中對數據鏈路層的傳輸特性也進行了定義,主要包括:“根據OSI參考模型,數據的可靠傳輸由數據鏈路層提供”,“數據鏈路層對發生在物理層的數據傳輸錯誤進行糾錯檢錯”,“第2層協議應符合高級數據鏈路控制(HDLC)標準”,“HDLC基本規程應提供以下檢錯及恢復機制:確認丟失后的自動重傳、16 bit幀校驗序列”等。
明確數據鏈路層是C3數據通信中唯一提供可靠數據傳輸的層,其檢錯機制為16 bit的幀校驗。
數據在傳輸過程中可能會因為外界的影響使數據產生差錯。使原來的0變為1,原來的1變為0,這叫作比特差錯。在一段時間內,傳輸錯誤的比特占傳輸比特總數的比率稱為誤碼率。因此開始采用各種檢驗差錯的措施,目前C3數據鏈路層就是采用的循環冗余檢驗(CRC)。CRC是一種數據傳輸檢錯方法,對數據進行余式計算,而幀校驗序列(FCS)是添加在數據后面的一個16 bit序列,接收設備也執行類似的算法,以保證數據傳輸的正確性和完整性。
余式運算的16 bit余數共有216=65 536種可能,即兩個不同幀的余式相同概率為1/216=1/65 536,另一方面,一個錯誤幀能通過校驗的概率也為1/65 536。由此導致以下兩種可能的漏檢現象。一是幀錯誤未發生在FCS字段,但出現錯誤的幀內容其余式運算結果剛好等于正確的FCS;二是錯誤既發生在幀內容字段,也發生在FCS字段,但出錯后的幀內容余式運算結果剛好等于出錯后的FCS字段。
實際的漏檢率取決于幀長度和錯誤比特數量,在幀長度很長和錯誤比特較多時會貼近此值,一般會低于這個值。漏檢幀的特點是能夠通過檢驗算法,不會顯示為校驗錯誤。
與漏檢不同,錯檢的幀本身并不能通過校驗,會顯示為校驗錯誤,但是卻被接收方通過檢驗并進行處理,這是一種接收方的系統問題,并不是校驗的機制問題。
通信過程中的誤碼是導致幀出現錯誤的直接原因。一般來說,通信過程中的干擾和噪聲都可以導致誤碼發生,但在GSM-R承載的C3列控系統中,小區切換造成的誤碼概率遠高于干擾和噪聲,是產生錯幀的主要因素。
導致C3數據通信誤碼的主要因素是GSM-R小區切換。作為C3列控的無線通信承載網,GSM-R提供物理層、數據鏈路層、網絡層的服務,為保證無線覆蓋,鐵路沿線設置多個GSM-R基站,列車在運行過程中會不停的更換服務小區,這就導致發生大量的GSM-R小區切換,切換過程中需要進行無線信道的更換。
在切換時復幀操作會在移動終端離開老信道前暫停,并在信道更換結束后恢復,這就是所謂的“硬切換”。復幀操作恢復后,終端會采用“偷幀”方式在業務信道(TCH)內傳輸控制消息,從而導致正常傳遞的碼流中出現解碼的錯誤。如果這時與C3數據鏈路層的幀發送時間出現重疊,就會產生錯幀。由于硬切換是GSM系統的特點,由此導致的誤碼及可能的C3數據鏈路層的錯幀無法避免。
需要指出的是,切換發生時間和幀發送時間無必然聯系,所造成的錯幀率無法直接計算,只能通過統計結果觀察。
由于GSM系統本身的硬切換特點,C3消息必然受切換過程中誤碼的影響。影響的概率主要取決于3個方面。一是切換發生的概率,其取決于列車的速度和GSM-R小區覆蓋范圍;二是消息的長短,更長的消息就需要更長的傳遞時間,受切換影響的概率就會增加;三是誤幀率,誤幀率也會影響消息傳遞的時延。
歐 洲 鐵 路 標 準《ERTMS/ETCS-Class 1 GSM-R Interfaces Class 1 Requirements》(SUBSET-093)中,對GSM-R切換影響到列控消息的概率進行分析和模型計算。假定列車速度360 km/h,小區覆蓋范圍2 km(每20 s發生一次切換);消息包大小為200 Byte,誤幀率(FER)=2.5×10-1~3×10-2,切換影響到的消息包概率從10%~1%之間,取5%的值,表示每20個消息會有一個被影響。
因此,列控系統采用GSM-R進行承載是在考慮錯幀率3%~25%,消息被影響的概率5%基礎上進行設計。
京滬高鐵濟南局段的實際統計數據:列車速度:350 km/h;小區覆蓋范圍:3 km;約每30 s發生一次切換;消息包大小:不定長,最長的未超過200 Byte。
對京滬高鐵濟南局段的誤幀率進行抽樣統計,FER=0.08×10-2,如表1所示。

表1 京滬高鐵濟南局段錯幀率統計Tab.1 FER statistics in Jinan section of Beijing-Shanghai high-speed railway
實測結果證明,京滬高鐵濟南局段的錯幀率指標滿足最初的列控設計并優于其范圍。
京滬高鐵濟南局段的幀漏檢統計:抽樣的每一列車的錯幀數在濟南局管段平均約為15個,京滬高鐵每天運行約200次列車,一天的錯幀數量為15×200=3 000個,以漏檢概率為1/65 536來計算,約22天即會發生一次CRC漏檢現象。自2020年至2021年6月,京滬高鐵濟南局段共記錄幀校驗導致的C3問題17件,低于以22天為基數計算出的約24件預期值,符合前述的概率分析。另外,京滬高鐵濟南局段共123個站,每車均需切換123次,但錯幀平均為15個,也符合前述切換并不必然帶來錯幀的分析。
數據鏈路層幀校驗的漏檢和錯檢,將會把錯誤數據進行正常處理,根據錯誤數據在幀中所處的位置,會導致數據鏈路層、傳輸層、安全層的各種異常現象。
目前,C3列控應用模128的FRMR幀結構,如表2所示。

表2 數據鏈路層FRMR的格式定義Tab.2 Format of FRMR in Data Link Layer
其中字段的功能如下。
1)被拒絕幀的控制字段應是所接收的引起幀拒絕的幀控制字段。當被拒絕幀為無編號幀時,被拒絕幀的控制字段應位于比特1~8,而比特9~16置為“0”。
2)N(S)是報告拒絕狀態DCE或DTE的當前發送狀態變量值(比特18為低階比特)。
3)C/R置為“1”,表示被拒絕的幀是響應幀。C/R置為“0”,表示被拒絕的幀是命令幀。
4)N(R)是報告拒絕狀態DCE或DTE的當前接收狀態變量值(比特26為低階比特)。
5)W置“1”,表示所接收到的并在比特1~16內送回的控制字段沒有定義或不能實現。
6)X置“1”,表示所接收到的并在比特1~16內送回的控制字段被認為是無效。因為該幀包括不允許的信息字段,或該幀是具有不正確長度(包含長度32~39比特幀)的監控幀。W比特與該比特一起置“1”。
7)Y置“1”,表示所接收到的信息字段超過報告拒絕狀態的DTE或DCE的最大設定容量。
8)Z置“1”,表示所接收到的并在比特1~16內送回的控制字段包括無效的N(R)。
9)17和37~40比特應置為“0”。
FRMR響應的信息字段中W、X、Y和Z比特都可置為“0”,用以指示上面未列出的一種或多種狀態所引起的幀拒絕。
因此,FRMR幀中會顯示被拒絕幀的控制字段,同時通過在標志位W、X、Y、Z處置1的方式,來表示發生幀拒絕的原因,其中幀校驗的漏檢一般會導致W=1、X=1的發生,幀校驗的錯檢一般會導致Y=1的發生,而Z=1一般與校驗無關。
1)W=1、X=1的FRMR消息
以某日京滬高鐵C3降級為例,在接口監測系統基群速率接口(PRI)數據中發現無線閉塞中心(RBC)發送了FRMR消息,拒絕原因提示為W=1,X=1,即控制字段被認為無效,因為包括不允許的信息字段,如圖2所示。

圖2 PRI接口的FRMR(W=1、X=1)跟蹤記錄Fig.2 Record of FRMR(W=1, X=1)in PRI interface
PRI接口顯示被拒絕的數據鏈路層幀的控制位為01 f4,而01 f4這個消息在數據鏈路層中不存在。結合同車次的Abis接口數據分析,此時刻正處于小區切換過程中,判斷為小區切換后出現亂碼,導致錯誤的幀出現。而此幀又通過了校驗,RBC接收到后無法處理,是一種典型的幀校驗漏檢現象。
2)Y=1的FRMR消息
以某日京滬高鐵C3降級為例,在接口監測系統PRI接口數據中發現RBC發送FRMR消息,拒絕原因提示為Y=1,即收到信息字段超過最大長度。PRI接口數據如圖3所示。

圖3 PRI接口的FRMR(Y=1)跟蹤記錄Fig.3 Record of FRMR(Y=1)in PRI interface
PRI接口顯示被拒絕的數據鏈路層幀的控制位為9E 4C,而9E 4C這個I幀的CRC校驗是錯誤的。按照規范應該拋棄,但接收方仍然分析處理這個幀,最終造成RBC發送FRMR,Y=1,導致列車降級。結合該車Abis接口數據發現,故障為小區切換后出現亂碼,導致9E 4C的幀出現變化,校驗無法通過。但接收方卻錯誤的對其進行分析,是一種幀校驗錯檢現象。
3)傳輸層的ER消息
以某日濟青高鐵C3降級為例,在接口監測系統PRI接口數據中發現車載通信單元(OBU)向RBC發送ER消息,錯誤原因值為3,代表傳輸層出現無效的參數值。PRI接口數據如圖4所示。

圖4 PRI接口跟蹤記錄Fig.4 Record of PRI interface
由于該車安裝車載空口監測設備,將車載的空口數據、IGSM-R接口數據進行比對。Um接口數據如圖5所示,IGSM-R接口數據如圖6所示。

圖5 Um接口跟蹤記錄Fig.5 Record of Um interface
通過比對以上數據發現:RBC 發送的S:119,R:34數據幀對比PRI接口數據幀長度及內容發生變化,數據幀在PRI接口數據長度為42,在IGSM-R接口數據長度為61,且發生變化的S:119,R:34數據幀在I接口校驗正確,此問題應該是幀校驗漏檢,長度、內容都不正確的幀剛好能通過校驗算法。最終導致ATP傳輸層接收到的數據異常,發送了傳輸層的ER拆鏈指令。
4)安全層的DI消息
以某日濟青高鐵C3降級為例,在接口監測系統PRI接口數據中發現OBU向RBC發送DR/DI消息,鏈接釋放。鏈接釋放前OBU與RBC交互未見明顯異常。PRI接口數據如圖7所示。

圖7 PRI接口的DI跟蹤記錄Fig.7 Record of DI in PRI interface
通過接口數據分析發現,RBC下發N(S)=105,N(R)=82的I幀,長度為40 Byte,該幀在PRI接口顯示校驗正確。在車載記錄中顯示收到一條N(S)=105,N(R)=82的I幀,長度為39 Byte且校驗正確,如圖8所示 。

圖8 PRI接口的I幀跟蹤記錄Fig.8 Record of I frame in PRI interface
通過比對接口數據,看出該幀從PRI接口傳到車載設備時,最后幾個字節從85 7D 5E 77變成85 7E 77,如圖9所示。結合Abis口數據發現,此時正在進行小區切換,綜合判斷是一種典型的小區切換疊加幀校驗漏檢造成的現象。

圖9 IGSM-R接口的I幀跟蹤記錄Fig.9 Record of I frame in IGSM-R interface
綜上所述,導致C3數據鏈路層出現校驗問題的主要因素為GSM-R切換導致錯幀及幀校驗機制可能存在錯幀的漏檢,或接收方在面對錯幀的系統問題導致的錯檢。
此類問題的比例并不高,但作為引起C3超時/降級的因素卻不容忽視,作為一種具體問題的研討,考慮應用如下建議,來降低故障概率。
現有的高鐵GSM-R設計主要采用單網交織覆蓋方式,在單網交織覆蓋方式下,列車運行需切換至每一個小區,在高速運行過程中連續切換間隔時間較短,切換與數據發送重疊時間較多。因此,可改為雙網交織覆蓋模式,如圖10所示。

圖10 GSM-R雙網交織覆蓋方式Fig.10 Double interleaved networks of GSM-R
優點:由于單獨的奇數站覆蓋、偶數站覆蓋和全數站覆蓋均為聯調聯試驗收通過的測試項目,此方案具備可實施性,無需修改現有工程建設標準、驗收標準,僅通過無線設備參數控制即可完成。
在雙網交織覆蓋方式下,列車單向運行時采用奇數站切換,另一方向采用偶數站切換,可將切換數量降低近一半,有效降低切換過程對數據傳輸的影響。
缺點:單基站故障退服時,會導致此方向的后續列車控制中斷,需要進行重新連接。
將幀校驗序列FCS16修改為FCS32。
優點:漏檢概率大幅降低為1/232,約43億分之一,基本不會發生漏檢現象。可有效解決幀校驗問題。
缺點:此方案的施工升級需要在車載設備和地面設備同時完成,工程實施難度極大。
研究車載數據發送邏輯或軟件機制,嘗試在MT單元進行小區切換期間停止發送應用層數據,切換完成后再繼續發送。
優點:可有效降低高速鐵路頻繁小區切換產生的誤碼對數據幀影響,減少錯誤幀觸發的C3系統鏈接中斷。
缺點:此方案僅針對車載向地面發送的上行數據、下行數據受切換的影響無法解決,為有限的方案。