Tom+Macaulay+Charles
這家工程公司通過對傳感器信息進行監測來發現故障前兆,提前進行鐵路維護.
西門子設計列車有近150年的歷史,包括1879年的第一臺電動客運機車。而它最近在軌道上的創新是由數據分析驅動的。利用傳感器分析列車和軌道上的信息,有助于使鐵路維護方法從被動變為主動。
通過診斷傳感器數據,評估部件的狀態,公司可以提前發現顯示什么時候會出現故障的模式。然后,通過實時監測信息,西門子在故障導致服務中斷之前迅速做出反應。如果檢測到異常,則發送部件進行檢查。
這種方法的好處包括減少延誤、增加里程、降低勞動力成本,并且提高了維護計劃的效率。這樣,西門子能夠為客戶提供更多基于性能維護的合同。
在軌道上應用數據科學
幾年前,在德國的一家機車工廠,西門子召集了一批數據科學家和工程師來開發預測列車部件和鐵路基礎設施故障的算法。
西門子移動數據服務主任Gerhard Kress向《英國計算機世界》解釋說:“這是因為工業數據的表現與互聯網數據不同,我們使用的很多經典分析模型在這種環境下效果不佳。另外,因為這些部件不會經常性的出現故障,所以需要極高的預測精度,比我們之前見過的任何其他組件都高。”
僅在過去兩年中,這一團隊已經在新的數學方法上提交了30項不同的專利。
2013年,西門子轉向大數據供應商Teradata,目的是讓這些模型具有先進的數據分析功能。西門子部署了自己版本的Teradata統一數據架構(UDA),包括數據倉庫、Aster發現分析工具和Hadoop應用。
預測分析增強了檢測能力,使西門子在俄羅斯的高速列車的可用性提高到了99.96%,而泰國的地鐵機車可用性則達到了99.98%。
西門子還使用這個框架為英國很多地區的列車提供主動維護,包括倫敦的Thameslink鐵路系統。
列車上的傳感器設置
Kress把他的列車數據分析策略分成三個部分:了解不同部件的狀態來預測故障;利用天氣、平穩的行駛和多功能衛生間來提高乘客的體驗;最大限度地提高能源效率,降低運行成本。
他說:“一輛列車在生命周期中消耗的能量比購買列車的成本高得多。如果做得好,很容易將能耗成本降低10%。”
一輛機車通常有150到200個傳感器,高速列車每節車廂有300到350個傳感器。這包括每個制動器上的一些傳感器,它們分析制動壓力和液壓油,以保證列車能及時制動。它們測量部件的溫度和壓力,并將數據與數千份故障和修復報告記錄進行比較。
Kress表示:“傳感器也存在故障風險,如果安裝太多的傳感器,它們帶來的問題比其能解決的問題還要多。我們盡可能少地采用傳感器,因為安裝得越多,出故障的可能性就越大。”
電機、變速箱、軸承和車輪都是機械連接的,并不是都需要各自的傳感器。西門子可以使用一個虛擬傳感器,它通過算法評估來計算每個部分的誤差,例如傳熱率等。
還可以把不同部件的數據組合起來,這樣,列車和鐵軌上的傳感器互相監測,從而減少了所需的檢查次數。
分析有什么好處?
西門子以前依靠應急響應和例行檢查保持列車正常運行。這一過程需要技術人員打開列車查找故障原因,然后去取回備件和工具,再返回進行維修。
結果對維修時間和延遲都有很大的影響。列車上一扇損壞的門會導致兩站之間的運行時間增加10~15秒。經過20站之后,列車已經晚點五分鐘,當天的整個行程都被推遲了。西門子現在監測每列列車的車門,能夠在出現故障之前發現潛在的問題。
Kress說:“如果Thameslink的門有問題,在某些情況下,我們可以提前一個半星期發現這些問題。
然后技術人員可以去查看那個車廂右邊的五號門,他們走到那里,檢查一下,在那里放些潤滑油,然后再次啟動,不會再出現故障了。”
西門子還為歐洲之星列車提供維修服務,這些列車傳統上使用的傳感器會發出故障警報,并強制停車。然而,這些傳感器本身容易出現故障。
Kress回憶說:“幾年前出現過這種事,當時我們部門還不存在,我們不得不撤離在軌道上工作的700人。
一年前也有過同樣的情況,看起來非常相似。我們首先意識到,這是一個傳感器問題。現在我們有信心,在列車出現這一問題的一個半星期之前,我們就能發現它。我們可以對操作人員說,你應該把車廂那邊軸承上的傳感器換了,他們就這樣做了,對操作沒有任何干擾。”
為什么是Teradata?
Kress說;“Teradata是市場上唯一一家知道這個世界不僅僅是一個數據倉庫的公司。Teradata有競爭,但鑒于我們的數據結構,我們需要一個能完成更多任務的系統,所以UDA對我們來說是最主要的。”
西門子采用了組合框架,包括Apache Spark和TensorFlow,為每一項分析任務開發了具體的機器學習方法。鼓勵在單獨和安全的工作環境中使用這些模型進行實驗。
Kress說;“我們要創建的分析模型是一個沙箱,數據科學家可以使用這些數據來識別模型的結構。一旦確定了結構,我們會把模型投入使用,那么我們就有了一個經典的三層架構,即開發、測試和實施。”
這一連續的集成和部署過程使用了相同的底層數據湖,所以即使科學家在沙箱中,他們也可以看到存在的所有數據,知道怎樣組合數據點以獲得他們所需的深度分析結果。這一創造性的過程產生了一種可以在鐵路監測中連續實施的分析模型。
西門子在其鐵路服務中,每秒采集大約5萬多個數據點,并且需要長時間存儲數據。在部署模型時,由于西門子分析工作負載非常復雜而且多樣,因此,必須采用Teradata。
Kress說:“我必須平衡所有這些不同的工作負載,讓系統保持穩定。如果我在Hadoop上這樣做,我的一名員工會提交很多工作負載,接下來的兩天客戶不會得到任何回應。這是不能接受的。”