劉 巍, 曾 濤, 侯啟方, 盧凌云
(1 中鐵第一勘察設計院集團有限公司, 西安 710043;2 北京南凱自動化系統工程有限公司, 北京 100070)
目前,國內外電力行業對電氣設備的壽命預測研究工作已廣泛開展,國內對電氣化鐵路牽引供電設備壽命預測研究工作才剛剛起步。牽引供電系統運行過程中產生的數據是復雜多樣的,數據建立的重要性不言而喻,數據建立之后更為關鍵的是數據分析[1]。必須做好這些信息的優化,才能用數據分析的結果指導我們更準確的預測設備的生命周期。目前,國內高鐵供電系統在自動化、智能化方面也投入了相應的監測設備、監控和管理平臺。但不同系統間采用不同的平臺,各系統平臺相互獨立,這些系統平臺的數據源數據采集分散凌亂,缺乏統一的數據規范、標準、功能互動及技術支撐平臺,導致各系統間的信息相互獨立或交互共享困難[2]。另外,沿線各牽引變電站只與調度所之間進行通信和數據交換,缺少各所(亭)之間的實時通信和信息交換,使得各所的開關控制仍然需要通過調度進行,難以實現所間實時開關聯動閉鎖,不能實現供電運行方式根據工況自動切換,發生故障時,繼電保護的速動性和選擇性及故障定位的準確性也有待于進一步提高,倒閘作業停電時間較長,無法快速恢復供電[3-4]。雖然,目前國內在智能牽引變電所技術、6C技術、接觸網監測技術等方面已經開展了多項研究,但是還沒有對智能牽引供電系統的平臺技術進行整體的規劃和研究,因此,開展智能牽引供電系統大數據平臺及供電設備壽命預測的研究具有較強的理論和實際意義。
文中給出了智能牽引供電系統的大數據平臺,提出了一種綜合維修數據收集、維修數據存儲、維修數據分析處理的綜合性系統的建設方案,通過對海量的運維數據做分析,根據設備的使用、檢修記錄、天氣氣溫、空氣濕度、污染程度、檢修人員素質等數據,通過大數據平臺,找到設備的臨界點,有效的預測設備的壽命。設備運行過程中受到周邊環境的影響,比如溫度、濕度、地域、季節等,根據設備的監控數據以及天氣情況,通過大數據平臺計算設備運行情況和天氣的想關性。維護過程中還涉及到給不同的設備提供不同的維修方案,可經過對采集到的數據進行歷史數據統計,可以快速給出問題解決方案。
基于大數據平臺的智能牽引供電系統軟件平臺共分為4個技術層,如圖1所示。
第1層是數據交換中心,負責數據的采集工作。包括但不限于SCADA、一桿一檔、智能巡檢、6C數據中心、維調系統、綜合系統(問題庫,GIS地圖)等牽引供電系統相關的系統,收集這些系統的數據以及天氣數據作為大數據的基礎語料,并在這些基礎語料上做數據挖掘、做牽引供電系統大數據。
第2層是數據存儲,負責存儲采集到的數據。數據采集工具能夠實現將不同類型的數據采集并傳輸到大數據應用平臺分布式存儲區域中,比如HDFS、HBASE等;
第3層是數據處理,負責計算存儲在HDFS、HBA-SE中的數據。
第4層是數據展示,負責對數據挖掘好的數據進行展示。供電設備的調度系統、維修系統以及氣象數據等諸多易購的數據都可以作為大數據應用平臺的數據源頭,通過大數據應用平臺的全量數據采集與處理能力,將數據采集到大數據應用平臺的存儲區域進行保存,以支持數據可視化工具及業務門戶進行數據應用。

圖1 基于大數據平臺的牽引供電系統分層結構
內部及外部的半結構化及非結構化數量會通過大數據采集工具Flume、FTP、SysLog、Zookeeper、Sqoop、MR程序(根據數據結構實現情況選擇合適的工具集),進行半結構化及非結構數據采集,如:文件、日志、網絡數據、視頻、傳感數據等。數據采集工具能夠實現將不同類型的數據采集并傳輸到大數據應用平臺分布式存儲區域中,比如HDFS、HBASE等。
現有信息系統的關聯型數據庫RDBMS中大量的結構化歷史數據將會通過IMPORTER工具同步到分布式數據庫中,支持大數據的量的查詢,為海量數據可視化提供結構化數據源支持。
對大數據應用平臺分布式存儲區域中的數據進行處理時,可以選擇使用Hadoop、Spark、Hive、 Pig等大數據處理工具。然后可采用R語言、Spark MLIB對處理結果進行數據挖掘。
基于牽引供電系統大數據應用平臺,各部門可以通過應用商業智能及數據挖掘技術將數據進行數據建模,在數據大量積累的基礎上, 進行業務分析與潛在業務價值探索。同時由于平臺集成了不同業務、不同專業、不同種類的海量數據,各部門將能夠進一步發現數據高度集成后產生的新的價值,優化現有的生產組織方式,創新管理流程,開發出更高效、集成的信息系統。
牽引供電系統大數據平臺還可以對整個牽引供電系統的壽命做出精準的預測。通過對供電系統內各種設備進行監控,并對采集到的數據進行分析,結合當地的氣候情況,綜合預測牽引供電系統的實際使用壽命。
傳統的預測設備壽命方式是通過對歷史數據進行統計,然后粗略的計算設備的平均使用壽命。現在可以通過大數據平臺,對各個維度的數據進行挖掘,給出更精確的使用壽命。
生命周期可以轉換為分類問題,比如理論上使用壽命為3年的設備,可以按月為單位分為1月、2月、……、36月等36類。通過提取影響生命周期的因素,轉換為特征向量,再通過樸素貝葉斯預測,即可得到答案。樸素貝葉斯分類的流程如圖2所示。

圖2 樸素貝葉斯分類流程示意圖
可以看到,整個樸素貝葉斯分類分為3個階段,分別為準備工作階段、分類器訓練階段、應用階段。
這個階段的任務是為樸素貝葉斯分類做必要的準備,主要工作是根據具體情況確定特征屬性,并對每個特征屬性進行適當劃分,然后由人工對一部分待分類項進行分類,形成訓練樣本集合。這一階段的輸入是所有待分類數據,輸出是特征屬性和訓練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質量對整個過程將有重要影響,分類器的質量很大程度上由特征屬性、特征屬性劃分及訓練樣本質量決定。
在可能影響設備壽命的因素里面有油壓、電壓、電流、氣溫、空氣濕度、PM2.5濃度、風力、設備使用時間、設備連續工作時間、檢修人信息(工齡、部門)等等。對數值型的數據取整,比如36.5℃,取整后為36℃對枚舉類的數據,定義數據字典,工齡、部門、風力的數據字典如表1至表3所示。

表1 油壓定義表

表2 風力定義表

表3 部門定義表
最后根據每條檢修記錄,提取特征向量(油壓、電壓、電流、溫度、濕度、PM2.5、風力大小、已運行時間、連續運行時間、檢修人工齡、部門)。比如一個工齡10年的檢修人員,在某天對設備進行檢修時,當天氣溫23℃,空氣濕度40,PM2.5為200,風力四級,設備已經使用了12個月,并且連續運行了10 h,可提取特征向量{23, 40, 200, 4, 12, 10, 1, 30, 2, 70, 1}。
這個階段的任務就是生成預測設備壽命的分類器,主要工作是計算每個類別在訓練樣本中的出現頻率及每個特征屬性劃分對每個類別的條件概率估計,并將結果記錄。其輸入是特征屬性和訓練樣本,輸出是分類器。
在概率論中,已知某條件概率,如何得到兩個事件交換后的概率,也就是在已知P(A|B)的情況下如何求得P(B|A)。P(A|B)表示事件B已經發生的前提下,事件A發生的概率,叫做事件B發生下事件A的條件概率。
假設A事件是油壓過高,B事件是已知檢修人時。因此:
P(A)代表油壓過高時設備損壞的概率。
P(B)代表已知檢修人的設備損壞的概率。
P(A|B)代表已知檢修人,油壓過高時導致設備損壞的概率。
P(B|A)代表已知油壓過高,已知檢修人時導致設備損壞的概率。
P(AB)代表油壓過高且已知檢修人時導致設備損壞的概率。
貝葉斯定理之所以有用,是因為我們在生活中經常遇到這種情況:我們可以很容易直接得出P(A|B),P(B|A)則很難直接得出,但我們更關心P(B|A),貝葉斯定理就為我們打通從P(A|B)獲得P(B|A)的道路。
根據貝葉斯定理可得:
因此,由上述公式可知,已知P(A)(代表油壓過高時設備損壞的概率)、P(B)(代表已知檢修人時設備損壞的概率)、P(A|B)(代表已知檢修人,油壓過高時導致設備損壞的概率)。可計算出P(B|A)(代表已知油壓過高,已知檢修人時導致設備損壞的概率)。
樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因為這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對于給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認為此待分類項屬于哪個類別。在沒有其他可用信息下,我們會選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎。
使用樸素貝葉斯分類預測設備壽命的方法如下:
(1)設x={a1,a2,…,am}為一個待分類項,而每個a為x的一個特征屬性,x為一個特征向量,比上述提到的例子(一個工齡10年的檢修人員,在某天對設備進行檢修時,當天氣溫23℃,空氣濕度40,PM2.5為200,風力四級,設備已經使用了12個月,并且連續運行了10 h),其單位向量表示為{23,40,200,4,12,10,1,30,2,70,1}
(2)有類別集合C={y1,y2,…,yn},y代表了設備的壽命,其取值范圍{1,2,3,……,36},單位月。
(3)計算P(y1|x),P(y2|x)…,P(yn|x)。即計算特征向量x代表的情況下,設備的壽命是y1、y2,…,yn的概率格是多大。
(4)如果P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},則x∈yk。即在特征向量x代表的情況下,設備的壽命最可能是yk。
那么現在的關鍵就是如何計算第3步中的各個條件概率。我們可以這么做:
(a) 找到一個已知分類的待分類項集合,這個集合叫做訓練樣本集。
(b) 統計得到在各類別下各個特征屬性的條件概率估計。即:
P(a1|y1),P(a2|y1),…,P(am|y1);
P(a1|y2),P(a2|y2),…,P(am|y2);…;
P(a1|yn),P(a2|yn),…,P(am|yn)
(c) 如果各個特征屬性是條件獨立的,則根據貝葉斯定理有如下推導:
因為分母對于所有類別為常數,因為我們只要將分子最大化皆可。又因為各特征屬性是條件獨立的,所以有:
P(x|yi)P(yi)=
P(a1|yi)P(a2|yi)…P(am|yi)P(yi)=
上述所有步驟的編碼實現,均采用機器學習工具是Saprk MLlib。
這個階段的任務是使用預測生命周期的分類器對待分類項進行分類,其輸入是分類器和待分類項,輸出是待分類項與類別的映射關系。
比如對所有的歷史數據提取的特征向量如下:
X1={y,a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}
X2={y,a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}
X3={y,a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}
……
其中y的取值范圍是1≤y≤30
對上面提到的例子(一個工齡10年的檢修人員,在某天對設備進行檢修時,當天氣溫23℃,空氣濕度40,PM2.5為200,風力四級,設備已經使用了12個月,并且連續運行了10 h,可提取特征向量{23,40,200,4,12,10,1,30,2,70,1}),其結果是y=28,即設備的使用壽命是28個月。
這一階段也是機械性階段,由程序完成。采用的機器學習工具是Saprk MLlib實現。
牽引供電系統領域以安全為宗旨,保證各環節的安全生產非常重要,而智能牽引供電設備的正常運行更是重中之重。智能牽引供電系統大數據平臺通過采集天氣情況、巡檢記錄、維修記錄、設備運行情況以及維修人員的多維數據,對這些數據進行數據挖掘,可實現對有可能出現故障的設備進行預測,從而有重點的對突發情況作出預警準備,從宏觀上把控設備的生命周期。另外,當發生不可抗力的狀況后,可根據搶險救災的歷史數據、天氣情況等數據、維修記錄等各種數據,通過大數據分析系統平臺,在最短的時間內給出更合理的搶修方案。