喬繼潘,張焱飛,陸思宇
(上海船舶運輸科學研究所有限公司 航運技術與安全國家重點實驗室,上海 200135)
隨著大數據分析技術的不斷發展,面向船舶主機分析與應用已經成為船舶行業的研究熱點。智能船舶采集的大量實船數據為主機的性能分析、故障診斷預測以及維護提供可靠的依據,可以利用大數據分析、人工智能、機器學習等先進技術分析出每艘船每個主機每個工況下的運行特點,從而提供合理的主機性能評估結果,依據評估結果能夠有效地制定因船制宜的維護方案。
大數據分析先進技術進行工況分析已經在交通運輸行業廣泛應用。秦大同等[1]利用K-均值聚類算法構建了城市循環工況,從而更好地反映實際交通道路狀況。肖權[2]以船舶低速柴油機為研究對象,應用神經網絡算法構建故障診斷及趨勢預測系統。李添翼[3]利用小波神經網絡算法對船舶主機進行分析。張嘉琦等[4]結合高斯混合模型(GMM)和深度神經網絡來預估大型船舶的主機輸出功率。目前國內外對船舶主機的研究主要集中在主機的故障分析和預測上,對如何識別不同的工況,從而根據不同工況進行故障分析的研究較少。船舶主機的工況狀態識別是故障分析的基礎,劃分合理的船舶主機運行工況為確定船舶污染物排放量、預估燃油消耗量、評估主機性能評估以及主機關鍵設備故障診斷預測等方面奠定基礎,為船舶設備管理和維護提供參考依據[5]。
本文以某船為例,綜合考慮實船采集到的各特征參數之間的相關性,確定主機工況劃分的主要特征參數,引入置信區間找出目標船主機在主要營運要求下的轉速范圍,結合GMM算法構建主機工況劃分方法,并對各個工況設備參數進行特征值分析。研究結果表明,基于GMM算法的工況劃分方法可以對復雜的主機運行數據進行有效劃分,能夠很好地反映目標船主機的運行特點。
本文構建主機工況的主要流程分為實船數據處理、特征參數選取以及工況劃分3個部分。
實船數據處理:根據目標船主機特性對實船數據進行分析處理,確定目標船舶在正常營運期間的主機功率、轉速分布范圍。剔除主機非正常運行的實際數據,得到符合目標船營運規律的實船數據。實船數據主要包含GPS、航速、風速風向、主機油耗以及主機關鍵參數等數據。
特征參數選取:對實船采集的多個特征參數進行分析,計算各個特征參數和主機功率的相關性程度,選擇相關性最高的特征參數作為工況劃分的特征值。
工況劃分:引入置信區間對篩選后的實船數據進行主要營運范圍計算,得到常見營運下的實船數據范圍,結合GMM聚類算法,劃分出主機正常營運下的各個工況。
基于GMM聚類算法的主機工況構建總體流程如圖1所示。

圖1 主機工況劃分框架Fig.1 Construction framework of main engine working conditions
實船數據主要包含:經緯度數據、吃水數據、航行數據、氣象數據、主機轉速、主機功率以及主機其他關鍵參數。各設備以秒為時間單位輸出實時數據,將未處理的秒級數據存入數據庫之后,剔除各設備傳輸的異常數據,如空值等。在確保數據準確性的基礎上根據各類數據特征將實船數據進行預處理,計算出小時級船舶實時數據。
為了確保劃分出的工況可靠性,在工況劃分之前,需對船舶數據進行初步篩選,獲得船舶穩定運行期間的各類主要數據,主要篩選條件如下式:
式中:Rpmi為i時刻的主機轉速,Rpmmax為主機最大轉速,Vsi為i時刻的對水航速,Vdesign為設計航速。
選取的目標船主機最大轉速76 r/min、設計航速15 kn,提取14個月的實船數據,約12 000條小時級數據,根據式(1)的限制條件進行初步篩選后得到約8 100條可用于后續研究的數據。
GMM假定所有數據都是從有限數據的高斯分布與未知參數的混合中生成的,這是一種基于最大似然估計的概率模型。可以將高斯混合模型由k個單一高斯機率密度函數組合而成,每個有相應的均值和協方差,以合并有關數據協方差結構以及潛在高斯中心的信息[6]。其表達式如下式:
式中:N(x|μk,Σk)為第k個子模型的高斯分布密度函數;μk為第k個子模型的樣本均值,Σk為第k個子模型的協方差;πk為第k個高斯分布所占的權重,且滿足式(3)約束條件。
高斯概率密度分布函數表示為下式:
式中,d為數據的維度。
假設θk={μk,Σk},對應的GMM似然函數為下式:
設θ={Π1, Π2,..., Πk;θ1, θ2,..., θk}, 則θ為GMM中待估計的參數。應用期望最大算法(EM)求解式(5),輸入變量數據xi(i=1,...,N),步驟如下:
步驟1隨機初始化模型參數θ的初始θ0。
步驟2開始E步算法,根據當前模型參數,計算分模型k對數據xj的響應度。
步驟3迭代更新模型的參數。
步驟4估算對數似然函數的值。
重復步驟2、步驟3步直至算法收斂。
在運行過程中,船舶主機輸出功率受多個變量參數的影響,選擇適當的特征參數進行分析,不但可以提高工況劃分的可行度也能減少聚類分析的運算時間。
實際分析時,相關系數被用來量化隨機變量之間的相關性。選取船舶對水航速Vs、主機轉速RPM、平均吃水Draft、遭遇真風速Vw、對地航速Vg、主機掃氣箱平均溫度Tscav、主機氣缸排氣出口溫度Tge、主機氣缸缸套冷卻水出口溫度Tcfw、主機氣缸活塞滑油出口溫度Tpco共9個特征參數,計算各參數與主機功率之間的相關性,最終提取出相關性最大的變量。相關系數r計算公式如下:
式中,x和y分別為2個特征參數的平均值。
各參數之間的相關系數如圖2所示,其中RPM與功率的相關系數大于0.9,為極強相關,因此確定RPM、功率為主機工況劃分的2個特征參數。

圖2 特征參數相關性分析展示圖Fig.2 Display of characteristic parameter correlation analysis
根據章節2的數據預處理結果,目標船在正常營運期間主機轉速范圍集中在[55,62]之間,如圖3所示。絕大多數的主機轉速分布在[55,58]之間,有一小部分聚集在62附近。此外,圖中存在的大部分離散點主要是非正常營運期間的船舶主機參數,如RPM在40~54之間的散點數據。

圖3 初步篩選后的主機轉速-功率分布散點圖Fig.3 Scatter diagram of engine speed and power distribution after preliminary screening
因此,引入置信區間對實船數據進行二次篩選,從而剔除影響工況劃分的主機轉速功率離散點。圖4為利用置信區間計算的主機轉速概率分布圖。

圖4 主機轉速概率分布圖Fig.4 Probability distribution diagram of engine speed
選取75%的置信區間,得到轉速在[54.8,58.2]范圍之間,因此進一步縮減轉速范圍劃分主機工況。
將[54.8,58.2]范圍之間的數據劃分成5個數據簇,圖5為基于GMM的聚類分析結果,圖中每個點都代表一個工況的轉速和功率。最終,在這個轉速范圍下,船舶主機主要運行期間由5個工況組成。圖5可以清楚展現基于GMM的聚類算法對主機運行產生的復雜數據進行的劃分,特別是數據簇1、簇2、簇3、簇5組成的復雜集合,基于GMM的聚類算法能夠將這一大簇的數據進行有效切分。

圖5 基于GMM算法聚類分析的主機工況劃分圖Fig.5 Scatter diagram of main engine working condition based on GMM algorithm
對5個工況下的轉速、功率數據進行特征提取,分別提取5個工況下的轉速平均值、轉速標準差、功率平均值以及功率標準差,如表1所示。可以看出,工況5的占比最高,達到62.3%,工況3的占比最低1.6%;轉速平均值最大的是工況4,為57.5轉,同轉速平均值最小的工況3相比,高了1.3轉。由轉速標準差可知,工況1的分布最為廣泛,工況3相對集中;工況3的平均功率最大為12 205 kW,工況4的平均功率最小為10 334.8 kW,相差了將近1 900 kW;由功率標準差可知,工況3的功率分布較為廣泛,工況2的功率分布較為集中。

表1 5種主機工況轉速、功率特征值對比表Tab.1 Comparison of characteristic values of speed and power under five working conditions of main engine
對5個工況下主機4個設備參數(Tscav,Tge,Tcfw,Tpco)進行特征分析,主要分析4個參數的主要特征值:最小值xmin、最大值xmax、平均值xavg、標準差xstd以及峰值因子C,其中峰值因子的計算公式如下式:
式中,xmax為工況中最大值,n為工況中數據組數目。
表2的數據表明,5個工況下,除了Tge最大值、平均值和標準差在各個工況有較大波動,其他主機設備參數的特征值基本都在一個穩定范圍內變化,特別是C的計算結果表明,5個工況下的主機設備參數穩定性很好,可以將5個工況下計算后的C值作為評估指標,監測主機設備故障情況。

表2 5種主機工況下設備主要參數特征對比表Tab.2 Comparison table of main parameter characteristics of equipment under five main engine working conditions
在工況劃分之前,對船舶數據進行初步篩選,獲得主機穩定運行期間的實船數據。計算實船數據中各個特征參數之間的相關性,確定與功率相關性最高的主機轉速作為主機工況劃分的特征參數,并基于RPM的75%置信區間進一步確定工況劃分數據范圍。利用基于GMM的聚類算法對篩選后的實船數據進行工況劃分,確定劃分數據簇為5個,最終得到各個工況下的主要設備參數特征值。該方法所需的輸入參數較少,工況劃分精度和分析效率較高,可以對主機運行數據進行特征提取,并有效地從復雜數據中提取出可用的設備參數特征數據。