聚類算法在船舶能效數據挖掘中的應用*

2019-04-30 05:40:32高梓博杜太利黃連忠

武漢理工大學學報(交通科學與工程版) 2019年2期

高梓博杜太利張勇黃連忠

(大連海事大學輪機工程學院1) 大連 116026) (大連海事大學無人船協同創新研究院2) 大連 116026)

0 引言

隨著網絡通信的普及、數據庫的完善和機器學習等技術的成熟，大數據時代正在到來，很多領域都在試圖應用大數據技術獲得其中有價值的信息[1].在航運業這個傳統行業中，船端傳感器采集的由通航環境、航行姿態與主機各運行參數組成的船舶能效數據應用于船舶能效分析，但大部分僅停留在簡單的統計分析[2-3].船舶能效數據中的各參數之間是一種受多因素影響的綜合性過程，如何應用數據挖掘技術對具有統計規律和復雜關系的參數進行分析并發現其中參數間的潛在規律，成為船舶能效研究的重要課題和目標.

國內外在船舶領域的數據挖掘技術也做了很多研究.文獻[4-5]建立了BS架構下的船舶制造業能效管理服務平臺，為大數據挖掘技術應用到能效數據分析提供了可靠的數據支持.文獻[6]結合相應的聚類算法設計了基于數據挖掘的船舶機艙檢測系統，提出了一種新的思路.文獻[7-8]應用了通過矩陣變換和數據降維的主成分分析數據挖掘方法，對柴油機工作狀態進行了描述.文獻[9]提出了一種基于粗糙集的多維關聯算法研究了多維數據挖掘在船舶航線貨物運輸的應用問題.文獻[10]利用船舶航速、轉速、功率和油耗率為數據基礎，通過自適應K均值聚類法研究了不同轉速下負荷和油耗率的變化關系.

文中根據EEOI的定義衍生出一種以單位海里油耗量為目標的船舶能效分析標準，并以一個完整航次的船舶能效數據為基礎，應用了統計、數據挖掘聚類算法和曲線擬合，得到了最佳工況下船舶主機功率和海里油耗量的關系曲線，并對圖像進行了分析.

1 船舶能效數據挖掘目標和方法

為減少溫室氣體的排放，IMO大會為關于實施船舶減排進行討論，認同并建立了GHG基準線和排放指數，海洋環境保護委員會第53屆會議批準了CO2排放指數資源使用暫行指南.本指南可用于建立船舶能效營運指數(EEOI)的一致性和自愿性使用，這將有助于船東，運營商和利益相關方評估其在CO2排放方面的性能.

EEOI的定義為船舶單位運輸作業所排放的CO2量，一個航次的EEOI的基本表達式為

(1)

式中：j為燃油類型；FCj為燃油j的消耗量；CFj為燃油j的燃油量與CO2量轉換系數；mcargo為船舶的載貨物總噸，t；D為該船舶載該貨物或所做的功的行駛距離，n mile.

由于船舶的CO2排放量與燃油艙的燃油消耗量直接相關，EEOI也可以提供關于燃油性能的船舶性能有用信息.對于一個完整航次(單航次保持滿載或者壓載)的遠洋船舶，假設不計途中燃油消耗對總噸的影響，即mcargo的值一直保持不變，該航次燃油類型也不變，因此，定義一個系數：

k=CFj/mcargo

(2)

該系數為燃油與CO2的轉換系數和載貨總噸的比值，在一個完整航次中應為定值.

單位海里油耗量就等于EEOI值與k的比值，而EEOI指標的本質是船舶實際運營排放的CO2總量與實際客貨周轉量之間的比值，EEOI值越小表示船舶的能效效率越佳，即單位海里油耗量越少表示船舶的油耗水平越低，越節油.所以，從船舶能效大數據中尋找船舶每個航次下的最優海里油耗值，可以大致評估船舶營運油耗水平.

本文數據采集自某目標船，參數如下：船長,327 m;船寬,55 m;總噸位152 148；最大載重噸，298 000 t;設計吃水，21.4 m.該船為二沖程低速機，最大持續功率(MCR)：22 360 kW，服務功率：19 000 kW，對應軸轉速：69 r/min.數據集包括一個完整航次，即從馬跡山壓載到圖巴朗，再從圖巴朗滿載返回馬跡山，但由于壓載航次從馬跡山到新加坡后壓載量會改變，所以只取新加坡往返圖巴朗進行數據分析，利用統計、聚類和擬合的方法，得到船舶在不同工況下的海里油耗擬合曲線.研究方法流程圖見圖1.

圖1 研究方法流程圖

2 應用高斯混合模型的主機運行工況聚類

聚類是一種無監督學習，將相似的對象歸到同一個簇中，通過某種算法將對象的類別體系自動進行分類.考慮到整個航次中壓載和滿載及海況的不確定因素會導致主機運行工況不同，具體應用哪種聚類算法要根據實際情況而定.文中采用轉速區間50～68 r/min對應的數據作為基礎，通過異常值剔除后，得到主機轉速和功率統計分布圖，通過觀察發現在船舶壓載航次中(見圖2)，主機分別在三個不同的工況下運行，而在滿載航次中(見圖3)，運行工況相對單一.針對壓載航次中存在的多概率混合分布情況，考慮使用高斯混合模型進行聚類.

圖2 壓載航次的主機轉速和功率統計分布圖

圖3 滿載航次的主機轉速和功率統計分布圖

2.1 高斯混合模型和EM算法

高斯混合模型(Gaussian mixture model，GMM)是由多個高斯分布函數的線性組合，基于概率模型的軟分類方法.理論上，GMM可以適用于任何類型的分布，通常用于解決同一集合下的數據包含多個不同分布的情況.

每個GMM的數據點分配由期望最大化算法(EM)執行，第一步(E步)首先求出要參數的預估計值，評估每個數據點屬于相應數據簇的概率；第二步(M步)使用第一步的值最大化似然函數，將每個數據點歸納到相對于最高概率的數據集中，并更新相應GMM的均值和協方差值.因此要求出GMM的似然函數.

高斯混合模型概率密度函數為

(3)

式中：x為輸入的數據集，μj和∑j為第j個簇的均值和協方差.第i個數據點屬于第j個簇的概率可寫為

(4)

式(4)為計算參數z(i)的軟猜測值.

E步中，考慮到貝葉斯規則和式(1)，給定參數x(i)的參數z(i)的后驗概率可寫為

p(z(i)=j|x(i);φ,μ,∑)=

(5)

式中：p(z(i)=j;φ)為第j個數據簇的先驗概率；k為數據簇的數量.

在EM算法的假定每個數據簇有著相等的先驗概率.需要注意的是式(3)為多元高斯分布，其中μj和∑j分別是平均值和協方差值.相應最大化步驟M步為

(6)

求取GMM對數似然函數為

(7)

不斷地迭代E步和M步，最終到似然函數的值收斂為止，此時得到的μj和∑j即為GMM模型的均值和協方差值.

2.2 主機工況聚類

由圖2可知壓載航次中的主機轉速和功率數據符合多高斯混合分布，因此,采用GMM模型該航次的工況進行聚類.GMM的初始均值和協方差值從圖2中的統計分布近似得出.本文的算法編程基于python3.6，將參數輸入到算法程序中，在迭代次數為1 000時，得到的GMM均值(即聚類中心)如下, 工況聚類圖見圖4.根據該算法的聚類情況，分別將三種工況下的數據分別存放在三個數據集下進行下一步的聚類分析.

μ1=[57.5 r/min 9 989.2 kW]

μ2=[60.8 r/min 11 526.4 kW]

μ3=[62.6 r/min 13 414.93 kW]

圖4 壓載航次的主機運行工況聚類圖

3 應用K均值聚類的功率-海里油耗曲線擬合

3.1 K均值聚類擬合曲線流程

本研究所采用該目標船完整航次的數據集，其中包括壓載和滿載兩個子航次，由于壓載航次中主機存在三種不同運行工況，因此需要分別對三種不同工況下的數據集進行分別聚類，并比較三者的關系得到最佳工況.但是滿載航次中只存在一種主機運行工況，所以只需對該工況下的數據集進行聚類即可.然后將兩個子航次的聚類點結合原數據集進行擬合，得到最終的功率-海里油耗量曲線.聚類和擬合曲線流程圖見圖5.

圖5 K均值聚類擬合曲線流程圖

3.2 二分K均值算法原理

首先隨機選取k個點作為初始時的質心.隨后將數據集中的各個點分配到屬于該質心的一個簇中.完成此步驟后，每個群集的質心更新為群集中所有點的平均值.然而，K均值聚類通常出現較差的聚類效應，這是由于結果收斂到了局部最小，但不是全局最小.為了衡量聚類效果的好壞，引入誤差平方和(SSE)，SEE值的大小由各個點距離質心的距離決定，其值越小表示聚類效果越好.為了既保持簇數目不變又提高簇的質量，要對生成的簇進行后處理，一種方法是將所有點作為一個簇，然后將群集分為兩部分，然后選擇其中一個群集以繼續分區，稱作二分K均值算法.

該算法偽代碼為

將所有點看成一個簇

當簇數目小于k時

對于每一個簇

計算總誤差

在k=2的前提下對其簇中數據點采用K均值聚類

計算該簇一分為二以后的SSE

選擇SSE最小的簇進行接下來的劃分操作

3.3 聚類及曲線擬合

進行聚類的數據采用目標船功率和海里油耗量2個屬性參數，其中海里油耗量為每10 min的油耗量與該時間段GPS數據換算的海里數的比值.根據GMM工況聚類的結果，分別對所屬簇(即每個工況)的數據點進行二分K均值聚類，K取值為7.完成聚類后從結果中找到海里油耗量最小的一個簇集.以工況1的聚類結果為例(見表1)，可以得到最低海里油耗量為0.151 7 t/n mile，此時對應功率為9 539.2 kW.同樣地，也可以得到其他工況下的最低海里油耗量，見表2.

表1 工況1下的聚類結果

表2 最小海里油耗量聚類點

比較壓載航次下各工況的最小海里油耗量可以得出，工況1下的海里油耗量相對最低，即主機在工況1運行時比較高效節油，因此，壓載航次選工況1的聚類點進行曲線擬合.滿載航次由于只有一種運行工況，所以直接選取其聚類點進行二次多項式曲線擬合，結果見圖6～7.

圖6 壓載航次最佳工況下的曲線擬合

圖7 滿載航次曲線擬合

3.4 結果分析

比較壓載航次中各工況最低單位海里油耗量可以看出，單位海里油耗量隨著工況點不同而不同，且隨著功率增大而增大，該航次中工況1時的主機運行效率最高，節油效果最明顯，而工況3效果最差.比較壓載和滿載航次工況1中各聚類點可以看出，單位海里油耗量隨著主機功率的增大有增大趨勢，通過擬合曲線也可以得到同樣的結論，但還可以看出當功率小到一定程度，海里油耗量會反而增大，拋物線的最低點為該航次最佳工況下的理論最低海里油耗量.出現這種情況的原因可能是：由于本文所采用的每海里油耗量計算方法為每10 min內的油耗量與該10 min內GPS所顯示的船舶航行的絕對距離的比值，如果功率過低，所產生的有效功率不足，導致主機轉速較低，螺旋槳的敞水效率相應降低，從而航速也較小，在該段時間走過的距離也就較小，即上述計算的比值就會反而增大，該趨勢符合理論分析結果.因此應當保持適當的功率和轉速，這樣可以使該工況下的節油效果達到最佳.

4 結論

1) 利用轉速和功率兩個參數做出統計分布圖，并結合高斯混合模型聚類方法，得到了壓載航次中主機的三種運行工況.在這個基礎上，應用二分K均值聚類法分別對整個航次各工況的數據分別進行聚類，比較得出單位海里油耗量隨著工況點不同而不同，且隨著功率增大而增大.

2) 船舶的油耗水平會受眾多航行參數的影響，其過程具有復雜性和綜合性，采用數據挖掘對具有統計規律和復雜關系的參數進行分析可以發現其中參數間的潛在規律.通過曲線擬合可以看出，該船舶的單位海里油耗雖然隨著功率的減小有減小趨勢，但是當功率小到某種程度，單位海里油耗反而有增大趨勢，因此只有設定一個合理的功率和轉速，才能獲得最好的節油效果和經濟效益.這可以給航運公司提供科學的經營決策，也可以為船舶節能減排、船舶智能能效技術提供理論支持.