◆于美麗
?
航運企業信息管理系統的大數據分析與挖掘
◆于美麗
(長航鳳凰股份有限公司上海華泰海運分公司 上海 200082)
為了降低成本、提升船效,通過BRICH聚類算法,信息系統根據輸入的船舶航次信息,包括航線、等泊停時等,以及規使費、燃油費、租金、固定成本等,搜集船舶相近航次信息,自動計算最優航線,使單船單航次效益最大化。該算法系統已應用于所屬公司,對船舶運營的效益預測科學精確,對公司領導決策有著風向標意義。當前運價低迷,干散貨運輸企業面臨巨大的生存壓力,科學化的管理系統成為航運企業亟需的新型管理模式。大數據的積累和挖掘有助于產生最佳航運線路,對于企業控本增效、排船優化起著至關重要的作用。
信息管理系統;大數據分析;數據挖掘;BRICH算法;航行最佳路徑
信息管理系統的建設著眼于實現干散貨運輸企業的管理流程、提高船舶的運行率、降低企業管理成本、加大經營利潤的功能,全方位、多層次地將航運業務與計算機軟件相結合,使計算機管理的精準、高效融入到航運管理的每個細節之中,提供了航運企業運營的最優化平臺。數據挖掘自動在企業現有數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。調度人員可以根據系統分析數據,適時調整船舶裝卸貨,安排船期,力求單船單航次效益最大化。
根據企業船舶周轉過程中產生的所有數據,從裝港、運輸、卸港,牽扯到商務港使費、船管部燃油供給財務運單及銷賬,設計系統架構如圖1。

圖1 設計系統架構
(1)調度數據模塊中,涉及海輪、拖輪、港內過駁、長江駁船航次信息的設計及錄入,如圖2所示。
針對航次具體信息及后期應用,對不同船型的航次設計表項,包括裝貨、卸貨、在港停時、中途停時、貨種、貨主、始發中途到港、港口里程。在此基礎上生成船舶效率報表(按單船、按貨主、按船型),船發量報表、流量流向報表、生產指標完成報表、貨主碼頭卸載報表、周卸空報表、海輪專線營運時間統計報表等。
(2)財務數據模塊中,涉及固定成本錄入、運單運費錄入、運單消耗、港使費預測錄入,用于港使費實際與預測對比,公司資金到位率查詢。

圖2 海輪航次信息錄入
(3)船管數據模塊中,涉及船舶單航次耗油成本及千公里油耗。由于港使費和燃油費是我司主要成本支出,但是這兩部分支出都是來自于港務局、港口及船舶上報,為了控制成本,精細核算,我司將根據港使費實際與預測進行比較,根據船舶耗油情況計算單船千公里油耗(見圖3)。該舉措需要將商務部做出的港使費月度預算及燃油部提供的船舶月度油耗分別與信息系統里實際發生的港使費付款通知單和船舶加油加水付款通知單進行比對,以提供超支或平衡的支出對比。這就對信息系統平臺和Excel平臺提出了一個讀取、共享、交換數據的要求。最終建立了Excel和信息系統之間的數據通道,實現了方便快速的將商務處的港使費預測Excel表及將單船單航次實際耗油導入到系統中,與系統中的實際發生值進行比對,最終生成比較表。實現了Excel與信息系統不同平臺之間數據的通信,大大方便了處理數據,精細管理。

圖3 船舶航次耗油成本預測
(4)商務數據模塊中,超載獎申請功能、航次租船費用審核功能、由運量調整引起的超載獎補差價功能(見圖4)。

圖4 新增付款通知單
(5)市場數據模塊中,周卸空報表、按貨主統計船舶效率、產量報表。
(6)業務數據模塊中,開票通知單和銷賬通知單的生成、查詢、審核、統計功能。
以上功能最大的技術突破是適時增加了表的索引功能,并對不同表建立視圖,增加表與表之間的連接,并加快了系統的運行。這樣不同部門之間,自上而下形成一個流程,對應實際的經營模式,一個部門處理完業務后交由下一部門,不同部門對應不同權限,只有上一流程操作完之后,下游部門才可進行接下來的操作,使公司業務更嚴格,更規范。
在公司船舶卸空之后,不需要經過財務的各種單據和費用到場,直接通過系統,預測該航次的效益狀況。涉及(1)固定成本,包括船員工資及附加、船舶保險費、事故損失費、維修費、光租租金、車船稅、物料費、稅金附加、管理費用分攤及其他費用共十個大項,以年度財務總成本為基礎,根據實際航次時間,把財務成本拆解到本航次。(2)燃油成本,有船管部提供每個航次的油耗,包括油品種、耗油量。油單價,由庫存油和新加油根據進水池原理計算耗油單價,由單價和耗量計算油成本。(3)港使費,包括港務費、船代費、系解纜費、拖輪費、飲水費、護航費、停泊費、通訊費、業務代理費和其他費用共十個大項。港務費是沿海是凈噸的0.25元,進江是1.1元。船代費根據港口設定,如日照港是裝載噸的0.2元,葫蘆島是0.9元。停泊費比較固定,均為凈噸*0.06*停泊天數。(4)運費,根據業務處合同自動生成。(5)船舶航次信息,運營中心監控船舶動態,及時輸入船舶開港、中途停時、卸港等行成完整航次信息。有了以上五大數據,就可以對每個航次的效益進行核算,為領導決策及時提供科學有效信息,適時調整船舶發運,保證效益最大化。
在以上成本、收入明朗的情況下,采用數據挖掘中的BIRCH算法,BIRCH也是一種聚類算法,其全稱是Balanced Iterative Reducing and Clustering using Hierarchies。BIRCH是一個綜合的層次聚類特征(Clustering Feature, CF)和聚類特征樹(CF Tree)兩個概念,用于概括聚類描述。聚類特征樹概括了聚類的有用信息,并且占用空間較元數據集合小得多,可以存放在內存中,從而可以提高算法在大型數據集合上的聚類速度及可伸縮性。
BIRCH算法分為兩個步驟:(1)掃描數據庫,包括船舶動態,離港、航行、港使信息、燃油信息、合同信息,在此基礎上建立動態的一棵存放在內存的CF Tree。如果內存不夠,則增大閾值,在原樹基礎上構造一棵較小的樹。(2)對樹節點繼續使用全局性的聚類算法,改進聚類質量。由于CF Tree的樹節點代表的聚類可能不是自然的聚類結果,原因是給定的閾值限制了簇的大小,并且數據的輸入順序也會影響到聚類結果。因此需要對葉節點進一步利用一個全局性的聚類算法,改進聚類質量。CF是BIRCH增量聚類算法的核心,CF樹中得節點都是由CF組成,一個CF是一個三元組,這個三元組就代表了簇的所有信息。給定N個d維的數據點{x1,x2,....,xn},CF定義為:CF=(N,LS,SS)。其中,N是子類中節點的數目,LS是N個節點的線性和,SS是N個節點的平方和。
CF有個特性,即可以求和,具體說明如下:CF1=(n1,LS1,SS1),CF2=(n2,LS2,SS2),則CF1+CF2=(n1+n2, LS1+LS2, SS1+SS2)。例如: 假設簇C1中有三個數據點(2,3)(4,5),(5,6),則CF1={3,(2+4+5,3+5+6),(2^2+4^2+5^2, 3^2+ 5^2+6^2)}={3,(11,14),(45,70)},同樣的,簇C2的CF2={4,(40,42),(100,101)},那么,由簇C1和簇C2合并而來的簇C3的聚類特征CF3計算如下:
CF3={3+4,(11+40,14+42),(45+100,70+101)}={7,(51,56),(145,171)}
另外還有簇的質心和簇的半徑。假如一個簇中包含n個數據點:{Xi},i=1,2,3...n.,則質心C和半徑R計算公式如下:C=(X1+X2+...+Xn)/n,(這里X1+X2+...+Xn是向量加),R=(|X1-C|^2+|X2-C|^2+...+|Xn-C|^2)/n。其中,簇半徑表示簇中所有點到簇質心的平均距離。CF中存儲的是簇中所有數據點的特性的統計和,所以當我們把一個數據點加入某個簇的時候,那么這個數據點的詳細特征,例如屬性值,就丟失了,由于這個特征,BIRCH聚類可以在很大程度上對數據集進行壓縮。
最大效益的設計,應該聚集航次所有信息,收入刨去成本、租金得到的最優路徑(見圖5)。

圖5 單船單航次里利潤預測表
綜上所述,最優效益的產生依賴于航次諸信息的聚集算法,在運力充沛、貨源緊張、運價低迷的行情下,信息系統根據輸入的船舶航次信息,包括航線、等泊停時等,以及規使費、燃油費、租金、固定成本等,搜集船舶相近信息,自動計算最優航線,使公司效益最大化,對指導公司管船排船具有指導意義。該算法系統已應用于所屬公司,對船舶運營的效益預測科學精確,對公司領導決策有著風向標意義。
[1]BIRCH:An Efficient Data Clustering Method for Very Large Databases.
[2]蔣國仁,鄭士君.中遠集運船舶管理信息系統設計.水運管理,2003.
[3]鄭士君,韓成敏等.船舶管理信息化研究.上海海事大學學報,2002.
[4]黃愛平,鄭士君.船舶通導設備計算機信息系統.航海技術,2003.