袁建中, 蔡存強, 胡志武
(上海海事大學 商船學院,上海 201306)
港口國監督(Port State Control, PSC),指國家航政主管機關為確保停泊于國內港口的外國船舶的船況、設備及人員操作等均能符合國際公約及相關規定而進行的監督和檢查工作.[1]通過采取強制糾正和滯留等手段,PSC工作人員促使途經的外籍船舶在海上航行設備、工作條件和防止污染等諸多方面逐漸符合公約規定.[2-3]PSC要求每艘受檢船舶維持一定的國際安全標準,不但對船舶本身是一種安全督促,也能保障港口的運營安全.[4-5]
對于PSC而言,信息界的決策支持和數據挖掘理念依然屬于新鮮課題,業界少有探索.[6-7]PSC工作人員主要依靠人工檢查經驗的定性累積,對后續工作進行糾偏以及對新人進行培訓.現代決策支持技術及數據挖掘方法,可以對寶貴的PSC查船記錄進行科學、高效的信息揀選與處理,提取船舶缺陷的內在規律[8-9],很好地協助工作人員提高工作效率與品質.本文以臺灣島4大港口(基隆、臺中、花蓮、高雄)施行PSC工作所記錄數據信息為背景,基于數據挖掘中的關聯規則原理[10-11],提出一套現實可行的數據化PSC決策支持算法,為PSC工作人員提供翔實可靠的客觀建議,輔助PSC工作高效進行[12-13].本算法將現代決策支持的具體技術引入業界,具有較強的可行性.
本文算法的提出,主要以臺灣島4大港口2002年8月至2010年1月的883次查出缺陷的船只情況記錄(未有缺陷的船只不計入)為算法的計算依據.本文對查船記錄進行整理,修正壞數據,去除船公司名、船級社名等隱私保護項,整理為表1所示的PSC數據庫的數據格式.

表1 PSC數據庫的數據格式
每條記錄只包含目標船的一條缺陷信息,若某目標船含有N條缺陷,則在數據庫中連續記錄N行.表1中的“缺陷總目”與“缺陷細目”即船舶缺陷代碼的大類與細分.臺灣航政主管部門主要采用美國海岸警備隊制定的缺陷代碼(DEFICIENCY CODES)對照表[14],對PSC工作的目標船進行缺陷標定.表2為各缺陷總目的涵義.

表2 缺陷總目對照表
表2僅為缺陷總目,每目之下還有細分.例如09(Safety in general)下包含有24個缺陷細目,其中0936為“Steering gear”,0983為“Hull-corrosion”,等.
本算法的理論依據是數據挖掘理論中的關聯規則.關聯規則是指,通過對數據庫中兩個或多個屬性數據相互關系的數理統計特征的提取,找到各屬性之間可能存在的內在關聯.例如,可以通過數理統計方法,得知某兩類缺陷存在相依關系,即常常同時出現;而有些缺陷則“蘊含”著其他缺陷,即該缺陷發生的情況下另外某些缺陷發生的概率很大,但另外缺陷發生時該缺陷并非常常發生.這些屬性間可能存在的關聯規律,對于PSC工作人員,尤其是工作經驗較少的年輕工作者,具有指導意義,并且由于從數據庫中提煉出的關聯規律的客觀性,可在一定程度上避免人為經驗的偏頗.
圖1(a)中A與B為相依關系,可以依照條件概率推出A?B和B?A;圖1(b)中A與B為蘊含關系,可以依照條件概率推出A?B.具體的相依或蘊含的程度,則可通過計算得到的條件概率值定量呈現.

圖1船舶某兩缺陷的關系
基于第2.1節所闡述的關聯規則,結合PSC工作的特性,提出一種十分具有可操作性的決策支持算法.基本流程如下.
(1)依據PSC數據庫,統計出缺陷總目的單項頻繁項集(本文以缺陷總目為算法的簡要示例,缺陷細目也可用相同方法處理,需要更大的計算量),即PSC工作中最頻繁查到的幾類總目的頻繁程度信息.單項排名可為PSC工作人員提供初始檢查項目建議.如表3所示,經過對臺灣4大港口9年間的數據統計,可得到臺灣地區最常出現的22類總目,其中09類總目以883次檢查任務中有547次出現的高頻度位居該類缺陷之首.09,12以及07等高頻出現的總目,無疑是臺灣地區PSC檢查工作的重點.
(2)依據上述得到的高頻項集(22類)的數據信息,統計出缺陷總目的雙項頻繁項集信息,建立相依性矩陣.先計算出22類最頻繁出現的單項中某一項A出現的前提下另一項B出現的概率,即B相對于A的條件概率.依據關聯規則的具體原理,條件概率即為蘊含式的置信度指標,所以條件概率數值越大,對應的蘊含規則越可信.

表3 單項頻繁項集排名
表4中行屬性和列屬性均為頻繁度最高的22項缺陷總目(限于篇幅,表中只列出7項缺陷總目).表中行屬性為蘊含式母項,列屬性為蘊含式子項,從表中可讀出22類中任意兩類的蘊含規則置信度.例如“09?06”的置信度為0.614(61.4%),而“06?09”的置信度為0.985(98.5%),顯然后者的蘊含規則更加可靠;因為兩蘊含式的置信度都較高,所以前后兩對代碼在一定程度上分別存在相依關系.
(3)依據相依矩陣導出蘊含規則,并按置信度排列.例如依據相依矩陣可知“09?06”的置信度低于“06?09”,則關于該兩者的關聯關系以后者為準,即“06?09”.本文所導出的蘊含規則見表5(以缺陷總目01,02,03為例).PSC工作人員可依據該清單中的蘊含規則,找出客觀上嫌疑程度最大的潛在缺陷.
表5中部分蘊含規則置信度超過1(100%),是由有些船舶同時被檢出同一個缺陷總目下的多個缺陷細目造成的.例如蘊含式“01?09”的置信度為3.18(318%),表示在查船過程中,每出現一個01類缺陷總目的同時,平均伴隨3個以上的09類缺陷總目,可能是0910,0915或0920等各不同細目的缺陷.所以,本文中的置信度概念為廣義置信度概念,取值范圍較靈活.

表4 雙項頻繁項相依性矩陣

表5 蘊含規則排名清單示例
本算法依據臺灣島4大港口歷年的PSC數據,可計算得到表3和5兩個決策支持清單.PSC工作人員的使用方法是:
(1)當工作人員登上目標船后,在沒有其他信息提示的情況下,可根據表3找到頻繁度最高即嫌疑最大的潛在缺陷進行查看,例如09總目和12總目.在有其他信息提示的情況下,例如通過其他信息確信該船不會發生09總目缺陷的前提下,12總目成為最大嫌疑目標,清單建議工作人員從12總目開始,依次著手展開檢查.
(2)當工作人員查到某總目存在缺陷時,可根據表5找出接下來潛在的最大嫌疑目標.例如當查出某船02總目存有缺陷時,根據表5可知12總目被檢出缺陷的潛在可能最大,工作人員在沒有其他信息的參考下可依據該清單查看12總目.如12總目沒有查到缺陷,可繼續查找15總目(15總目位列第2).
(3)依次類推,直到PSC工作結束.
在本文所提出的決策支持算法的客觀輔助下,工作人員的工作效率顯著提高.經驗不足的PSC工作人員,在沒有其他有效信息的輔助下,可依據本算法運算導出的決策支持清單,找到一條理論上最優化的檢查次序.本算法僅提供運算模式,由于不同海域流通的船舶具體情況的差異,依照不同港口的PSC歷史數據庫,運算得出的決策支持清單也會各有不同.但只要PSC歷史數據庫中記錄的信息真實可靠,就可以通過本文提出的算法得到具有實際輔助意義的詳細PSC建議.
本算法將關聯規則的核心思想與PSC數據庫相結合,引入PSC工作領域,是一次探索性的嘗試.數據挖掘思想中的關聯規則是智能計算領域常用到的思路,將智能思想廣泛引入PSC領域,可為PSC工作帶來更多的發展空間.關于PSC領域的智能化研究,未來將會有更多更有益的研究成果.
參考文獻:
[1] Tokyo MOU. Annual report on port State control in Asia-Pacific region 2006[R]. 2006: 8-9.
[2] 李文華, 袁國強. 從價值鏈角度論中國PSC競爭力[J]. 大連海事大學學報, 2010, 9(1): 48-50.
[3] PLAZA F. The future for flag State implementation and port State control[M]// NORDQUIST M H, MOORE J N. Current maritime issues and the International Maritime Organization (center for oceans law & policy). Netherlands: Martinus Nijhoff Publishers, 1999: 199-201.
[4] 馬雪梅, 羅衛華. 論船級社檢驗、船旗國監督與港口國監督三者關系[J]. 航海技術, 2007(1): 74-75.
[5] WU Zhaolin, FU Yuhui, ZHU Yuzhu.Maritime safety administration management[M]. Dalian: Dalian Maritime Univ Pr, 2001: 25-37.
[6] 徐東. 2008—2010年PSC檢查數據分析[J]. 中國海事, 2011(6): 21-23.
[7] 李凱里, 王立宏, 童向榮. 預期關聯規則集及其基數的定量分析[J]. 模式識別與人工智能, 2010, 23(3): 402-407.
[8] 蘇健, 高濟. 粗糙決策支持方法[J]. 計算機學報, 2003, 26(6): 738-739.
[9] 黃志. 福建沿海船舶事故的灰色關聯分析[J]. 上海海事大學學報, 2006, 27(1): 21-23.
[10] 馮宏祥, 肖英杰. 基于灰色關聯度的航道方案評價[J]. 上海海事大學學報, 2007, 28(3): 2-4.
[11] 黃曉霞, 程論. 綜合評價與數據挖掘的比較[J]. 上海海事大學學報, 2007, 28(4): 54-56.
[12] 宓為建, 徐子奇, 劉園. 大型港機結構應力峰值與小車位置關聯規則的數據挖掘[J]. 上海海事大學學報, 2007, 28(3): 44-46.
[13] 張金區, 王開泳, 王云鵬. 面向統計數據的三位一體可視化關聯分析[J]. 計算機工程, 2012, 38(3): 258-260.
[14] US Coast Guard. Port State control report of inspection. [R]. 2004, 5: 1-13.