姜美靈+鄔惠國+肖英杰+王露+向俊
【摘 要】 為了提高我國港口國監督(PSC)工作人員的工作效率,以近10年東南沿海諸港的PSC檢查中化學品船船舶缺陷信息為背景,運用Apriori算法對其缺陷數據進行研究分析,通過生成頻繁項目集,從中提取符合條件的關聯規則。研究結果表明,該方法能夠準確、直觀地總結出船舶缺陷信息的關聯性,為我國PSC檢查提供有效的參考依據。
【關鍵詞】 港口國監督(PSC);Apriori;關聯規則;船舶缺陷
0 引 言
1978年,“AMOCO CADIZ”輪觸礁事故促成了港口國監督(PSC)制度的形成。國際海事組織(IMO)強調落實公約標準的三重保障:IMO負責制定標準;船旗國負責實施標準;港口國負責監督檢查。PSC是指港口國當局針對停泊于其港口的外國船舶,通過采取強制糾正或滯留等手段使船舶的技術狀況、操縱性要求、防污染設施以及船員工作條件等諸多方面逐漸符合有關國際海事公約及相關規定的制度。PSC是船旗國履約的有效補充,是保障海上安全和防止污染的最后一道防線,是公認的消除低于標準船舶、保證海上安全和保護海洋環境的有效手段。隨著相關國際海事公約修正案的生效,特別是2012年《STCW公約》馬尼拉修正案的實施,對PSC檢查產生了深遠的影響。由于PSC檢查人員對PSC制度的理解不盡相同,受本地環境、港口當局特別規定等因素的影響,各區域及各港口PSC檢查的側重點也不同,從而形成了各自獨有的特點。通過分析本區域以往大量的PSC檢查數據,有助于PSC工作人員做好PSC檢查工作。本文依據近10年來東南沿海諸港的PSC檢查數據,以化學品船為例,通過生成頻繁項目集,并基于從中提取符合條件的關聯規則,挖掘東南沿海諸港PSC檢查工作中化學品船的船舶缺陷關系,為PSC檢查提供有效的參考依據。
1 PSC檢查的一般程序
目前,我國各檢查站點的PSC檢查程序、判斷標準均不一致,且每個時期的側重點也不同,但總體遵循一定的規則。初次檢查(包括船舶文書的有效性檢查以及關鍵性設備及操作檢查)中,未發現明顯缺陷,則檢查結束;若發現缺陷,則記錄缺陷。缺陷嚴重并足以構成滯留的,則采取措施滯留船舶;缺陷并不構成滯留,但PSC工作人員懷疑船舶可能存在嚴重缺陷且發現明顯依據,則進行詳細檢查。在詳細檢查中發現嚴重缺陷,且足以構成滯留的,應采取措施滯留船舶。在船舶糾正缺陷后,申請復查,經PSC工作人員復查合格后,解除船舶滯留。對一般缺陷,PSC檢查員給出處理意見,如需復查,經復查合格后,船舶可以開航。針對每次檢查的書面記錄,均須導入PSC數據庫,形成電子記錄。
2 基于Apriori算法的數據關系挖掘
2.1 Apriori算法
2.1.1 算法思想
就本文而言,某一艘船舶被檢測出的所有缺陷代表記錄,一種缺陷代表一個項目,那么Tcount即為東南沿海諸港近10年來對化學品船進行PSC檢查中存在缺陷的記錄總數;xcount為PSC檢查記錄中存在x缺陷的記錄數,(x,y)count為PSC檢查記錄中同時存在x和y缺陷的記錄數。
Apriori算法的主要挖掘功能表現為:
(1)從項目集合中找出k-頻繁項目集,其中,k代表項目集中項目的數量為k個;
(2)從頻繁項目集合中生成滿足最低置信度及支持度的關聯規則。
2.1.2 算法步驟
Apriori算法是一種寬度優先算法,其步驟為:
(1)掃描記錄T,提取每條記錄中出現的項目,若該項目為首次出現,則加入候選1-頻繁項目集的集合C1,并將該項目的計數值設置為1;若該項目在集合C1中已經存在,則該項目的計數值再加1,掃描完記錄集T即得到候選1-頻繁項目集的集合C1。對于生成的項目集,通過刪除計數值小于的項目集,即可生成1-頻繁項目集的集合L1。
(2)假設(k-1)-頻繁項目集Lk-1已生成,則可通過Lk-1來生成Lk,將Lk-1與自身進行連接(Lk-1中的每個項目集與其他項目集相互連接),得到候選k-頻繁項目集的集合Ck。
(3)對集合Ck進行剪枝,從集合Ck中刪除所有(k-1)-子集不全包含在集合Lk-1中的項目集。
(4)在掃描記錄集T時,其中每條記錄包含集合Ck中的候選項目集,則將候選項目集的計數值加1(在進行掃描前,將計數值初始值設為0);在掃描集合Ck時,刪除計數值小于的項目集,即可得到k-頻繁項目集的集合Lk。
(5)重復步驟(2)至(4),直到集合Lk為空。
(6)對集合L1至Lk取并集,通過掃描數據庫,對每項進行計數得到最終的頻繁項目集L。
(7)在頻繁項目集中搜索滿足最小可信度的規則,并輸出滿足要求的所有規則。
2.2 基于Apriori算法的化學品船缺陷數據挖掘
2.2.1 PSC檢查數據庫的處理
本文選取東南沿海諸港10年來化學品船的PSC檢查缺陷數據作為基礎數據。為便于算法執行,對PSC數據庫進行處理,將同一艘船舶的n條缺陷數據合并為一條包含所有缺陷的記錄;為提高數據處理的速度,將不相關船舶數據略去,僅保留最為重要的缺陷代碼及船型等數據記錄為便于記錄,PSC數據庫將船舶缺陷分為27類,并通過數字進行標識,船舶缺陷代碼及缺陷描述見表2。
由圖1和圖2可知,化學品船的高頻缺陷主要分布在缺陷代碼為05~20的范圍內,因此,通過Apriori算法搜索該區域內的關聯規則較為適合。新建數據庫并將缺陷代碼在05~20范圍內的記錄填充到該數據庫中,利用Visual Studio平臺進行運算。在設定minsup為0.3,minconf為0.7時,程序執行結果見圖3。
3 結果分析
(1)通過對PSC數據庫中缺陷代碼項的聚合,以及觀察分析缺陷頻率分布,得出被檢測的化學品船的缺陷主要集中在缺陷代碼為05~20的范圍內,占所有缺陷比率的86%。
4 結 語
本文僅對PSC數據庫中的化學品船的船舶缺陷進行關系挖掘,但該方法對其他類型船舶及PSC數據庫中其他字段的缺陷關系挖掘同樣適用。
對于大數據的關系挖掘是一項非常龐大且復雜的系統工程。本文嘗試使用Apriori算法挖掘關聯規則,并相應地獲得一些結論,為化學品船PSC檢查提供一定的參考,以提高我國PSC檢查船舶缺陷的效率。數據關系挖掘算法相比傳統的概率計算方法更為快捷、高效、準確。利用Apriori算法進行船舶缺陷關系挖掘具有非常好的前景。
參考文獻:
[1] 袁建忠,蔡存強,胡志武.港口國監督(PSC)決策支持算法[J].上海海事大學學報,2013,34(2):30-34.
[2] 陳超,曾向明.港口國檢查制度凸現的問題及其發展趨勢[J].中國航海,2006(4):78-81.
[3] 柴華昕,王勇.Apriori挖掘頻繁項目集算法的改進[J].計算機工程與應用,2007(24):158-161,171.
【摘 要】 為了提高我國港口國監督(PSC)工作人員的工作效率,以近10年東南沿海諸港的PSC檢查中化學品船船舶缺陷信息為背景,運用Apriori算法對其缺陷數據進行研究分析,通過生成頻繁項目集,從中提取符合條件的關聯規則。研究結果表明,該方法能夠準確、直觀地總結出船舶缺陷信息的關聯性,為我國PSC檢查提供有效的參考依據。
【關鍵詞】 港口國監督(PSC);Apriori;關聯規則;船舶缺陷
0 引 言
1978年,“AMOCO CADIZ”輪觸礁事故促成了港口國監督(PSC)制度的形成。國際海事組織(IMO)強調落實公約標準的三重保障:IMO負責制定標準;船旗國負責實施標準;港口國負責監督檢查。PSC是指港口國當局針對停泊于其港口的外國船舶,通過采取強制糾正或滯留等手段使船舶的技術狀況、操縱性要求、防污染設施以及船員工作條件等諸多方面逐漸符合有關國際海事公約及相關規定的制度。PSC是船旗國履約的有效補充,是保障海上安全和防止污染的最后一道防線,是公認的消除低于標準船舶、保證海上安全和保護海洋環境的有效手段。隨著相關國際海事公約修正案的生效,特別是2012年《STCW公約》馬尼拉修正案的實施,對PSC檢查產生了深遠的影響。由于PSC檢查人員對PSC制度的理解不盡相同,受本地環境、港口當局特別規定等因素的影響,各區域及各港口PSC檢查的側重點也不同,從而形成了各自獨有的特點。通過分析本區域以往大量的PSC檢查數據,有助于PSC工作人員做好PSC檢查工作。本文依據近10年來東南沿海諸港的PSC檢查數據,以化學品船為例,通過生成頻繁項目集,并基于從中提取符合條件的關聯規則,挖掘東南沿海諸港PSC檢查工作中化學品船的船舶缺陷關系,為PSC檢查提供有效的參考依據。
1 PSC檢查的一般程序
目前,我國各檢查站點的PSC檢查程序、判斷標準均不一致,且每個時期的側重點也不同,但總體遵循一定的規則。初次檢查(包括船舶文書的有效性檢查以及關鍵性設備及操作檢查)中,未發現明顯缺陷,則檢查結束;若發現缺陷,則記錄缺陷。缺陷嚴重并足以構成滯留的,則采取措施滯留船舶;缺陷并不構成滯留,但PSC工作人員懷疑船舶可能存在嚴重缺陷且發現明顯依據,則進行詳細檢查。在詳細檢查中發現嚴重缺陷,且足以構成滯留的,應采取措施滯留船舶。在船舶糾正缺陷后,申請復查,經PSC工作人員復查合格后,解除船舶滯留。對一般缺陷,PSC檢查員給出處理意見,如需復查,經復查合格后,船舶可以開航。針對每次檢查的書面記錄,均須導入PSC數據庫,形成電子記錄。
2 基于Apriori算法的數據關系挖掘
2.1 Apriori算法
2.1.1 算法思想
就本文而言,某一艘船舶被檢測出的所有缺陷代表記錄,一種缺陷代表一個項目,那么Tcount即為東南沿海諸港近10年來對化學品船進行PSC檢查中存在缺陷的記錄總數;xcount為PSC檢查記錄中存在x缺陷的記錄數,(x,y)count為PSC檢查記錄中同時存在x和y缺陷的記錄數。
Apriori算法的主要挖掘功能表現為:
(1)從項目集合中找出k-頻繁項目集,其中,k代表項目集中項目的數量為k個;
(2)從頻繁項目集合中生成滿足最低置信度及支持度的關聯規則。
2.1.2 算法步驟
Apriori算法是一種寬度優先算法,其步驟為:
(1)掃描記錄T,提取每條記錄中出現的項目,若該項目為首次出現,則加入候選1-頻繁項目集的集合C1,并將該項目的計數值設置為1;若該項目在集合C1中已經存在,則該項目的計數值再加1,掃描完記錄集T即得到候選1-頻繁項目集的集合C1。對于生成的項目集,通過刪除計數值小于的項目集,即可生成1-頻繁項目集的集合L1。
(2)假設(k-1)-頻繁項目集Lk-1已生成,則可通過Lk-1來生成Lk,將Lk-1與自身進行連接(Lk-1中的每個項目集與其他項目集相互連接),得到候選k-頻繁項目集的集合Ck。
(3)對集合Ck進行剪枝,從集合Ck中刪除所有(k-1)-子集不全包含在集合Lk-1中的項目集。
(4)在掃描記錄集T時,其中每條記錄包含集合Ck中的候選項目集,則將候選項目集的計數值加1(在進行掃描前,將計數值初始值設為0);在掃描集合Ck時,刪除計數值小于的項目集,即可得到k-頻繁項目集的集合Lk。
(5)重復步驟(2)至(4),直到集合Lk為空。
(6)對集合L1至Lk取并集,通過掃描數據庫,對每項進行計數得到最終的頻繁項目集L。
(7)在頻繁項目集中搜索滿足最小可信度的規則,并輸出滿足要求的所有規則。
2.2 基于Apriori算法的化學品船缺陷數據挖掘
2.2.1 PSC檢查數據庫的處理
本文選取東南沿海諸港10年來化學品船的PSC檢查缺陷數據作為基礎數據。為便于算法執行,對PSC數據庫進行處理,將同一艘船舶的n條缺陷數據合并為一條包含所有缺陷的記錄;為提高數據處理的速度,將不相關船舶數據略去,僅保留最為重要的缺陷代碼及船型等數據記錄為便于記錄,PSC數據庫將船舶缺陷分為27類,并通過數字進行標識,船舶缺陷代碼及缺陷描述見表2。
由圖1和圖2可知,化學品船的高頻缺陷主要分布在缺陷代碼為05~20的范圍內,因此,通過Apriori算法搜索該區域內的關聯規則較為適合。新建數據庫并將缺陷代碼在05~20范圍內的記錄填充到該數據庫中,利用Visual Studio平臺進行運算。在設定minsup為0.3,minconf為0.7時,程序執行結果見圖3。
3 結果分析
(1)通過對PSC數據庫中缺陷代碼項的聚合,以及觀察分析缺陷頻率分布,得出被檢測的化學品船的缺陷主要集中在缺陷代碼為05~20的范圍內,占所有缺陷比率的86%。
4 結 語
本文僅對PSC數據庫中的化學品船的船舶缺陷進行關系挖掘,但該方法對其他類型船舶及PSC數據庫中其他字段的缺陷關系挖掘同樣適用。
對于大數據的關系挖掘是一項非常龐大且復雜的系統工程。本文嘗試使用Apriori算法挖掘關聯規則,并相應地獲得一些結論,為化學品船PSC檢查提供一定的參考,以提高我國PSC檢查船舶缺陷的效率。數據關系挖掘算法相比傳統的概率計算方法更為快捷、高效、準確。利用Apriori算法進行船舶缺陷關系挖掘具有非常好的前景。
參考文獻:
[1] 袁建忠,蔡存強,胡志武.港口國監督(PSC)決策支持算法[J].上海海事大學學報,2013,34(2):30-34.
[2] 陳超,曾向明.港口國檢查制度凸現的問題及其發展趨勢[J].中國航海,2006(4):78-81.
[3] 柴華昕,王勇.Apriori挖掘頻繁項目集算法的改進[J].計算機工程與應用,2007(24):158-161,171.
【摘 要】 為了提高我國港口國監督(PSC)工作人員的工作效率,以近10年東南沿海諸港的PSC檢查中化學品船船舶缺陷信息為背景,運用Apriori算法對其缺陷數據進行研究分析,通過生成頻繁項目集,從中提取符合條件的關聯規則。研究結果表明,該方法能夠準確、直觀地總結出船舶缺陷信息的關聯性,為我國PSC檢查提供有效的參考依據。
【關鍵詞】 港口國監督(PSC);Apriori;關聯規則;船舶缺陷
0 引 言
1978年,“AMOCO CADIZ”輪觸礁事故促成了港口國監督(PSC)制度的形成。國際海事組織(IMO)強調落實公約標準的三重保障:IMO負責制定標準;船旗國負責實施標準;港口國負責監督檢查。PSC是指港口國當局針對停泊于其港口的外國船舶,通過采取強制糾正或滯留等手段使船舶的技術狀況、操縱性要求、防污染設施以及船員工作條件等諸多方面逐漸符合有關國際海事公約及相關規定的制度。PSC是船旗國履約的有效補充,是保障海上安全和防止污染的最后一道防線,是公認的消除低于標準船舶、保證海上安全和保護海洋環境的有效手段。隨著相關國際海事公約修正案的生效,特別是2012年《STCW公約》馬尼拉修正案的實施,對PSC檢查產生了深遠的影響。由于PSC檢查人員對PSC制度的理解不盡相同,受本地環境、港口當局特別規定等因素的影響,各區域及各港口PSC檢查的側重點也不同,從而形成了各自獨有的特點。通過分析本區域以往大量的PSC檢查數據,有助于PSC工作人員做好PSC檢查工作。本文依據近10年來東南沿海諸港的PSC檢查數據,以化學品船為例,通過生成頻繁項目集,并基于從中提取符合條件的關聯規則,挖掘東南沿海諸港PSC檢查工作中化學品船的船舶缺陷關系,為PSC檢查提供有效的參考依據。
1 PSC檢查的一般程序
目前,我國各檢查站點的PSC檢查程序、判斷標準均不一致,且每個時期的側重點也不同,但總體遵循一定的規則。初次檢查(包括船舶文書的有效性檢查以及關鍵性設備及操作檢查)中,未發現明顯缺陷,則檢查結束;若發現缺陷,則記錄缺陷。缺陷嚴重并足以構成滯留的,則采取措施滯留船舶;缺陷并不構成滯留,但PSC工作人員懷疑船舶可能存在嚴重缺陷且發現明顯依據,則進行詳細檢查。在詳細檢查中發現嚴重缺陷,且足以構成滯留的,應采取措施滯留船舶。在船舶糾正缺陷后,申請復查,經PSC工作人員復查合格后,解除船舶滯留。對一般缺陷,PSC檢查員給出處理意見,如需復查,經復查合格后,船舶可以開航。針對每次檢查的書面記錄,均須導入PSC數據庫,形成電子記錄。
2 基于Apriori算法的數據關系挖掘
2.1 Apriori算法
2.1.1 算法思想
就本文而言,某一艘船舶被檢測出的所有缺陷代表記錄,一種缺陷代表一個項目,那么Tcount即為東南沿海諸港近10年來對化學品船進行PSC檢查中存在缺陷的記錄總數;xcount為PSC檢查記錄中存在x缺陷的記錄數,(x,y)count為PSC檢查記錄中同時存在x和y缺陷的記錄數。
Apriori算法的主要挖掘功能表現為:
(1)從項目集合中找出k-頻繁項目集,其中,k代表項目集中項目的數量為k個;
(2)從頻繁項目集合中生成滿足最低置信度及支持度的關聯規則。
2.1.2 算法步驟
Apriori算法是一種寬度優先算法,其步驟為:
(1)掃描記錄T,提取每條記錄中出現的項目,若該項目為首次出現,則加入候選1-頻繁項目集的集合C1,并將該項目的計數值設置為1;若該項目在集合C1中已經存在,則該項目的計數值再加1,掃描完記錄集T即得到候選1-頻繁項目集的集合C1。對于生成的項目集,通過刪除計數值小于的項目集,即可生成1-頻繁項目集的集合L1。
(2)假設(k-1)-頻繁項目集Lk-1已生成,則可通過Lk-1來生成Lk,將Lk-1與自身進行連接(Lk-1中的每個項目集與其他項目集相互連接),得到候選k-頻繁項目集的集合Ck。
(3)對集合Ck進行剪枝,從集合Ck中刪除所有(k-1)-子集不全包含在集合Lk-1中的項目集。
(4)在掃描記錄集T時,其中每條記錄包含集合Ck中的候選項目集,則將候選項目集的計數值加1(在進行掃描前,將計數值初始值設為0);在掃描集合Ck時,刪除計數值小于的項目集,即可得到k-頻繁項目集的集合Lk。
(5)重復步驟(2)至(4),直到集合Lk為空。
(6)對集合L1至Lk取并集,通過掃描數據庫,對每項進行計數得到最終的頻繁項目集L。
(7)在頻繁項目集中搜索滿足最小可信度的規則,并輸出滿足要求的所有規則。
2.2 基于Apriori算法的化學品船缺陷數據挖掘
2.2.1 PSC檢查數據庫的處理
本文選取東南沿海諸港10年來化學品船的PSC檢查缺陷數據作為基礎數據。為便于算法執行,對PSC數據庫進行處理,將同一艘船舶的n條缺陷數據合并為一條包含所有缺陷的記錄;為提高數據處理的速度,將不相關船舶數據略去,僅保留最為重要的缺陷代碼及船型等數據記錄為便于記錄,PSC數據庫將船舶缺陷分為27類,并通過數字進行標識,船舶缺陷代碼及缺陷描述見表2。
由圖1和圖2可知,化學品船的高頻缺陷主要分布在缺陷代碼為05~20的范圍內,因此,通過Apriori算法搜索該區域內的關聯規則較為適合。新建數據庫并將缺陷代碼在05~20范圍內的記錄填充到該數據庫中,利用Visual Studio平臺進行運算。在設定minsup為0.3,minconf為0.7時,程序執行結果見圖3。
3 結果分析
(1)通過對PSC數據庫中缺陷代碼項的聚合,以及觀察分析缺陷頻率分布,得出被檢測的化學品船的缺陷主要集中在缺陷代碼為05~20的范圍內,占所有缺陷比率的86%。
4 結 語
本文僅對PSC數據庫中的化學品船的船舶缺陷進行關系挖掘,但該方法對其他類型船舶及PSC數據庫中其他字段的缺陷關系挖掘同樣適用。
對于大數據的關系挖掘是一項非常龐大且復雜的系統工程。本文嘗試使用Apriori算法挖掘關聯規則,并相應地獲得一些結論,為化學品船PSC檢查提供一定的參考,以提高我國PSC檢查船舶缺陷的效率。數據關系挖掘算法相比傳統的概率計算方法更為快捷、高效、準確。利用Apriori算法進行船舶缺陷關系挖掘具有非常好的前景。
參考文獻:
[1] 袁建忠,蔡存強,胡志武.港口國監督(PSC)決策支持算法[J].上海海事大學學報,2013,34(2):30-34.
[2] 陳超,曾向明.港口國檢查制度凸現的問題及其發展趨勢[J].中國航海,2006(4):78-81.
[3] 柴華昕,王勇.Apriori挖掘頻繁項目集算法的改進[J].計算機工程與應用,2007(24):158-161,171.