葛蓉, 胡勤友, 涂興華, 徐鐵
(1.江蘇海事職業技術學院 航海技術學院,南京 211170; 2.上海海事大學 商船學院,上海 201306)
近年來,我國經濟的飛速發展帶動航運業繁榮.水上交通安全工作是一項基礎性工作,歷來受到海事部門的高度重視,因此正確及時地掌握水上交通安全形勢是開展水上交通安全監管工作的前提和依據.目前,經過一些學者的研究分析,運用于水上交通安全評價的數學模型或方法有很多,如加權評價法、神經網絡法、故障樹分析法等.其中加權評價法操作性強、簡便易算,常用的有模糊綜合評判法[1]、層次分析法、德爾菲法等,這幾種方法均能將定性和定量相結合、步驟完善、所得的評價結果有一定的參考價值和預見性,因而在水上交通安全評價中被廣泛應用.
根據評價水上交通的目的和特征,通常由專家調查的方式確定較吻合的指標體系,同時由一定數量的領域內專家主觀賦值確定指標權重,因此對專家存在較強的依賴.認識到指標權重的主觀性較強,為使權重更準確可信、符合邏輯,很多學者在這方面進行研究[2],在一些常見方法的基礎上提出更多的數學模型和方法[3].
文獻[4]研究Delphi-AHP(Analytic Hierarchy Process,層次分析法)構權過程中專家意見一致性的統計檢驗問題,提出用p階對稱均值比指標度量,并建議用極差法和模擬法確定閾值,是一致性檢驗的新方法;文獻[5]將集對分析(Set Pair Analysis,SPA)模型引入安全評價;文獻[6]將SPA與AHP比較,得出SPA法能夠對專家判斷的同一性和差異性進行有效處理,更易于區分各指標的權重;文獻[7]在安全評價中引入模糊變權法,權重與單指標評價值相關聯,突出不理想指標,使評價結果更符合實際情況.
上述幾種方法都僅僅在一定程度上對單個專家賦權值進行修正,對整個專家權重向量集中的異常向量不能進行有效識別.這些異常向量會降低評價結果的準確性,為提高權重向量的可信度,應盡早發現并消除.本文提出一種基于DBSCAN算法的權重向量異常分析方法,能快速、有效地檢測出專家權重向量集中的異常向量.
在運用加權評價法評價復雜的水上交通系統安全時,有以下3個關鍵步驟:
步驟1確定評價指標.主要是根據水上交通特點和評價目的,選擇影響安全形勢的因素作為評價指標,如自然條件、船舶狀況等,并構造判斷矩陣.

步驟3得出評價結果.對權重向量w和評判矩陣R進行矩陣運算B=wR,得出評價結果.
評價中的權重向量集通常為數值屬性的多維數據集,在大多數情況下沒有提前標記,而當某向量區別于其他多數向量時,將其標記為異常向量.導致異常的原因可能是專家主觀判斷失誤等,識別這些異常權重向量正是分析的目標.
檢測異常數據是聚類的一種附屬結果,故往往選取聚類算法作為檢測方法.文獻[8]對基于聚類的異常挖掘算法進行大量研究;文獻[9]基于密度聚類算法對樣本數據庫進行異常檢測,為運用聚類算法進行權重向量異常分析提供基礎.
聚類是數據挖掘[10-11]中的一項重要技術,根據向量之間的“相似程度”將向量劃分為不同的簇,目的是使同一簇中的向量相似度最大化、不同簇中的向量相似度最小化.完成聚類后,可能剩余少數向量無法歸入任何簇中,這些少數向量即為檢測出的異常向量.[12]傳統的聚類算法根據數據類型、聚類目的等大致可以被分為5類:層次方法、劃分方法、基于密度方法、基于網格方法和基于模型方法.文獻[13]就異常數據分析對PAM算法、BIRCH算法、DBSCAN算法和CURE算法這4種典型的聚類算法進行比較,其中DBSCAN算法適用于任意形狀的聚類,對異常數據最為敏感,故DBSCAN算法對于權重向量的異常分析有一定的可行性.
DBSCAN算法是一種較具有代表性的基于密度的聚類算法,根據密度閾值控制簇的增長,采用迭代法查找對象歸入簇.[14]運用DBSCAN算法需指定2個參數:①鄰域半徑E,由權重向量間的歐氏距離確定;②鄰域半徑范圍內的權重向量最小數目M.設定M和E后,算法步驟如下:
步驟1檢測權重向量集中且其鄰域半徑E范圍內包含的權重向量數目≥M的權重向量p,以p為核心對象建立新簇C,并將其包含的所有權重向量加入C.
步驟2對C中尚未處理的權重向量q,若其鄰域半徑E范圍內包含的權重向量數目≥M,則將其所包含的權重向量(已處理的權重向量除外)加入C;若包含的權重向量數目 步驟3重復步驟2,擴展C所包含的權重向量,直到沒有新的權重向量加入. 步驟4重復步驟1~3,直到權重向量集中的所有向量都歸入某一簇,同時未加入任何一簇的權重向量標記為異常向量. DBSCAN算法流程見圖1. 圖1 DBSCAN算法流程 為檢驗DBSCAN算法對權重向量異常分析的效果,參照調查專家意見,按照“人-機-環境”理論選定這3項為分析影響水上交通的指標,取130位專家填寫的問卷結果,構造判斷矩陣,再計算出130個專家指標權重向量如下: 對上述權重向量作三維散點圖,見圖2.由圖2可以看出,權重向量總體集中分布,但在密度上存在一定的差異,且邊緣處可能存在個別權重向量異常偏離. 圖2 權重向量三維散點圖 參照數據量和向量分布情況,采用DBSCAN算法進行異常分析.為簡化計算可設定參數M=5.為確定E,計算向量集中的某一權重向量wi=(wi1,wi2,…,wik)與其第M(M=5)個最鄰近對象wj=(wj1,wj2,…,wjk)之間的歐氏距離: d(wi,wj)= 在本實例中,k=3.對計算所得d四舍五入精確到小數點后兩位有效數字,并按大小排序,統計其所對應的數據個數,見圖3. 圖3 計算所得d所對應的數據個數統計 觀察圖中曲線走勢,將圖中曲線峰值對應的d設定為E,即E=0.10. 運用MATLAB編寫DBSCAN算法程序,將對應的M和E參數值輸入,可得部分聚類結果,見表1.表1中:K表示第K類聚類簇;K值為空的權重向量為游離狀態,未歸入任何一個聚類簇,這些權重向量即為分析出的異常權重向量,見圖4. 表1 部分聚類結果 圖4 權重向量異常分析結果 指標權重向量在常用的水上交通安全加權評價法中扮演著重要的角色,因評價中的權重系數通常由一定數量的領域內專家主觀賦權,因此得到的權重向量可能產生異常.DBSCAN算法是一種基于密度的聚類算法,適用于任意形狀的聚類,對異常數據敏感性高.本文將DBSCAN算法運用于異常權重向量的分析,實驗顯示:在130組數據中,異常權重向量共3組,從數據分布情況看,分析出的異常向量與正常向量有比較明顯的差異,因而此方法可行.總之,對權重向量集進行分析后,可防止異常權重向量的干擾,對提高評價結果的質量有一定的效果. 參考文獻: [1]張侃, 趙仁余. 模糊綜合評判中零關系指標對船舶航行環境安全評價結果的影響[J]. 上海海事大學學報, 2007, 28(3): 16-18. [2]王靖, 張金鎖. 綜合評價中確定權重向量的幾種方法比較[J]. 河北工業大學學報, 2001, 30(2): 52-57. [3]孫曉東, 田澎. 群決策中基于一致性強度的專家意見集結方法[J]. 系統工程與電子技術, 2008, 30(10): 1895-1898. [4]蘇為華,吳鑑洪.Delphi-AHP構權過程中專家意見一致性的統計檢驗問題研究[J].統計研究, 2010, 27(7): 84-88. [5]吳建軍,肖英杰.基于集對分析的定線制水域航行環境的綜合安全評價[J].上海海事大學學報, 2011, 32(1): 30-34. [6]吳建軍,蔡垚,劉正江.綜合安全評價中指標權重的集對分析[J].中國航海, 2010, 33(3): 60-63. [7]劉強, 王鳳武, 岳興旺. 模糊變權法在船舶綜合安全評價中的應用[J]. 大連海事大學學報, 2010, 36(4): 21-22. [8]蘇曉珂. 基于聚類的異常挖掘算法研究[D]. 上海: 東華大學, 2010. [9]張曉. 基于密度聚類算法的異常檢測[J]. 伊犁師范學院學報:自然科學版, 2010(4): 51-54. [10]TAN Pang-Ning, STEINBACH M, KUMAR V. 數據挖掘導論[M]. 范明, 范宏建, 譯. 北京: 人民郵電出版社, 2006: 383-464. [11]HAN Jiawei, KAMBER M. 數據挖掘概念與技術[M]. 范明, 孟小峰, 譯. 2版. 北京:機械工業出版社, 2007: 251-303. [12]王天真, 劉萍, 湯天浩, 等. 一種基于k-means聚類的航運信息孤立點分析算法[J].上海海事大學學報, 2011, 32(3): 54-57. [13]楊延嬌, 門維江. 基于異常點挖掘的聚類算法比較研究[J]. 甘肅聯合大學學報, 2008, 22(1): 87-90. [14]熊忠陽, 孫思, 張玉芳, 等. 一種基于劃分的不同參數值的DBSCAN算法[J]. 計算機工程與設計, 2005, 26(9): 2319-2321.
3 權重向量異常分析實例
3.1 確定參數



3.2 實驗結果


4 結束語